英伟达领投,语音AI初创Uniphore估值25亿美元;ElevenLabs创始人:语音的意义不在准确,而在打动丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、Adobe MotionStream:实时生成,解锁交互式动效控制

Adobe 研究团队发布了 MotionStream,实现可交互动作控制的实时视频生成。模型在单张 NVIDIA H100 GPU 上实时运行(29 FPS,0.4 秒延迟)。

论文链接:

https://huggingface.co/papers/2511.01266

( @_akhaliq@X)

2、美团 LongCat 发布 UNO-Bench 基准
图片

多模态人工智能正从单一感知能力迈向视觉、音频与文本的统一融合,即全模态大模型(Omni-models)时代。然而,相应的评测体系却相对滞后。现有的评测工具不仅稀缺、各自为战,且几乎完全以英文为中心,缺乏对中文场景的有效支持。此外,一些现存的数据集在设计上存在局限性,例如部分问题的解答路径并非严格依赖于多模态信息的融合,这为科学评估模型真实的跨模态能力带来了一定的复杂性。

针对这些痛点,美团 LongCat 团队提出了一套高质量、多样化的一站式全模态大模型评测基准——UNO-Bench。该基准通过一个统一的框架,不仅能同时精准衡量模型的单模态与全模态理解能力,更首次验证了全模态大模型的「组合定律」——该定律在能力较弱的模型上呈现为短板效应,而在能力较强的模型上则涌现出协同增益,为行业提供了一种全新的、跨越模型规模的分析范式。

这一发现的背后,是其系统性的数据构建流程:通过完全人工标注确保高质量与丰富度,有效防止数据污染。此外,该团队还引入了创新的「多步开放式问题」,旨在突破传统选择题的局限,更具区分度地刻画模型在复杂链路上的推理能力。

相关链接:

https://meituan-longcat.github.io/UNO-Bench

(@ LongCat)



02有亮点的产品

1、硅谷 AI 语音公司 Uniphore 获 2.6 亿美元 F 轮融资,英伟达领投,估值 25 亿美元

硅谷 AI 语音公司 Uniphore 近日宣布完成 2.6 亿美元 F 轮融资,英伟达领投,估值 25 亿美元。

Uniphore 是一家专注于人工智能和自动化会话技术的全球独角兽企业,其创新产品正在推动客户服务、营销、运营等领域的商业变革,持续满足大型企业在数据主权、安全、合规与效率方面的严苛要求。

Uniphore 旗下主要产品涵盖:

  • 会话分析(Conversation Insights Agent):企业级对话智能,聚合自动化调优与高性能推理,助力业务洞察与决策。

  • 智能自助客服(Self-Service Agent):以 AI 虚拟助手为核心,通过语音与数字渠道提供全天候人性化服务,快速响应客户需求,并以企业知识库为基础保证准确性。

  • 实时代理助手(Real-time Guidance Agent):为客户服务座席提供 AI 驱动的实时指导和自动事务处理,显著提升工作效率与一致性。

  • 企业通信录制(Communication Recording Agent):跨渠道安全记录互动内容,支持质量监控和合规管理。

  • 市场营销 AI CDP 与代理(Marketing Agent):专为现代市场营销设计,涵盖产品知识助理、语义搜索、受众细分等,快速激活企业第一方数据并确保 GDPR 等法规合规。

Uniphore 立足于商业 AI 与客户服务自动化行业,服务对象包括全球银行、电信、医疗、零售、BPO 等企业。公司率先提出零数据 AI 云和多层 AI 架构,打通可组合数据层、知识层、模型层与代理层,实现企业级 AI 真实应用。Business AI Cloud 平台强调数据主权、模块化和高安全性,支持多模态数据处理与严格的合规性控制,尤其在欧洲、东南亚、中东、美国等区域市场加速扩张。

解决行业痛点

  • 客服与运营自动化降本增效:将传统呼叫中心人工服务升级为 AI 自助、自动化质量监控、实时指导、后台流程自动化,大幅度提升业务效率。

  • 数据主权与合规:通过主权化 AI 云平台,保证客户数据不流失,满足欧盟《人工智能法案》和 GDPR 等全球合规要求。

  • 多语言智能服务:覆盖全球多语言及地方化需求,尤其支持印度语言和方言,为新兴市场提供普适化语音技术。

  • AI 模型个性化与行业定制:为企业带来可定制小型语言模型,快速适配金融、零售等行业场景。

(@硅谷 VC 圈)


2、AirCaps 推出 AR 眼镜:提供实时字幕、翻译和主动 AI 洞察

AirCaps 推出革命性软件,将 AI 智能体辅助功能引入真实世界的面对面对话。通过轻量化 AR 眼镜,该产品提供实时字幕、翻译和主动 AI 洞察,旨在解决虚拟会议 AI 盛行但线下对话缺乏技术辅助的痛点。它已为听障人士、多语言沟通者和会议密集型专业人士提供服务,并展现出惊人的用户参与度与商业增长,有望成为面对面沟通的捕获与智能层
  • 将 AI 助理引入真实对话: AirCaps 致力于将实时字幕、翻译和主动 AI 洞察直接呈现在用户的 AR 眼镜视野中,从而为线下会议和面对面交流提供智能辅助。

  • 解决线下对话痛点: 传统技术(手机、耳机、笔记本)在面对面交流中存在社交障碍和技术限制(噪音、重叠语音),导致高达 50% 的对话内容难以理解和记忆,而 AirCaps 通过 AR 眼镜提供不中断眼神交流、无声的解决方案。

  • 多目标用户群体: 广泛服务于听障人士(提供噪音环境下的实时字幕)、多语言沟通者(实时翻译),以及医疗工作者、高管、销售人员等需要高风险对话中实时 AI 智能体 辅助的专业人士。

  • 团队背景与时机优势: 创始人 Madhav Lavakare (CEO) 和 Nirbhay (CTO) 拥有 11 年智能眼镜开发经验和音频 AI 专业知识。

(@AirCaps 团队)

3、GPT-5 Pro 新增「实时上下文更新」机制:赋能动态长查询

GPT-5 Pro 近期引入了「实时上下文更新机制」(Real-time Context Injection),这一革命性功能允许用户在进行深度研究、报告撰写或技术分析等长时间、复杂查询时,能够随时插入新的信息或调整方向,而无需重启整个对话。此举显著提升了 LLM 智能体处理复杂任务的灵活性和效率,使 GPT-5 Pro 能够记住并修订之前的推理路径,为用户提供更连贯、更动态的 AI 辅助体验。

相关链接:

https://x.com/imxiaohu/status/1986246690555457619

( @imxiaohu)



03有态度的观点 

1、ElevenLabs 创始人:语音的意义不在准确,而在打动

ElevenLabs 首席执行官兼联合创始人 Mati Staniszewski j Jennifer Li 一起探讨了团队如何以闪电般的速度交付研究级人工智能产品—从文本转语音、完全授权的 AI 音乐到实时语音代理,以及语音为何是人机交互的下一代界面。他还分享了团队的小型自主模式、全球招聘策略,以及语音市场如何在发展成为企业级平台的同时,为创作者支付超过 1000 万美元的报酬。

Mati 在节目的后半段提出一个更宏观的观点:「Voice isn't a feature-it's the experience itself。」(语音不是一个功能,而是一种体验。)他认为未来的 AI 公司如果还把语音当作「插件」,就会错过整个体验革命。语音不再只是输出层,而是交互逻辑的核心。语音是情感的界面,也是信任的入口。

他举例说,新闻类 App 如果由 AI 语音朗读时,语调轻微的变化就能影响用户对事件的情绪判断。同样,在教育场景里,语音的节奏和语气甚至能影响学生的注意力持续时间。Mati 说:「设计语音体验,其实是在设计情绪曲线。」

ElevenLabs 的产品哲学是 「less control, more presence」(减少操作感,增强沉浸感)。他希望用户感受到的不是「使用一个 AI」,而是「在与一个有温度的声音对话」。团队因此专门设立「人文感知」小组,成员包括语言学家、心理学家和编剧。他们的任务是—让机器学会「停顿」和「呼吸」。

Mati 强调:「语音的意义不在准确,而在打动。」他引用了一段公司内部文档: 「People don't remember words.They remember how you made them feel。」(人不会记住你说了什么,只会记住你让他们的感受。)

(@晚点再听 LaterCast)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

图片

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    英伟达领投,语音AI初创Uniphore估值25亿美元;ElevenLabs创始人:语音的意义不在准确,而在打动丨日报RTRTE_Dev_Comm