英伟达领投，语音AI初创Uniphore估值25亿美元；ElevenLabs创始人：语音的意义不在准确，而在打动丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、Adobe MotionStream：实时生成，解锁交互式动效控制

Adobe 研究团队发布了 MotionStream，实现可交互动作控制的实时视频生成。模型在单张 NVIDIA H100 GPU 上实时运行（29 FPS，0.4 秒延迟）。

论文链接：

https://huggingface.co/papers/2511.01266

( @_akhaliq@X)

2、美团 LongCat 发布 UNO-Bench 基准

多模态人工智能正从单一感知能力迈向视觉、音频与文本的统一融合，即全模态大模型（Omni-models）时代。然而，相应的评测体系却相对滞后。现有的评测工具不仅稀缺、各自为战，且几乎完全以英文为中心，缺乏对中文场景的有效支持。此外，一些现存的数据集在设计上存在局限性，例如部分问题的解答路径并非严格依赖于多模态信息的融合，这为科学评估模型真实的跨模态能力带来了一定的复杂性。

针对这些痛点，美团 LongCat 团队提出了一套高质量、多样化的一站式全模态大模型评测基准——UNO-Bench。该基准通过一个统一的框架，不仅能同时精准衡量模型的单模态与全模态理解能力，更首次验证了全模态大模型的「组合定律」——该定律在能力较弱的模型上呈现为短板效应，而在能力较强的模型上则涌现出协同增益，为行业提供了一种全新的、跨越模型规模的分析范式。

这一发现的背后，是其系统性的数据构建流程：通过完全人工标注确保高质量与丰富度，有效防止数据污染。此外，该团队还引入了创新的「多步开放式问题」，旨在突破传统选择题的局限，更具区分度地刻画模型在复杂链路上的推理能力。

02有亮点的产品

1、硅谷 AI 语音公司 Uniphore 获 2.6 亿美元 F 轮融资，英伟达领投，估值 25 亿美元

硅谷 AI 语音公司 Uniphore 近日宣布完成 2.6 亿美元 F 轮融资，英伟达领投，估值 25 亿美元。

Uniphore 是一家专注于人工智能和自动化会话技术的全球独角兽企业，其创新产品正在推动客户服务、营销、运营等领域的商业变革，持续满足大型企业在数据主权、安全、合规与效率方面的严苛要求。

Uniphore 旗下主要产品涵盖：

会话分析（Conversation Insights Agent）：企业级对话智能，聚合自动化调优与高性能推理，助力业务洞察与决策。
智能自助客服（Self-Service Agent）：以 AI 虚拟助手为核心，通过语音与数字渠道提供全天候人性化服务，快速响应客户需求，并以企业知识库为基础保证准确性。
实时代理助手（Real-time Guidance Agent）：为客户服务座席提供 AI 驱动的实时指导和自动事务处理，显著提升工作效率与一致性。
企业通信录制（Communication Recording Agent）：跨渠道安全记录互动内容，支持质量监控和合规管理。
市场营销 AI CDP 与代理（Marketing Agent）：专为现代市场营销设计，涵盖产品知识助理、语义搜索、受众细分等，快速激活企业第一方数据并确保 GDPR 等法规合规。

Uniphore 立足于商业 AI 与客户服务自动化行业，服务对象包括全球银行、电信、医疗、零售、BPO 等企业。公司率先提出零数据 AI 云和多层 AI 架构，打通可组合数据层、知识层、模型层与代理层，实现企业级 AI 真实应用。Business AI Cloud 平台强调数据主权、模块化和高安全性，支持多模态数据处理与严格的合规性控制，尤其在欧洲、东南亚、中东、美国等区域市场加速扩张。

解决行业痛点

客服与运营自动化降本增效：将传统呼叫中心人工服务升级为 AI 自助、自动化质量监控、实时指导、后台流程自动化，大幅度提升业务效率。
数据主权与合规：通过主权化 AI 云平台，保证客户数据不流失，满足欧盟《人工智能法案》和 GDPR 等全球合规要求。
多语言智能服务：覆盖全球多语言及地方化需求，尤其支持印度语言和方言，为新兴市场提供普适化语音技术。
AI 模型个性化与行业定制：为企业带来可定制小型语言模型，快速适配金融、零售等行业场景。

（@硅谷 VC 圈）

2、AirCaps 推出 AR 眼镜：提供实时字幕、翻译和主动 AI 洞察

AirCaps 推出革命性软件，将 AI 智能体辅助功能引入真实世界的面对面对话。通过轻量化 AR 眼镜，该产品提供实时字幕、翻译和主动 AI 洞察，旨在解决虚拟会议 AI 盛行但线下对话缺乏技术辅助的痛点。它已为听障人士、多语言沟通者和会议密集型专业人士提供服务，并展现出惊人的用户参与度与商业增长，有望成为面对面沟通的捕获与智能层。

将 AI 助理引入真实对话： AirCaps 致力于将实时字幕、翻译和主动 AI 洞察直接呈现在用户的 AR 眼镜视野中，从而为线下会议和面对面交流提供智能辅助。
解决线下对话痛点： 传统技术（手机、耳机、笔记本）在面对面交流中存在社交障碍和技术限制（噪音、重叠语音），导致高达 50% 的对话内容难以理解和记忆，而 AirCaps 通过 AR 眼镜提供不中断眼神交流、无声的解决方案。
多目标用户群体： 广泛服务于听障人士（提供噪音环境下的实时字幕）、多语言沟通者（实时翻译），以及医疗工作者、高管、销售人员等需要高风险对话中实时 AI 智能体辅助的专业人士。
团队背景与时机优势： 创始人 Madhav Lavakare （CEO）和 Nirbhay （CTO）拥有 11 年智能眼镜开发经验和音频 AI 专业知识。

（@AirCaps 团队）

3、GPT-5 Pro 新增「实时上下文更新」机制：赋能动态长查询

GPT-5 Pro 近期引入了「实时上下文更新机制」（Real-time Context Injection），这一革命性功能允许用户在进行深度研究、报告撰写或技术分析等长时间、复杂查询时，能够随时插入新的信息或调整方向，而无需重启整个对话。此举显著提升了 LLM 智能体处理复杂任务的灵活性和效率，使 GPT-5 Pro 能够记住并修订之前的推理路径，为用户提供更连贯、更动态的 AI 辅助体验。

03有态度的观点

1、ElevenLabs 创始人：语音的意义不在准确，而在打动

ElevenLabs 首席执行官兼联合创始人 Mati Staniszewski j Jennifer Li 一起探讨了团队如何以闪电般的速度交付研究级人工智能产品—从文本转语音、完全授权的 AI 音乐到实时语音代理，以及语音为何是人机交互的下一代界面。他还分享了团队的小型自主模式、全球招聘策略，以及语音市场如何在发展成为企业级平台的同时，为创作者支付超过 1000 万美元的报酬。

Mati 在节目的后半段提出一个更宏观的观点：「Voice isn't a feature-it's the experience itself。」（语音不是一个功能，而是一种体验。）他认为未来的 AI 公司如果还把语音当作「插件」，就会错过整个体验革命。语音不再只是输出层，而是交互逻辑的核心。语音是情感的界面，也是信任的入口。

他举例说，新闻类 App 如果由 AI 语音朗读时，语调轻微的变化就能影响用户对事件的情绪判断。同样，在教育场景里，语音的节奏和语气甚至能影响学生的注意力持续时间。Mati 说：「设计语音体验，其实是在设计情绪曲线。」

ElevenLabs 的产品哲学是「less control, more presence」（减少操作感，增强沉浸感）。他希望用户感受到的不是「使用一个 AI」，而是「在与一个有温度的声音对话」。团队因此专门设立「人文感知」小组，成员包括语言学家、心理学家和编剧。他们的任务是—让机器学会「停顿」和「呼吸」。

Mati 强调：「语音的意义不在准确，而在打动。」他引用了一段公司内部文档：「People don't remember words.They remember how you made them feel。」（人不会记住你说了什么，只会记住你让他们的感受。)

（@晚点再听 LaterCast）