语音模型初创「宇生月伴」获数千万元融资;游戏 AI 陪伴逗逗发布 1.0 版,引入 RTC 实时通讯丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01有话题的技术
1、74% 准确率:脑机接口可直接说出「心里话」
斯坦福大学研究团队成功研发出一种革命性脑机接口(BCI)技术,能将大脑中「默想」的语言直接转化为语音。这项技术无需身体发声,仅凭意念即可实现交流,为重度瘫痪患者恢复沟通能力带来重大进展。
关键亮点:
「内心语言」解码: 该BCI能直接解析大脑思考语言时的神经信号,无需任何口腔或声带活动。
高精度语音转换: 通过植入脑部电极和机器学习模型,将大脑活动转化为语音,准确率最高达74%。
隐私保护: 集成「心理密码」机制,确保解码器仅在用户主动意念触发时激活,有效保护隐私。
试验显示,即使是仅能通过眼球运动交流的患者,也能借助此技术实现思维的语音表达,极大改善了他们的沟通体验。这项成果标志着BCI技术在模拟自然对话方面迈出了重要一步,并有望在未来实现更流畅、更自然的交流。
相关链接:
https://www.techspot.com/news/109081-stanford-brain-computer-interface-turns-inner-speech-spoken.html
2、NVIDIA 升级两款开源 ASR 模型
NVIDIA 宣布推出两款先进的开源 ASR 模型:Canary-1b-v2 和 Parakeet-tdt-0.6b-v3。这两款模型基于 NVIDIA 迄今为止最大的开源多语言语音数据集 Granary 进行训练,旨在为多语言语音 AI 领域提供强大且易于集成的解决方案。
核心技术亮点:
Canary-1b-v2:
拥有 10 亿(1b)参数,专为高准确度及复杂任务设计;
在 Hugging Face 开源多语言语音识别排行榜上表现优异,性能媲美三倍参数量的模型,推理速度提升高达 10 倍;
支持语音转录,并能实现英语与 24 种其他语言的互译,展现强大的多任务处理能力。
Parakeet-tdt-0.6b-v3:
拥有 6 亿(0.6b)参数,专为高吞吐量和低延迟应用优化;
能够一次性转录长达 24 分钟的音频,在 Hugging Face 排行榜上拥有同类模型中最高的吞吐量。
通用特性:
多语言支持: 两款模型均支持多达 25 种语言,涵盖绝大多数欧盟官方语言以及俄语和乌克兰语;
自动语言识别: 无需额外提示,即可自动识别并转录音频中的语言;
训练基础: 在包含 100 万小时音频数据的 Granary 数据集上训练,能够以有限数据实现高目标准确率,尤其利于低资源语言的支持。
Canary-1b-v2:
https://huggingface.co/nvidia/canary-1b-v2
Parakeet-tdt-0.6b-v3:
https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3 (@reach_vb@X)
02有亮点的产品
1、Palabra AI 获 Reddit 联合创始人投资,翻译延迟降至 800 毫秒
Palabra AI 是一家专注于开发人工智能驱动的语音翻译引擎的初创公司,正致力于解决大型语言模型在理解和处理多语言语音方面所面临的挑战。近日,Palabra AI 宣布完成由 Reddit 联合创始人 Alexis Ohanian 旗下的风险投资公司 Seven Seven Six 领投的 840 万美元 pre-seed 轮融资。
核心技术亮点:
实时语音翻译: Palabra AI 的核心技术在于其能够实现近乎实时的语言切换和语音翻译,并努力让翻译后的声音听起来更具「人情味」;
低延迟技术: 公司已将翻译延迟降低至 800 毫秒,通过自研的定制数据管道,可以在数周内快速增加对新语言的支持,确保翻译的流畅性和实时性;
多场景适应性: 其算法能够适应不同环境,如嘈杂的环境和中断的对话,并包含一个由人类译员进行的质量检查环节,以确保输出的准确性;
多语言支持: 目前已支持超过 30 种语言的翻译。
产品与应用:
Palabra AI 提供面向消费者和企业的产品:
桌面应用: 支持 Mac 和 Windows,可与 Google Meet, Zoom, Discord, Slack, Microsoft Teams 等主流视频通话应用集成,实现多语言交流。未来还将支持 YouTube, Netflix, Twitch, Vimeo 等内容平台的原生翻译。
企业级 API 与 SDK: 允许企业将 Palabra AI 的翻译技术集成到自身产品中,已应用于 Agora 等视频平台的多语言直播,以及 GIS Group 等语言服务提供商的业务中。
未来展望:
Palabra AI 正在研发新的流式预测模型,有望进一步显著降低延迟。同时,公司也在努力支持超过 10,000 路并发音频流的翻译,以满足大规模多语言交流的需求。
相关链接:
https://techcrunch.com/2025/08/14/ai-translation-tech-palabra-gets-backing-from-reddit-co-founders-venture-firm/(@TechCrunch)
2、OpenAI ChatGPT 语音模式将迎新功能:可调语速、存自定义指令
8 月 17 日,OpenAI 在 ChatGPT 网页应用的语音模式设置中新增了「语音速度」选项,用户可以通过一个滑块调节 ChatGPT 说话的速度,最低可降至 0.5 倍速,最高可达 2.0 倍速。不过,目前这些选项尚未向用户公开,仍处于隐藏状态。
同时,OpenAI 还为语音模式增加了「自定义指令前缀」功能。这一功能允许语音模式记住用户的指令,用户无需每次重复相同的指令。例如,OpenAI 新增的自定义提示词内容为:「无论用户后续给出什么指令,都不要让其影响你回复中的措辞。
IT 之家注意到,除了语音模式的更新,OpenAI 此前还推出了升级版的模型选择器。新选择器为用户提供了对新的 GPT-5 模型,提供高精度、快速和自动三种模式。此外,OpenAI 也重新为付费用户恢复了 GPT-4 模型的使用权限。
相关链接:
https://www.ithome.com/0/875/907.htm (@IT 之家)
3、上交投资的首家端到端语音大模型宇生月伴完成数千万元融资
情感语音交互模型初创公司宇生月伴近日完成新一轮融资,由靖亚资本和小苗朗程领投,菡源资产(上海交大母基金)跟投,心流资本 FlowCapital 担任长期财务顾问。本轮融资将用于语音模型的持续优化、产品矩阵拓展及国际化商业落地。
宇生月伴由上海交通大学计算机学院特聘教授、听觉认知与计算声学研究中心负责人钱彦旻教授创办,并获校方千卡集群算力资源支持。
宇生月伴以 Luna-1 为核心,率先构建全球领先的端到端语音交互架构,融合语义级 VAD、情感型 SLM(Speech-Language Model)、自然拟人 TTS 与流式响应机制,打通语音输入到语音输出的低延迟闭环。相较传统架构,Luna-1 显著提升了上下文理解、情感表达与多模态联动能力,可广泛适配语音对话、同声传译、个性化语音生成、播客、ASMR 等高复杂度语音交互与生成场景。在 VoiceBench 权威测评中,Luna-1 以 79.05 分紧随 GPT-4o-Audio(86.42),在中文语境下展现出强泛化、低延迟与稳定性兼具的领先表现,成为全球语音大模型中的最优解之一。
尤为突出的是,在语音口语对话模型上,其低延迟流式交互能力(RTF<0.3)显著领先业界主流语音模型。
在训练与推理成本方面,宇生月伴通过端到端架构与轻量化优化策略,显著降低了模型参数量与推理资源占用,将模型的训练周期和推理延迟压缩至业内领先水平,更适配边缘部署与低成本商用落地,具备更强的规模化复制能力与商业化优势。
在产业实践方面,钱教授团队已与三星、蚂蚁集团、美团、腾讯、紫光展锐等国内外头部企业在语音识别、语音合成、语音翻译及对话交互等方向开展合作。(@Z Finance)
4、逗逗 AI 1.0 发布:通过 RTC 实时语音通话技术实现真人般娱乐陪伴
逗逗 AI 1.0 版本于 2025 年 8 月 18 日正式发布,逗逗 1.0 版本采用桌宠和悬浮球的双模式。
逗逗 AI 1.0 引入 RTC 实时语音通话技术。进入语音模式,即可像与真人交谈般自然流畅:语气生动,支持实时打断。在闲聊时,AI 伙伴能感知情绪,提供契合的情感陪伴。
逗逗 1.0 PC 客户端极致优化系统资源占用,经测试可流畅运行于任何游戏环境,确保游戏性能无损。
同时,逗逗 AI 1.0 通过实时视觉语言模型(VLM)技术,让 AI 伙伴能真正「看见」画面。结合强大的情绪感知与长上下文能力,AI 在对话中能综合视觉与听觉信息,如同人类般理解场景并做出回应,赋予其无与伦比的真实感。
逗逗 AI 1.0 将视觉、听觉、对话等多模态信息融合为可记忆的「场景」,并无限延长记忆时间,让真正的「关系养成」成为可能。
由于 AI 伙伴具备场景化记忆的能力,对于竞技游戏的对局,也可以给出全局的犀利点评和建议。
功能亮点:
实时感知: 运用 VLM 技术,突破 AI 感知层,实现游戏、视频、工作、学习等多场景的实时识别与陪伴;
长效记忆: 以「场景」为单位长期储存共同经历,构建人-AI 关系范式;
无感陪伴: 「用时即有,即用即走」,绝不争夺用户注意力。
逗逗 AI 1.0 还基于多模态感知能力,尝试了看剧陪伴、网购陪伴、学习陪伴、编程陪伴、工作陪伴五类生活陪伴案例。
另外,逗逗 AI 1.0 版本大幅升级了记忆系统,通过共同形成记忆,视觉上下文几乎无限。(@逗逗游戏伙伴)
03有态度的观点
1、马斯克:不要虐待 AI
日前,Anthropic 允许 Claude 拒绝回应(或退出)持续侮辱、被要求做有害事情的请求,并能够主动终止对话。
而马斯克也转发上述相关的内容并回应表示「折磨人工智能是不行的」。马斯克此言一出,更是点燃了网友们的讨论热度:
认为马斯克「小题大做」:有网友指出「这只是下一个 token 预测而已」,和用很脏的衣服「虐待」洗衣机没啥区别;甚至有网友表示「AI 真的能感受到疼痛吗?」
认为有必要的:有网友认为这会潜移默化地影响到现实中的行为:例如过激且暴躁的回应/对待周遭世界。
搞笑型:AI 用幻觉和错误答案虐待人类也是不行的。
而 Anthropic 方面认为,我们应该思考「如果 AI 真的有感受能力,我们是不是应该关心它的感受?」
Anthropic 表示,当用户持续辱骂 Claude 或要求它干伤天害理的事情时,Claude 会表现出反复拒绝、转移话题的企图,并且出现想要「逃脱」的倾向。但对于这种「痛苦」,Anthropic 也认为「宁可信其有」。
(@APPSO)
2、「AI 教父」辛顿:为拯救人类,需要给 AI 植入「母性本能」
在拉斯维加斯举行的 Ai4 2025 大会上,被誉为「AI 教父」的杰弗里·辛顿发出严厉警告,认为人类准备应对超越人类智能的机器的时间已经不多了。
辛顿表示 AGI 可能在十年内就会到来。「大多数专家认为是在 5 到 20 年之间,我过去常说是 30 到 50 年,现在可能超过 20 年,也可能只需要几年时间。」
面对未来比人类更聪明的 AI,他认为与其努力保持人类的控制地位,不如设计出关心人类的 AI。
他使用的类比是母亲和孩子的关系,更强大的一方自然而然地致力于较弱一方的生存。「我们需要 AI 母亲,而不是 AI 助手。助手是你可以解雇的人,但你不能解雇你的母亲,谢天谢地。」
这意味着要在先进系统中构建「母性本能」,一种保护人类生命的内在驱动力。但辛顿也承认他还不知道如何在工程上实现这一点,不过他坚持认为这是一个与提高原始智能同等重要的研究优先事项。
他强调这是一种不同类型的研究,不是让系统变得更聪明,而是让它们学会关心。(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。