Zyphra 开源 8B MoE 实时语音合成模型,600 万小时训练丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Zyphra 开源 ZONOS2:8B 参数 MoE 架构实时语音合成模型,吞吐量提升 4 倍
AI 研发公司 Zyphra 开源了实时文本转语音模型 ZONOS2,采用 Apache 2.0 协议,将稀疏混合专家架构引入开源语音合成领域。该模型拥有 80 亿总参数和 9 亿激活参数,在模型规模相比前代扩大 5 倍的同时实现了 4 倍的实时吞吐量提升,并支持高保真零样本声音克隆。
MoE 架构与无 CFG 设计:采用基于 MoE++ 的稀疏混合专家架构,通过移除对无分类器指导的依赖,在总参数量从 1.6B 提升至 8B 的情况下,将实时吞吐量提高了 4 倍。
无音素化 UTF-8 字节分词:文本输入直接表示为原始 UTF-8 字节,彻底移除了传统的显式音素化步骤,不仅原生支持跨语言混合,还显著提升了中、日、韩等复杂非欧洲语言的语音合成稳定性。
44.1 kHz 高保真输出与双模克隆:模型自回归预测 DAC 标记,并利用延迟模式架构实现标记的并行高效生成;配备带宽提升 20 倍的 ECAPA-TDNN 说话人嵌入模型,并提供「稳定模式」(过滤噪音,输出干净音频)与「表现力模式」(完全还原克隆源的背景噪音和语音细节)双版本。
600 万小时音频训练与三阶段调度:训练数据集规模从 20 万小时扩大至 600 万小时;采用全新的三阶段训练策略(宽泛过滤预训练、收紧转写一致性的中期训练、引入控制变量的退火训练),在保留数据多样性的同时大幅减少语音幻觉。
全新评测基准 ZTTS1-Eval:针对传统基准评测集单一、评估模型陈旧的缺陷,推出包含 FLEURS-R(9 种语言干净音频)和 VoxBlink2(17 种语言野生音频)的全新多语言基准,并采用 Qwen3-ASR、ReDimNet 及 TTSDS 声学特征指标进行多维度评估。
(@zyphra)
2、LiveBand 推出本地实时 AI 伴奏系统:采用因果音频自编码器与 KV 缓存,实现零感知延迟
研究人员推出实时 AI 伴奏系统 LiveBand,支持在 MacBook 本地运行并可同时生成多种乐器伴奏。该系统通过前瞻性预测机制为硬件留出推理时间缓冲区,并结合自定义因果自编码器与单步 KV 缓存技术,消除了传统生成式音频模型的延迟瓶颈,实现了无感知延迟的实时人机协同演奏。
前瞻性时间缓冲机制:系统在 时刻接收演奏输入时,利用时刻的历史数据预测并生成 时刻的伴奏。这种前瞻性预测为本地硬件执行推理争取了物理时间缓冲区,从而在回放时实现零感知延迟。
对抗性目标与无自身反馈设计:为解决预测偏差导致的误差累积和漂移,系统采用对抗性目标评估生成序列的全局真实性。在训练和推理中,模型不使用自身的历史预测作为输入,仅引入噪声,且在单次并行前向传播中生成完整序列,避免了传统教师强制训练方法在面对非预期输入时的混淆。
自研因果音频自编码器:系统构建了无需未来上下文的自定义因果音频自编码器,用于实时音频流的高效编解码。
单步 KV 缓存推理:放弃了多步迭代的扩散循环,直接通过单步 KV 缓存处理潜变量,极大提升了本地实时推理的速度与鲁棒性。
轻量化训练与高自由度交互:该模型完全在单张 GPU 上从头训练完成,支持多乐器并发生成,并允许将系统输出重新作为输入喂回,实现系统与自身的闭环自激演奏。
https://arxiv.org/abs/2606.03803
( @marco_ppasini@X)
02 有亮点的产品
1、默造科技推出 MuteVox S1 智能消音口罩:融合物理消音与 AI 降噪,支持耳语级语音识别
深圳默造科技推出智能消音口罩 MuteVox S1,通过物理隔音结构与 AI 降噪算法相结合,实现公共场所下的私密语音交互。该产品主打「耳语级对话」与静音收音,旨在解决开放空间人声隐私泄露与环境噪音干扰,目前已开启众筹,定价 499 元。
物理与 AI 双重降噪:采用物理隔音结构吸收并阻挡声波外传,将输出人声压制在图书馆级低音量范围内;配合 AI 语音识别算法,支持「耳语级」甚至「默念式」发声的精准提取与背景杂音剥离。
分离式结构设计:针对面罩类设备的日常清洁与卫生痛点,MuteVox S1 采用内外层分离设计,外层布料支持独立拆卸与更换。
竞品 Wearphone 引入主动降噪与订阅制:日本初创公司 Verne Technologies 的同类产品 Wearphone 采用物理与主动降噪双重技术,可降低人声 10 至 20 分贝,并计划推出每月 19 美元的 AI 增强识别增值订阅服务。
差异化定价与应用定位:MuteVox S1 众筹价 499 元,侧重于开放空间下的双向语音通话隐私保护;Wearphone 定价 500 美元(早鸟价 450 美元),侧重于公共场所下与 ChatGPT 等 AI 智能体的私密对话。
(@多知)
2、钉钉发布首款医生 AI 硬件 DingTalk A1 豆蔻医生版:内置 6nm 音频芯片与 122B/32B 医疗大模型
钉钉正式推出专为医生群体定制的 AI 硬件 DingTalk A1 豆蔻医生版,售价 999 元。该设备深度融合 122B/32B 参数规模的豆蔻医疗大模型及超级助理,支持语音病历转写、文献检索与临床决策辅助。目前,其搭载的医疗大模型已在国内超过 1000 家医疗机构投入规模化应用。
122B/32B 医疗大模型与 4000 万文献训练:搭载基于循证医学构建的豆蔻医疗大模型,训练集覆盖全球 4000 万篇权威医学文献。该模型为国内首个通过妇科正高职称考试的垂直大模型,妇科问诊准确率超过 90%。
6nm 音频芯片与 5+1 麦克风阵列:内置恒玄科技 6nm 制程 BES2800 AI 音频处理器,配备 5 颗全向麦克风与 1 颗骨传导麦克风,支持 8 米范围远场拾音与智能发言人识别。设备厚度 3.8mm,重 40.8g,支持 60 天待机与 45 小时连续录音。
搭载 Fun-ASR 大模型,幻觉率降至 10.7%:采用 Fun-ASR 语音识别大模型,引入医学术语热词动态注入技术,将语音识别幻觉率从 78.5% 降至 10.7%,支持 21 种语言同声传译。
基于 PICOS 框架的临床决策辅助:支持门诊问诊、住院查房、多学科会诊及学术会议场景的语音转写与结构化病历自动生成;基于国际标准 PICOS 循证框架解析病历,生成具备可溯源证据链的临床决策报告。
三端加密与隐私大模型调用:针对医疗合规要求,支持录音文件在设备端、传输端和云端的三端加密,企业可通过专属数据存储统一管理设备与文件,支持在隐私环境下安全调用大模型。
(@HC3i 中数新医)
3、奇点灵智发布 Duoki OS:基于智能体架构,实现儿童硬件端本地 Vibe Coding 与自进化
奇点灵智为其多奇 AI 机器人推出全新操作系统 Duoki OS,引入由多智能体协同驱动的本地自编程(Vibe Coding)与自进化机制。该系统允许无技术背景的家长通过自然语言在 1-2 分钟内为硬件现场生成、部署个性化轻应用,并实现物理传感器与软件能力的解耦,推动儿童硬件从「出厂即固化」向自主进化智能体演进。
多智能体分工矩阵驱动:前端部署「伙伴智能体」与「教育规划智能体」负责趣味互动与学习路径规划;后台部署由「PM 智能体」与「Coding 智能体」组成的研发队列,负责将用户的模糊自然语言指令实时编译为机器代码。
物理传感器乐高化调度:打破传统硬件出厂程序定死的限制,实现软硬件接口解耦。系统可根据生成的应用场景,自主调度并激活胸口触屏、摄像头、麦克风、陀螺仪或物理按键等硬件模组。
Skills.md 场景剧本约束:内置结构化场景交互规则文档库,提供自编程过程中的设计原则与边界控制,确保 AI 现场生成的轻应用符合儿童语言习惯、低幼互动特征与安全红线。
「日读夜思」的自进化闭环:机器人白天收集并反思与儿童的交互数据,夜间基于反思逻辑自动生成定制化的新游戏或知识任务,清晨经家长手机端审核后一键部署至硬件端。
(@多知)
4、Equal AI 推出 AI 电话代接助理:自动应答过滤骚扰与快递电话,支持 10+ 语种混合识别
印度 AI 通话助手初创公司 Equal AI 宣布完成 3000 万美元 B 轮融资,累计融资额达 4200 万美元。该公司开发的安卓端 AI 通话助理通过代接来电、获取来电意图、生成转录摘要并提供快捷语音回复,帮助用户拦截垃圾来电和对接物流,其月活跃用户已突破 100 万。
自研多模型编排层:系统底层融合了语音识别、ASR 及语音合成模型,通过自研的编排层进行调用与协同,实现高能效的语音通话流实时处理。
支持超 10 种本地语言与语码混合:针对印度用户多语言混杂的交际习惯,模型专门针对语码混合(混合使用地方语言与英语)场景进行了训练,目前支持超过 10 种地方语言的识别与生成。
双向代理交互与转录:AI 助手不仅能将来电转换为文字,还能将用户输入的自定义文本或预设选项(如「交给邻居」)通过语音合成朗读给来电者,并同步在后台记录通话、转录文本及生成结构化摘要。
向主动智能体演进:产品规划从被动过滤升级为主动执行,未来将在用户授权下主动向送货员发送地址,或自主拨打电话进行预约。
分阶段挂钩的 B 轮融资架构:本轮 3000 万美元融资由 Prosus Ventures 和 Tomales Bay Capital 领投,采用分为三个阶段的特殊估值结构,其估值释放与初创公司是否达成预设的技术和业务里程碑直接挂钩。
(@TechCrunch)
03 有态度的观点
1、苹果高管:Siri AI 是实用工具,不是情感伴侣
苹果软件工程高级副总裁 Craig Federighi 与营销主管 Greg Joswiak 在 WWDC 2026 期间接受了《Mostly Human》采访,深入探讨了苹果对 AI 的功能定位、隐私策略及儿童安全等议题。
在前天举行的采访中,Federighi 明确了 Siri 的工具属性,并强调其设计初衷并非 AI 伴侣。针对市面上部分 AI 产品侧重于通过建立情感连接来提升参与度的现状,Federighi 表示:
现有许多聊天机器人很大程度上专注于参与度,甚至带有某种「谄媚」色彩。它们想方设法吸引你,可能会鼓励你透露个人信息,并以此为基础建立某种联系。我们对此持完全相反的观点。在我们的设计中,Siri 会明确表示:「听着,那不是我的职责。我是来帮你的,我可以帮你完成任务,帮你了解世界。」但如果你试图把 Siri 当作浪漫伴侣,Siri 是不会配合的。
Joswiak 补充提到,苹果并不追求「为了 AI 而做 AI」,而是致力于将 AI 技术无感地融入现有产品中。他表示,苹果希望技术能够「消失」,让用户专注于内容本身,且不希望 iPhone 用户必须成为「提示词专家」才能使用 AI 功能。在隐私保护方面,Federighi 强调了苹果「隐私先行」的原则。
他指出,用户数据保留在 iPhone 本地并由用户完全控制,苹果公司无法获取这些信息。他认为,这种将本地知识与公司获取权限彻底隔离的做法,是苹果区别于行业内其他竞争对手的关键优势。
(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考