Zyphra 开源 8B MoE 实时语音合成模型，600 万小时训练丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Zyphra 开源 ZONOS2：8B 参数 MoE 架构实时语音合成模型，吞吐量提升 4 倍

AI 研发公司 Zyphra 开源了实时文本转语音模型 ZONOS2，采用 Apache 2.0 协议，将稀疏混合专家架构引入开源语音合成领域。该模型拥有 80 亿总参数和 9 亿激活参数，在模型规模相比前代扩大 5 倍的同时实现了 4 倍的实时吞吐量提升，并支持高保真零样本声音克隆。

MoE 架构与无 CFG 设计：采用基于 MoE++ 的稀疏混合专家架构，通过移除对无分类器指导的依赖，在总参数量从 1.6B 提升至 8B 的情况下，将实时吞吐量提高了 4 倍。
无音素化 UTF-8 字节分词：文本输入直接表示为原始 UTF-8 字节，彻底移除了传统的显式音素化步骤，不仅原生支持跨语言混合，还显著提升了中、日、韩等复杂非欧洲语言的语音合成稳定性。
44.1 kHz 高保真输出与双模克隆：模型自回归预测 DAC 标记，并利用延迟模式架构实现标记的并行高效生成；配备带宽提升 20 倍的 ECAPA-TDNN 说话人嵌入模型，并提供「稳定模式」（过滤噪音，输出干净音频）与「表现力模式」（完全还原克隆源的背景噪音和语音细节）双版本。
600 万小时音频训练与三阶段调度：训练数据集规模从 20 万小时扩大至 600 万小时；采用全新的三阶段训练策略（宽泛过滤预训练、收紧转写一致性的中期训练、引入控制变量的退火训练），在保留数据多样性的同时大幅减少语音幻觉。
全新评测基准 ZTTS1-Eval：针对传统基准评测集单一、评估模型陈旧的缺陷，推出包含 FLEURS-R（9 种语言干净音频）和 VoxBlink2（17 种语言野生音频）的全新多语言基准，并采用 Qwen3-ASR、ReDimNet 及 TTSDS 声学特征指标进行多维度评估。

(@zyphra)

2、LiveBand 推出本地实时 AI 伴奏系统：采用因果音频自编码器与 KV 缓存，实现零感知延迟

研究人员推出实时 AI 伴奏系统 LiveBand，支持在 MacBook 本地运行并可同时生成多种乐器伴奏。该系统通过前瞻性预测机制为硬件留出推理时间缓冲区，并结合自定义因果自编码器与单步 KV 缓存技术，消除了传统生成式音频模型的延迟瓶颈，实现了无感知延迟的实时人机协同演奏。

前瞻性时间缓冲机制：系统在时刻接收演奏输入时，利用时刻的历史数据预测并生成时刻的伴奏。这种前瞻性预测为本地硬件执行推理争取了物理时间缓冲区，从而在回放时实现零感知延迟。
对抗性目标与无自身反馈设计：为解决预测偏差导致的误差累积和漂移，系统采用对抗性目标评估生成序列的全局真实性。在训练和推理中，模型不使用自身的历史预测作为输入，仅引入噪声，且在单次并行前向传播中生成完整序列，避免了传统教师强制训练方法在面对非预期输入时的混淆。
自研因果音频自编码器：系统构建了无需未来上下文的自定义因果音频自编码器，用于实时音频流的高效编解码。
单步 KV 缓存推理：放弃了多步迭代的扩散循环，直接通过单步 KV 缓存处理潜变量，极大提升了本地实时推理的速度与鲁棒性。
轻量化训练与高自由度交互：该模型完全在单张 GPU 上从头训练完成，支持多乐器并发生成，并允许将系统输出重新作为输入喂回，实现系统与自身的闭环自激演奏。

https://arxiv.org/abs/2606.03803

( @marco_ppasini@X)

02 有亮点的产品

1、默造科技推出 MuteVox S1 智能消音口罩：融合物理消音与 AI 降噪，支持耳语级语音识别

深圳默造科技推出智能消音口罩 MuteVox S1，通过物理隔音结构与 AI 降噪算法相结合，实现公共场所下的私密语音交互。该产品主打「耳语级对话」与静音收音，旨在解决开放空间人声隐私泄露与环境噪音干扰，目前已开启众筹，定价 499 元。

物理与 AI 双重降噪：采用物理隔音结构吸收并阻挡声波外传，将输出人声压制在图书馆级低音量范围内；配合 AI 语音识别算法，支持「耳语级」甚至「默念式」发声的精准提取与背景杂音剥离。
分离式结构设计：针对面罩类设备的日常清洁与卫生痛点，MuteVox S1 采用内外层分离设计，外层布料支持独立拆卸与更换。
竞品 Wearphone 引入主动降噪与订阅制：日本初创公司 Verne Technologies 的同类产品 Wearphone 采用物理与主动降噪双重技术，可降低人声 10 至 20 分贝，并计划推出每月 19 美元的 AI 增强识别增值订阅服务。
差异化定价与应用定位：MuteVox S1 众筹价 499 元，侧重于开放空间下的双向语音通话隐私保护；Wearphone 定价 500 美元（早鸟价 450 美元），侧重于公共场所下与 ChatGPT 等 AI 智能体的私密对话。

（@多知）

2、钉钉发布首款医生 AI 硬件 DingTalk A1 豆蔻医生版：内置 6nm 音频芯片与 122B/32B 医疗大模型

钉钉正式推出专为医生群体定制的 AI 硬件 DingTalk A1 豆蔻医生版，售价 999 元。该设备深度融合 122B/32B 参数规模的豆蔻医疗大模型及超级助理，支持语音病历转写、文献检索与临床决策辅助。目前，其搭载的医疗大模型已在国内超过 1000 家医疗机构投入规模化应用。

122B/32B 医疗大模型与 4000 万文献训练：搭载基于循证医学构建的豆蔻医疗大模型，训练集覆盖全球 4000 万篇权威医学文献。该模型为国内首个通过妇科正高职称考试的垂直大模型，妇科问诊准确率超过 90%。
6nm 音频芯片与 5+1 麦克风阵列：内置恒玄科技 6nm 制程 BES2800 AI 音频处理器，配备 5 颗全向麦克风与 1 颗骨传导麦克风，支持 8 米范围远场拾音与智能发言人识别。设备厚度 3.8mm，重 40.8g，支持 60 天待机与 45 小时连续录音。
搭载 Fun-ASR 大模型，幻觉率降至 10.7%：采用 Fun-ASR 语音识别大模型，引入医学术语热词动态注入技术，将语音识别幻觉率从 78.5% 降至 10.7%，支持 21 种语言同声传译。
基于 PICOS 框架的临床决策辅助：支持门诊问诊、住院查房、多学科会诊及学术会议场景的语音转写与结构化病历自动生成；基于国际标准 PICOS 循证框架解析病历，生成具备可溯源证据链的临床决策报告。
三端加密与隐私大模型调用：针对医疗合规要求，支持录音文件在设备端、传输端和云端的三端加密，企业可通过专属数据存储统一管理设备与文件，支持在隐私环境下安全调用大模型。

（@HC3i 中数新医）

3、奇点灵智发布 Duoki OS：基于智能体架构，实现儿童硬件端本地 Vibe Coding 与自进化

奇点灵智为其多奇 AI 机器人推出全新操作系统 Duoki OS，引入由多智能体协同驱动的本地自编程（Vibe Coding）与自进化机制。该系统允许无技术背景的家长通过自然语言在 1-2 分钟内为硬件现场生成、部署个性化轻应用，并实现物理传感器与软件能力的解耦，推动儿童硬件从「出厂即固化」向自主进化智能体演进。

多智能体分工矩阵驱动：前端部署「伙伴智能体」与「教育规划智能体」负责趣味互动与学习路径规划；后台部署由「PM 智能体」与「Coding 智能体」组成的研发队列，负责将用户的模糊自然语言指令实时编译为机器代码。
物理传感器乐高化调度：打破传统硬件出厂程序定死的限制，实现软硬件接口解耦。系统可根据生成的应用场景，自主调度并激活胸口触屏、摄像头、麦克风、陀螺仪或物理按键等硬件模组。
Skills.md 场景剧本约束：内置结构化场景交互规则文档库，提供自编程过程中的设计原则与边界控制，确保 AI 现场生成的轻应用符合儿童语言习惯、低幼互动特征与安全红线。
「日读夜思」的自进化闭环：机器人白天收集并反思与儿童的交互数据，夜间基于反思逻辑自动生成定制化的新游戏或知识任务，清晨经家长手机端审核后一键部署至硬件端。

（@多知）

4、Equal AI 推出 AI 电话代接助理：自动应答过滤骚扰与快递电话，支持 10+ 语种混合识别

印度 AI 通话助手初创公司 Equal AI 宣布完成 3000 万美元 B 轮融资，累计融资额达 4200 万美元。该公司开发的安卓端 AI 通话助理通过代接来电、获取来电意图、生成转录摘要并提供快捷语音回复，帮助用户拦截垃圾来电和对接物流，其月活跃用户已突破 100 万。

自研多模型编排层：系统底层融合了语音识别、ASR 及语音合成模型，通过自研的编排层进行调用与协同，实现高能效的语音通话流实时处理。
支持超 10 种本地语言与语码混合：针对印度用户多语言混杂的交际习惯，模型专门针对语码混合（混合使用地方语言与英语）场景进行了训练，目前支持超过 10 种地方语言的识别与生成。
双向代理交互与转录：AI 助手不仅能将来电转换为文字，还能将用户输入的自定义文本或预设选项（如「交给邻居」）通过语音合成朗读给来电者，并同步在后台记录通话、转录文本及生成结构化摘要。
向主动智能体演进：产品规划从被动过滤升级为主动执行，未来将在用户授权下主动向送货员发送地址，或自主拨打电话进行预约。
分阶段挂钩的 B 轮融资架构：本轮 3000 万美元融资由 Prosus Ventures 和 Tomales Bay Capital 领投，采用分为三个阶段的特殊估值结构，其估值释放与初创公司是否达成预设的技术和业务里程碑直接挂钩。

(@TechCrunch)

03 有态度的观点

1、苹果高管：Siri AI 是实用工具，不是情感伴侣

苹果软件工程高级副总裁 Craig Federighi 与营销主管 Greg Joswiak 在 WWDC 2026 期间接受了《Mostly Human》采访，深入探讨了苹果对 AI 的功能定位、隐私策略及儿童安全等议题。

在前天举行的采访中，Federighi 明确了 Siri 的工具属性，并强调其设计初衷并非 AI 伴侣。针对市面上部分 AI 产品侧重于通过建立情感连接来提升参与度的现状，Federighi 表示：

现有许多聊天机器人很大程度上专注于参与度，甚至带有某种「谄媚」色彩。它们想方设法吸引你，可能会鼓励你透露个人信息，并以此为基础建立某种联系。我们对此持完全相反的观点。在我们的设计中，Siri 会明确表示：「听着，那不是我的职责。我是来帮你的，我可以帮你完成任务，帮你了解世界。」但如果你试图把 Siri 当作浪漫伴侣，Siri 是不会配合的。

Joswiak 补充提到，苹果并不追求「为了 AI 而做 AI」，而是致力于将 AI 技术无感地融入现有产品中。他表示，苹果希望技术能够「消失」，让用户专注于内容本身，且不希望 iPhone 用户必须成为「提示词专家」才能使用 AI 功能。在隐私保护方面，Federighi 强调了苹果「隐私先行」的原则。

他指出，用户数据保留在 iPhone 本地并由用户完全控制，苹果公司无法获取这些信息。他认为，这种将本地知识与公司获取权限彻底隔离的做法，是苹果区别于行业内其他竞争对手的关键优势。

(@APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考