开发者郭宇发布语音智能体 intentware AI：与另一个你深度聊天丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Boson AI 发布 Higgs Audio v3 TTS 语音合成模型：支持行内标签控制，适配 SGLang-Omni 高性能推理与流式输出

Boson AI 推出了针对语音通话场景优化的 Higgs Audio v3 TTS 语音合成模型（参数量约 4B）。该模型基于 Transformer 自回归解码器，支持 102 种语言的零样本（Zero-shot）声音克隆。其核心突破在于支持高密度的行内控制标记（Inline Control Tokens），允许在文本生成过程中直接插入情绪、副语言音效及语调控制。

~4B 自回归解码架构：模型采用 36 层自回归解码器（隐藏层维度 2560，GQA 32/8），训练序列上下文长度为 8192 标记。音频由 Higgs 分词器（Tokenizer）编码为 8 个码本（词表大小 1026），音频采样率为 24 kHz，帧率为 25 fps。
原生行内控制标记（Inline Control Tokens）：支持在输入文本中直接插入 <|category:value|> 语法标记。控制维度涵盖 21 种情绪、3 种发音风格（唱歌、喊叫、耳语）、9 种副语言音效（如咳嗽、笑声、叹气等，需搭配特定拟声词触发）以及细粒度声学特征（语速 0.65x 至 1.4x、音高、最长 1500ms 的停顿）。
多语种低字错率表现：在 102 种支持的语言中，包含中文、英文、日文在内的 85 种语言在测试中字错率/字符错率（WER/CER）低于 5%。在 SeedTTS 基准测试中，该模型字错率达到 1.11，优于 Fish Audio S2 Pro (1.31) 与 Qwen3-TTS-1.7B (1.30)。

SGLang-Omni 高性能推理与流式输出：适配 SGLang-Omni 推理服务栈，支持多码本连续批处理（Continuous Batching）解码。在单张 NVIDIA H100 显卡测试下（BF16 精度、启用 CUDA Graph、最大并发 16），模型吞吐量可达 14.74 req/s，实时率（RTF）为 0.262，支持通过 Server-Sent Events（SSE）输出 base64 编码的 WAV 数据块，实现亚秒级首包音频延迟。

模型权重已在 Hugging Face 开放下载，采用 Boson Higgs Audio v3 研究及非商业许可协议。托管 API 或任何产生收入的商业用途需另行获取商业许可。

https://huggingface.co/bosonai/higgs-audio-v3-tts-4b

(@Boson.ai)

2、BreezeBlue Studio 发布语音生成模型 Bluebell：基于交错文本-音频流架构，支持可调控强度的零样本语音设计与引导

音频初创公司 BreezeBlue Studio 推出首款专注于指令遵循（Instruction Following）的音频大语言模型 Bluebell。该模型基于交错的文本与音频序列进行端到端训练，将语音生成任务从单纯的「高保真克隆」转向「意图可控生成」。用户可以通过纯文本提示词直接定制特定角色的音色，或通过自然语言指令动态引导（Direct）现有参考声音的演播风格。

单流交错序列建模：Bluebell 构建于预训练大语言模型之上，通过将文本指令、脚本内容、条件音频和目标语音统一编码为单流交错文本-音频序列进行自回归训练，实现了原生、端到端的语义级语音控制。
双模态语音控制（设计与引导）：模型支持两类交互应用。一是「语音设计（Design）」，仅凭文本描述（包括人设、语调、场景、角色扮演描述）直接合成目标音色；二是「语音引导（Direct）」，通过自然语言指令调整一发（One-shot）参考音频的说话风格，同时保留原说话人特征。
引导强度（Guidance Strength）可调：在语音引导模式下引入了引导强度调节机制，允许开发者在「说话人一致性」与「指令遵循度」之间进行权衡。实验表明，模型参数规模越大，在同等指令遵循度下保留原说话人特征的能力越强。
InstructTTSEval 基准测试达 SOTA：在包含声学参数规范（APS）、描述性风格指令（DSD）和角色扮演（RP）三大维度（共 3000 个测试用例）的测试中取得最优性能。该评测采用 Gemini-3.1-pro 充当裁判以保证评分无偏。

https://breeze.blue/

(@BreezeBlueX@X)

3、MisoTTS 开源 8B 参数语音生成模型：110ms 极低延迟响应

Miso 正式发布并开源了 8b 参数的语音生成模型 Miso One（亦称 Miso TTS 8B）。该模型受 Sesame CSM 架构启发，采用 Llama 3.2 风格的骨干网络并生成 Mimi 音频编码，将端到端生成延迟降低至 110ms，专为高表现力的英文对话场景设计。

110ms 极低延迟响应：Miso One 优化了端到端推理管线，将语音生成延迟缩短至 110 毫秒（ms），实现了超越人类平均对话反应速度的高效响应。
Llama 3.2 骨干与 Mimi 编码集成：模型架构由 7.7B 参数的 Llama 3.2 风格 Transformer 骨干网络和 300M 参数的深度解码器组成，舍弃了平铺的大词表方案，直接预测并生成 Mimi 格式的离散音频编码。
双模态上下文条件调节：支持文本 Token 与音频 Token 的混合交错输入。模型通过累加 32 个嵌入表中音频向量对应的位置嵌入进行特征对齐，使模型能根据用户的音频语调（如耳语或尖叫）动态调整生成语音的语气与情感。
英文单语种与半双工限制：当前开源版本仅支持英文，且仅能处理单回合（individual turns）的半双工（half-duplex）音频，暂不支持实时打断及双向多轮对话。

试用链接：

https://www.misolabs.ai/

GitHub：

https://github.com/MisoLabsAI/MisoTTS

(@AodenTeoMT@X)

4、Amphion 与荣耀发布 WhispEar：基于双向 Flow-Matching 架构，实现 3000 小时级耳语语音转换 Scaling

Amphion 团队联合荣耀提出 WhispEar 框架，旨在解决耳语转正常语音（W2N）任务中真实平行数据极度匮乏的瓶颈。该研究通过构建统一语义表示空间与双向 Flow-Matching 架构，利用「正常转耳语」（N2W）生成的 3000 小时级伪平行数据进行 Scaling 预训练，显著提升了跨语言语音转换的可懂度与音色保持度。

Speaking-mode-invariant 语义蒸馏：从 ASR 编码器中蒸馏语义特征，并结合有限标量量化（FSQ）提取离散 Token，实现耳语与正常语音在语义层面的统一表征，有效过滤气流声与基频（F0）差异。
共享 Flow-Matching 声学模型：W2N 与 N2W 任务共享同一套 Transformer 架构与声码器，仅通过方向指示符（Direction Indicator）切换生成模式，降低了多任务学习的训练不稳定风险。
双向数据 Scaling 策略：利用相对易收敛的 N2W 模型将大规模无标注语音（如 Emilia 数据集）转化为高保真伪耳语，构建出超 3000 小时、60 万对的伪平行语料，体量较此前最大数据集提升百倍。
CER 指标大幅优化：在 wEar 中文测试集上，该框架将词错率（CER）从基线模型的 29% 降低至 14.93%，并在 Zero-shot 场景下表现出强劲的说话人相似度（SIM）与跨语言泛化能力。

论文：

https://arxiv.org/pdf/2603.08046

Demo：

https://whispear-demo.github.io/

(@Amphion)

5、Google 发布 Magenta RealTime 2：2.4B 开源本地实时音乐生成模型，控制延迟降至 200ms

Magenta 团队发布开源本地实时音乐生成模型 Magenta RealTime 2（MRT2）及配套 C++ 推理引擎。该模型支持在 Apple Silicon 设备上进行超低延迟的本地部署，允许用户通过 MIDI、音频和文本实时交互控制音乐合成。通过优化架构与推理链路，MRT2 将控制延迟由初代模型的 ~3s 缩短至 ~200ms，实现了单帧级别的实时音频生成。

控制延迟降低 15 倍，帧大小缩短至 40ms：MRT2 的音频帧大小由初代的 2s 压缩至 40ms，控制延迟缩短至约 200ms，支持在现场演奏中进行单帧级的快速自回归响应。
2.4B 与 230M 双模型参数，基于 SpectroStream 编解码器构建：模型作为音频 Token 语言模型运行，支持通过 MusicCoCa 嵌入音频或文本样式提示（Style Prompts），并引入实时 MIDI 信号进行连续、高动态的乐器化控制。
采用因果滑动窗口注意力与可学习注意力嵌入：引入因果滑动窗口注意力机制（Causal Sliding Window Attention）以限制连续流式生成的内存占用；同时加入可学习注意力嵌入，解决长上下文驱逐（Context Eviction）导致的音频回音、反馈等失真问题。
MLX 驱动的 C++ 推理引擎与 .mlxfn 编译格式：配套发布 Python 库 magenta-rt；其 C++ 推理引擎通过 MLX 框架将基于 SequenceLayers 实现的模型编译为包含权重与计算图的 .mlxfn 格式，直接利用 Apple Silicon GPU 进行端侧高效硬件加速。
分级本地流式生成硬件要求：230M 的 Small 版本支持在包含 MacBook Air 在内的任意 Apple Silicon 设备上实时流式运行；2.4B 的 Base 版本则要求 MacBook M3 Pro 或 M2 Max 及以上芯片。

Hugging Face：

https://huggingface.co/google/magenta-realtime-2

GitHub:

https：//github.com/magenta/magenta-realtime

Blog 链接：

https://magenta.withgoogle.com/magenta-realtime-2

( @osanseviero@X)