开发者郭宇发布语音智能体 intentware AI:与另一个你深度聊天丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Boson AI 发布 Higgs Audio v3 TTS 语音合成模型:支持行内标签控制,适配 SGLang-Omni 高性能推理与流式输出
Boson AI 推出了针对语音通话场景优化的 Higgs Audio v3 TTS 语音合成模型(参数量约 4B)。该模型基于 Transformer 自回归解码器,支持 102 种语言的零样本(Zero-shot)声音克隆。其核心突破在于支持高密度的行内控制标记(Inline Control Tokens),允许在文本生成过程中直接插入情绪、副语言音效及语调控制。
~4B 自回归解码架构:模型采用 36 层自回归解码器(隐藏层维度 2560,GQA 32/8),训练序列上下文长度为 8192 标记。音频由 Higgs 分词器(Tokenizer)编码为 8 个码本(词表大小 1026),音频采样率为 24 kHz,帧率为 25 fps。
原生行内控制标记(Inline Control Tokens):支持在输入文本中直接插入 <|category:value|> 语法标记。控制维度涵盖 21 种情绪、3 种发音风格(唱歌、喊叫、耳语)、9 种副语言音效(如咳嗽、笑声、叹气等,需搭配特定拟声词触发)以及细粒度声学特征(语速 0.65x 至 1.4x、音高、最长 1500ms 的停顿)。
多语种低字错率表现:在 102 种支持的语言中,包含中文、英文、日文在内的 85 种语言在测试中字错率/字符错率(WER/CER)低于 5%。在 SeedTTS 基准测试中,该模型字错率达到 1.11,优于 Fish Audio S2 Pro (1.31) 与 Qwen3-TTS-1.7B (1.30)。
SGLang-Omni 高性能推理与流式输出:适配 SGLang-Omni 推理服务栈,支持多码本连续批处理(Continuous Batching)解码。在单张 NVIDIA H100 显卡测试下(BF16 精度、启用 CUDA Graph、最大并发 16),模型吞吐量可达 14.74 req/s,实时率(RTF)为 0.262,支持通过 Server-Sent Events(SSE)输出 base64 编码的 WAV 数据块,实现亚秒级首包音频延迟。
模型权重已在 Hugging Face 开放下载,采用 Boson Higgs Audio v3 研究及非商业许可协议。托管 API 或任何产生收入的商业用途需另行获取商业许可。
https://huggingface.co/bosonai/higgs-audio-v3-tts-4b
(@Boson.ai)
2、BreezeBlue Studio 发布语音生成模型 Bluebell:基于交错文本-音频流架构,支持可调控强度的零样本语音设计与引导
音频初创公司 BreezeBlue Studio 推出首款专注于指令遵循(Instruction Following)的音频大语言模型 Bluebell。该模型基于交错的文本与音频序列进行端到端训练,将语音生成任务从单纯的「高保真克隆」转向「意图可控生成」。用户可以通过纯文本提示词直接定制特定角色的音色,或通过自然语言指令动态引导(Direct)现有参考声音的演播风格。
单流交错序列建模:Bluebell 构建于预训练大语言模型之上,通过将文本指令、脚本内容、条件音频和目标语音统一编码为单流交错文本-音频序列进行自回归训练,实现了原生、端到端的语义级语音控制。
双模态语音控制(设计与引导):模型支持两类交互应用。一是「语音设计(Design)」,仅凭文本描述(包括人设、语调、场景、角色扮演描述)直接合成目标音色;二是「语音引导(Direct)」,通过自然语言指令调整一发(One-shot)参考音频的说话风格,同时保留原说话人特征。
引导强度(Guidance Strength)可调:在语音引导模式下引入了引导强度调节机制,允许开发者在「说话人一致性」与「指令遵循度」之间进行权衡。实验表明,模型参数规模越大,在同等指令遵循度下保留原说话人特征的能力越强。
InstructTTSEval 基准测试达 SOTA:在包含声学参数规范(APS)、描述性风格指令(DSD)和角色扮演(RP)三大维度(共 3000 个测试用例)的测试中取得最优性能。该评测采用 Gemini-3.1-pro 充当裁判以保证评分无偏。
https://breeze.blue/
(@BreezeBlueX@X)
3、MisoTTS 开源 8B 参数语音生成模型:110ms 极低延迟响应
Miso 正式发布并开源了 8b 参数的语音生成模型 Miso One(亦称 Miso TTS 8B)。该模型受 Sesame CSM 架构启发,采用 Llama 3.2 风格的骨干网络并生成 Mimi 音频编码,将端到端生成延迟降低至 110ms,专为高表现力的英文对话场景设计。
110ms 极低延迟响应:Miso One 优化了端到端推理管线,将语音生成延迟缩短至 110 毫秒(ms),实现了超越人类平均对话反应速度的高效响应。
Llama 3.2 骨干与 Mimi 编码集成:模型架构由 7.7B 参数的 Llama 3.2 风格 Transformer 骨干网络和 300M 参数的深度解码器组成,舍弃了平铺的大词表方案,直接预测并生成 Mimi 格式的离散音频编码。
双模态上下文条件调节:支持文本 Token 与音频 Token 的混合交错输入。模型通过累加 32 个嵌入表中音频向量对应的位置嵌入进行特征对齐,使模型能根据用户的音频语调(如耳语或尖叫)动态调整生成语音的语气与情感。
英文单语种与半双工限制:当前开源版本仅支持英文,且仅能处理单回合(individual turns)的半双工(half-duplex)音频,暂不支持实时打断及双向多轮对话。
试用链接:
https://www.misolabs.ai/
GitHub:
https://github.com/MisoLabsAI/MisoTTS
(@AodenTeoMT@X)
4、Amphion 与荣耀发布 WhispEar:基于双向 Flow-Matching 架构,实现 3000 小时级耳语语音转换 Scaling
Amphion 团队联合荣耀提出 WhispEar 框架,旨在解决耳语转正常语音(W2N)任务中真实平行数据极度匮乏的瓶颈。该研究通过构建统一语义表示空间与双向 Flow-Matching 架构,利用「正常转耳语」(N2W)生成的 3000 小时级伪平行数据进行 Scaling 预训练,显著提升了跨语言语音转换的可懂度与音色保持度。
Speaking-mode-invariant 语义蒸馏:从 ASR 编码器中蒸馏语义特征,并结合有限标量量化(FSQ)提取离散 Token,实现耳语与正常语音在语义层面的统一表征,有效过滤气流声与基频(F0)差异。
共享 Flow-Matching 声学模型:W2N 与 N2W 任务共享同一套 Transformer 架构与声码器,仅通过方向指示符(Direction Indicator)切换生成模式,降低了多任务学习的训练不稳定风险。
双向数据 Scaling 策略:利用相对易收敛的 N2W 模型将大规模无标注语音(如 Emilia 数据集)转化为高保真伪耳语,构建出超 3000 小时、60 万对的伪平行语料,体量较此前最大数据集提升百倍。
CER 指标大幅优化:在 wEar 中文测试集上,该框架将词错率(CER)从基线模型的 29% 降低至 14.93%,并在 Zero-shot 场景下表现出强劲的说话人相似度(SIM)与跨语言泛化能力。
论文:
https://arxiv.org/pdf/2603.08046
Demo:
https://whispear-demo.github.io/
(@Amphion)
5、Google 发布 Magenta RealTime 2:2.4B 开源本地实时音乐生成模型,控制延迟降至 200ms
Magenta 团队发布开源本地实时音乐生成模型 Magenta RealTime 2(MRT2)及配套 C++ 推理引擎。该模型支持在 Apple Silicon 设备上进行超低延迟的本地部署,允许用户通过 MIDI、音频和文本实时交互控制音乐合成。通过优化架构与推理链路,MRT2 将控制延迟由初代模型的 ~3s 缩短至 ~200ms,实现了单帧级别的实时音频生成。
控制延迟降低 15 倍,帧大小缩短至 40ms:MRT2 的音频帧大小由初代的 2s 压缩至 40ms,控制延迟缩短至约 200ms,支持在现场演奏中进行单帧级的快速自回归响应。
2.4B 与 230M 双模型参数,基于 SpectroStream 编解码器构建:模型作为音频 Token 语言模型运行,支持通过 MusicCoCa 嵌入音频或文本样式提示(Style Prompts),并引入实时 MIDI 信号进行连续、高动态的乐器化控制。
采用因果滑动窗口注意力与可学习注意力嵌入:引入因果滑动窗口注意力机制(Causal Sliding Window Attention)以限制连续流式生成的内存占用;同时加入可学习注意力嵌入,解决长上下文驱逐(Context Eviction)导致的音频回音、反馈等失真问题。
MLX 驱动的 C++ 推理引擎与 .mlxfn 编译格式:配套发布 Python 库 magenta-rt;其 C++ 推理引擎通过 MLX 框架将基于 SequenceLayers 实现的模型编译为包含权重与计算图的 .mlxfn 格式,直接利用 Apple Silicon GPU 进行端侧高效硬件加速。
分级本地流式生成硬件要求:230M 的 Small 版本支持在包含 MacBook Air 在内的任意 Apple Silicon 设备上实时流式运行;2.4B 的 Base 版本则要求 MacBook M3 Pro 或 M2 Max 及以上芯片。
Hugging Face:
https://huggingface.co/google/magenta-realtime-2
GitHub:
https://github.com/magenta/magenta-realtime
Blog 链接:
https://magenta.withgoogle.com/magenta-realtime-2
( @osanseviero@X)
02 有亮点的产品
1、intentware AI 开启内测:基于个人语料训练的 Always On 语音智能体
开发者郭宇发布其第 16 款产品 intentware AI,通过 X 订阅系统进行灰度内测。该产品定位为全天候语音智能体(Always On Voice Agent),旨在利用特定个人历史数据实现高拟人化的模拟人生交互体验。
Private Data Ingestion: 模型训练及检索来源涵盖开发者在互联网发布的公开内容以及长期积累的本地私有备忘录。
Mental Model Simulation: 系统内置多种心智模型,支持从特定成长经历和人生阶段视角进行深度对话,而非通用型回复。
Automated Beta Access: 利用 X 订阅接口获取订阅者邮箱,通过自动化脚本将订阅用户加入内测群组,简化分发流程。
Voice-Native Architecture: 产品形态为全天候语音智能体,强调实时、持续的语音交互能力,区别于传统的文本对话界面。
订阅链接:
https://x.com/turingou/creator-subscriptions/subscribe
( @turingou@X)
03 有态度的观点
1、联合国大学报告:AI 扩张正在推高能源、水资源压力
联合国大学昨日发布水、环境与健康研究所报告,称人工智能基础设施快速扩张正在显著增加能源、水资源和土地需求。
报告估计,2025 年全球数据中心耗电量达到 448 太瓦时;到 2030 年,数据中心电力需求可能增至 945 太瓦时(1 太瓦时 = 10 亿度电),约占全球电力消费总量的 3%。
报告把「推理」列为主要能耗来源。研究显示,推理环节占人工智能总能耗的 80% 至 90%;ChatGPT 每天处理的提示请求估计约 25 亿次,对应年耗电量约 383 吉瓦时。
不同 AI 任务能耗差异也很大:生成一张 AI 图像的能耗约为基础文本分类任务的 1450 倍,生成一段短视频则相当于 20 万次垃圾邮件分类任务。
报告预测,到 2030 年全球数据中心的相关用水量(含直接冷却与间接发电/制造用水)将达到 9.3 万亿升,相当于撒哈拉以南非洲 13 亿人一年的基本生活用水需求。
报告还提到,目前全球仅 32 个国家拥有专门的 AI 数据中心,超过 90% 的 AI 专用云计算资源集中在美国和中国两国。
(@APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、6月11日【新加坡活动预告】去 SuperAI 的朋友,晚上一起聊聊增长和商业化| Praxis Founder Night
【From Users to Revenue,What Actually Works in AI Go-to-Market?】
本次活动精心邀请了在一线操盘的实战专家们:
Clark Gao - CREAO AI 联合创始人
Jingwen Sun - Impa Ventures 创始合伙人
Gino Pua - Tridorian Account Director
Gabriel Tham - Field Sales Representative, Startups
他们会认真聊聊:
早期AI产品怎么验证PMF
增长渠道怎么选、商业化路径怎么搭
创业过程中“有用户却没收入”的真实踩坑
还有 5 个高潜 AI 项目的 Founder Story,听听创业者们怎么在资源有限时做关键决策!
6月11日(周四)18:00-21:30
新加坡(SuperAI 主会场旁,报名后通知)
免费,审核制,luma报名
嘉宾的具体信息、活动议程请详见推文,Luma链接可直接报名~
【新加坡活动预告】去 SuperAI 的朋友,晚上一起聊聊增长和商业化| Praxis Founder Night

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考