Mistral 开源 Voxtral TTS,多语言+流式输出+零样本声音克隆;谷歌实时翻译功能正式登陆 iOS 平台丨日报

开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃


01 有话题的技术


1、Google 发布 Gemini 3.1 Flash Live:音频推理性能提升,ComplexFuncBench 得分达 90.8%


Google 正式发布原生音频模型 Gemini 3.1 Flash Live,旨在通过降低延迟与提升推理精度优化实时语音交互。该模型强化了复杂指令遵循与长程对话能力,现已接入 Google AI Studio 开发者平台及全球范围的 Gemini Live 服务。


  • 复杂函数调用能力跃升:在 ComplexFuncBench Audio 评测中得分达 90.8%,该指标专门衡量模型在处理具备多种约束条件的多步骤函数调用时的准确度。

  • 强化长程推理与抗干扰性:在 Scale AI 的 Audio MultiChallenge 测试中(开启 thinking 模式)得分 36.1%。该测试模拟真实场景中的中断、犹豫及长周期指令,验证模型在复杂语音环境下的逻辑一致性。

  • 深度声学特征感知:相较于 2.5 Flash Native Audio,新模型提升了对音高(Pitch)和语速(Pace)的辨识力,并能根据用户表现出的挫败感或困惑情绪实时动态调整话术。

  • 上下文维持时长翻倍:在 Gemini Live 应用场景中,模型追踪对话脉络的能力提升至前代模型的 2 倍,支持更长周期的思维发散与逻辑闭环。

  • 原生 SynthID 水印集成:所有由 3.1 Flash Live 生成的音频均在输出层级直接嵌入不可感知的 SynthID 水印,确保 AI 生成内容的可检测性与合规性。


开发者可通过 Google AI Studio 预览版获取 Gemini Live API;企业级功能已集成至 Gemini Enterprise;普通用户可在 Gemini Live 及全球 200 多个国家和地区的 Search Live 中体验。


( @Google Blog)



2、Gradium 发布 TTS 延迟评测:基于 DSM 架构实现 258ms TTFA,优于 ElevenLabs 与 OpenAI


Gradium 披露了其语音合成引擎的核心性能指标,重点优化级联语音智能体中的 Time to First Audio (TTFA) 延迟。通过延迟流建模(DSM)架构与工程优化,Gradium 在实时语音交互中实现了优于 ElevenLabs 和 OpenAI 的响应速度。


  • 精准 TTFA 测量协议:跳过 WAV 报头(44 字节)、Ogg/Opus 标识页及 MP3 ID3 标签,仅针对首个包含有效编码音频样本的音频帧进行计时,规避了传统「首字节延迟」无法反映实际起播时间的问题。

  • DSM 架构与 CUDA 优化:采用延迟流建模(Delayed Streams Modeling)架构,支持在维持流式传输能力的同时进行批处理生成;结合 CUDA graph 优化与可配置的代码本(Codebook)深度,降低推理耗时。

  • 基准测试数据(P50 延迟):在同等网络环境下(Paris 节点,~5ms Ping),Gradium P50 TTFA 为 258ms,领先于 Eleven Turbo v2.5 (304ms)、Eleven Flash v2.5 (324ms) 及 GPT-4o Mini (420ms)。

  • WebSocket 多路复用(Multiplexing):通过持久化 WebSocket 连接及 client_req_id 标识区分会话,规避单次 turn-taking 约 50ms 的 TCP/TLS 建连开销,优化后 P50 延迟可进一步压降至 214ms。

  • 端到端部署矩阵:提供 Cloud API、托管实例(Dedicated Instances)以及支持医疗/金融合规的 On-premises 本地化部署方案。


https://gradium.ai/blog/time-to-first-audio


( @Gradium Blog)



3、Mistral AI 开源首个 TTS 模型 Voxtral TTS:4B 参数量,端到端延迟 70ms,支持零样本跨语言克隆

Mistral AI 推出其首款文本转语音(TTS)模型 Voxtral TTS,旨在提供高自然度、低延迟的多语言语音生成。该模型基于流匹配(Flow-matching)架构,可实现 3 秒音频素材的零样本声音克隆,主要面向企业级智能体及实时语音交互场景。


  • 混合模型架构:总参数量为 4B,由 3.4B Transformer 解码器(基于 Ministral 3B)、390M 流匹配声学 Transformer 以及 300M 神经音频编解码器(对称式 Encoder-Decoder)组成。

  • 极低推理延迟:针对 10 秒音频/500 字符的标准输入,模型端到端延迟仅为 70ms,实时因子(RTF)约为 9.7x;模型原生支持最长 2 分钟音频生成,API 具备智能交错处理长文本的能力。

  • 自研音频编解码器(Codec):采用因果处理(Causal processing),包含 8192 词表的语义 VQ(Vector Quantization)及 36 维、21 层级的声学 FSQ(Finite Scalar Quantization)潜空间,输出帧率为 12.5Hz。

  • 零样本克隆与跨语言适配:支持通过 3s–25s 的参考音频进行音色克隆,捕捉语速、节奏及情感细节;具备零样本跨语言能力,例如可使用法语语音 Prompt 引导生成带有自然法语口音的英语语音。

  • 性能对标 ElevenLabs:人工评估显示,其语音自然度在 9 种支持语言(英、法、德、西、荷、葡、意、印、阿)中超越 ElevenLabs Flash v2.5,整体质量与 ElevenLabs v3 持平。


API 已上线,定价为 $0.016 / 1k 字符;带有参考语音的模型权重已在 Hugging Face 开源(CC BY NC 4.0 协议)。


https://mistral.ai/news/voxtral-tts


( @Mistral AI Blog)



4、Cohere 发布 Transcribe ASR 模型:基于 2B Conformer 架构,WER 均值降至 5.42%


Cohere 推出开源语音识别(ASR)模型 Transcribe。该模型采用 2B 参数规模的 Conformer 架构,在 Hugging Face Open ASR 排行榜中位列第一,旨在为企业级智能体(agent)流转提供高精度、高吞吐的语音输入层。


  • SOTA 精度表现:模型在 Hugging Face Open ASR 排行榜平均词错率(WER)为 5.42%,在 AMI(会议场景)、Voxpopuli(多口音场景)等高难度数据集上表现优于 Whisper Large v3 与 ElevenLabs Scribe v2。

  • Conformer 混合架构:采用 Conformer 编码器提取声学特征,结合轻量化 Transformer 解码器进行 Token 生成;输入端处理 log-Mel 谱图,在保持 2B 参数规模的同时优化了推理能效比。

  • 高吞吐实时处理:在 1B+ 参数量级的 ASR 模型中,Transcribe 处于 Pareto 前沿,具备更高的 RTFx(实时因子倍数),支持在通用 GPU 及边缘设备上进行低延迟部署。

  • 多语言支持与开源协议:涵盖英语、中文、日语、韩语、法语、德语等 14 种语言;模型权重采用 Apache 2.0 协议开放,允许商用及私有化部署。

  • 企业级全栈集成:模型已接入 Cohere Model Vault 托管平台,并计划深度集成至智能体编排平台 North,作为企业语音智能的基础设施。


模型权重已在 Hugging Face 开放下载;同时提供免费限速 API 供实验,生产环境可通过专用的 Model Vault 按小时计费接入。


https://huggingface.co/CohereLabs/cohere-transcribe-03-2026


( @Cohere Blog)



02 有亮点的产品


1、Amazon 收购 Fauna Robotics:整合 59 磅双足机器人 Sprout 及前 Meta/Google 研发团队


Amazon 确认收购成立两年的家庭人形机器人初创公司 Fauna Robotics。该动作旨在吸纳其具备 Meta 与 Google 背景的创始团队及 59 磅级双足机器人平台,强化 Amazon 在家用及室内移动机器人领域的硬件布局


该公司核心产品为重 59 磅(约 26.8kg)的「儿童体型」人形机器人,具备双足(Bipedal)行走能力,此前已向特定研发合作伙伴交付。


在完成并购之后,Fauna 全体员工及两位前 Meta/Google 工程师创始人将集体迁往纽约,直接并入 Amazon 机器人业务板块


这是 Amazon 本月内的第二起机器人并购(此前为苏黎世爬楼机器人公司 Rivr),显示其正在集中获取能处理复杂室内地形(如阶梯、障碍物)的移动方案。


( @TechCrunch)



2、谷歌 Google Translate「实时翻译」功能正式登陆 iOS 平台


IT 之家 3 月 27 日消息,谷歌宣布旗下「谷歌翻译( Translate)」的「耳机实时翻译(Live translate with headphones)」功能已正式登陆 iOS 平台。允许 iPhone 用户在佩戴耳机时实现跨 70 多种语言的实时对话翻译。

该功能最早于去年以测试版形式推出,此次不仅覆盖 iOS,也进一步扩展至更多国家和地区市场,用户只需在应用中进入「实时翻译(Live translate)」模式,并选择「倾听(Listening)」,即可通过耳机实时接收翻译内容。


谷歌表示,该功能可适用于跨语言家庭交流、出境旅行等各种场景,支持全球超过 70 种语言,包括英语、中文、日语、韩语、法语、德语、西班牙语等。其不仅能进行语义翻译,还会尽可能保留说话者的语气、重音和节奏,从而提升对话的自然度,并帮助用户区分不同发言者。


当下,随着实时语音翻译能力逐步成熟,手机 + 耳机组合正成为跨语言沟通的重要入口,谷歌此次将实时翻译能力引入 iOS,也意味着其正与在该细分体验上展开更直接的竞争。作为比较,苹果公司现已在海外版本 iPhone / iPad 配对的 AirPods 耳机中推出了类似的实时翻译功能,同样允许用户实现同传级翻译。


(@IT 之家)



3、Bland 发布 Norm:通过自然语言指令构建生产级语音智能体,响应延迟低于 400ms


Bland 推出名为 Norm 的 AI 助手,旨在将复杂的语音智能体构建过程自动化。用户只需输入自然语言指令,Norm 即可生成具备状态管理、中断处理及 API 调度能力的生产级配置,确保语音交互响应延迟维持在 400ms 以内的工业标准。



  • 全栈架构自动解构:从单一 Prompt 自动生成包含 Persona(人格设定)、Pathways(对话路径)、Validation Conditions(验证条件)及 Extraction Rules(数据提取规则)的结构化逻辑。

  • 状态化对话管理优化:针对语音交互的实时性(Real-time)和状态化(Stateful)需求,专门优化了用户中断处理、静默检测及上下文追踪逻辑,而非简单的文本模型转接。

  • 安全分支与 Diff 校验系统:引入 Safe Branching 机制,所有逻辑变更均在隔离分支执行;支持原始 Prompt 与更新版本的差异对比(Diffs),确保变更在合并至生产环境前可审计。

  • 智能体模拟压力测试:支持 Agent-on-agent 模拟功能,通过模拟调用者与目标智能体进行对抗性对话,用于在部署前识别逻辑边缘用例(Edge Cases)。

  • 多源数据与 API 动态集成:支持在对话中途触发外部 API 调用(如集成 Cal.com 进行日程调度),并允许挂载文件或现有知识库(Knowledge Bases)作为智能体构建的逻辑基准。


现已在 Bland 平台正式上线,提供 24/7 自助服务,支持技术团队通过自然语言实时修改或启动语音智能体。


( @Bland Blog)



03 有态度的观点


1、Kimi CEO:AI 研发正进入「AI 主导研究」时代,行业标准「已具备被挑战的条件」


月之暗面 CEO 杨植麟在 2026 中关村论坛全体会议上发表演讲,主题为《开源 AI:加速探索智能上限》,系统阐述了 Kimi 在大模型规模化效率与底层架构创新方面的最新进展。


杨植麟将大模型的本质概括为「把更多的能源转化成智能」,强调规模化是过去数年 AI 发展的核心基础。


他指出,Kimi 围绕三个维度提升规模化效率


  • TOKEN 效率:通过更优的网络架构与优化器,从相同数据中提取更多智能;

  • 长上下文能力:Kimi 自研的 Kimi Linear 架构可在更长上下文下获得更低的损失函数,支持更复杂任务的完成;

  • Agent 集群(Agent Swarm):通过并行调度数百个 Agent 协同工作,使任务执行时间不再随复杂度指数增长,从而让此前「完全不可能实现的任务变得有可能」。


杨植麟还援引英伟达 GTC 2026 黄仁勋主题演讲中的幻灯片指出,Kimi 系列开源模型正在成为全球芯片厂商和研究


机构的评测基准,「如果要发布一个新的芯片,你必须要通过 Kimi 或者其他的开源模型来评测你的性能的提升」。在研发范式的判断上,杨植麟描绘了一条清晰的演进路径:


三年前以互联网天然数据加少量人工标注为主,去年转向大规模强化学习,而今年起将进入「AI 主导研究」阶段——AI 将自主合成任务与训练环境、设计奖励函数,乃至探索新的网络架构。


他认为,过去十年被视为行业标准的技术(如 Adam 优化器、标准 Attention 架构)如今均已具备被挑战的条件。


很多以前认为是标准的东西,现在都是可以被挑战的。


(@APPSO)


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    // 相关帖子
    Coming soon...
    • 0
    Mistral 开源 Voxtral TTS,多语言+流式输出+零样本声音克隆;谷歌实时翻译功能正式登陆 iOS 平台丨日报RTRTE_Dev_Comm