复杂环境语音识别模型 Mega-ASR：极端环境识别提升最高 30%丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Stability AI 发布 Stable Audio 3.0：引入语义-声学自编码架构，支持 6 分钟长音频生成与端侧 LoRA 微调

Stability AI 推出基于全新架构的 Stable Audio 3.0 系列音频大模型，包含三个开放权重版本。该系列利用新型自编码器实现了从短样本到 6 分钟长音频的生成跨越，并首次在音频领域提供官方 LoRA 微调支持，支持在移动端及消费级硬件上进行端侧创作。

语义-声学自编码器架构（Semantic-Acoustic Autoencoder）：采用新一代架构替代传统方案，增强了音频在长时间跨度下的结构连贯性与旋律逻辑，支持秒级粒度的变长生成。
生成时长与质量飞跃：Medium 与 Large 版生成时长突破 6 分钟；Small 版支持在端侧生成 2 分钟完整曲目，较前代 Stable Audio Open 的 47 秒上限提升显著。
原生支持音频 LoRA 微调：官方同步发布 3.0 Small 和 Medium 的 LoRA 训练文档，允许开发者利用私有数据集对模型进行风格、音色或特定乐器的低成本本地定制。
全功能音频内补（Inpainting）与延续：支持单/多段音频编辑、局部重作以及因果延续（Causal Continuation），可在保留原始音频语境的前提下实现轨道延伸。
商用合规与开放权重：模型基于 100% 授权数据训练。年收入 100 万美元以下的开发者可根据 Community License 免费下载权重、商用并拥有输出物版权。

圣米格尔的黄昏。一首古典西班牙吉他曲，仿佛由玛丽亚奇乐队演奏。非常适合阳光明媚的天气。

一首古怪另类的流行器乐，带有和朋友一起开车长途旅行的氛围，抓耳的合成贝斯极具感染力，紧密调校的吉他鼓增添了一丝雅致，梦幻多彩的合成器带来模糊的老式 VHS 胶片氛围。同时，轻柔的吉他弹奏出独立摇滚风格的主题。

试用链接：

https://stability.ai/stable-audio

Hugging Face:

https://huggingface.co/collections/stabilityai/stable-audio-3

( @stability.ai)

2、字节跳动发布 Lance：3B 规模原生统一多模态模型，支持视频理解与生成全链路

字节跳动智能创作团队推出原生统一多模态模型 Lance，参数量为 3B。该模型在不超过 128 块 GPU 的有限预算下从头训练（from scratch），通过分阶段多任务配方实现了图像与视频的理解、生成及指令驱动型编辑能力的统一，在多个多模态基准测试中位居同类模型首位。

混合架构与语义/生成专家分离：Lance 维护统一的文本、图像和视频交错序列，但在架构层分离了语义理解（利用语义 ViT token）与视觉生成（利用干净/噪声 VAE latents）任务，由专用专家模块处理。
高效率训练配方：在 ≤128 GPUs 的计算资源限制下，通过分阶段多任务协同训练（staged multi-task recipe）完成 3B 参数模型的全预训练，验证了在低算力成本下构建全能多模态基础模型的可行性。
多轮一致性视频编辑：支持复杂的视频操控，包括单步指令（背景更换、主体替换、动作修改）及多轮链接式一致性编辑，能够保持同一主体在多次属性变更后的视觉连贯性。

参考链接：

https://lance-project.github.io/

https://github.com/bytedance/Lance

https://huggingface.co/bytedance-research/Lance

( @lance-project)

3、Mega-ASR：首个全场景工业级 ASR-in-the-wild 模型，极端环境识别性能提升 10% - 30%

南洋理工大学（NTU）、新加坡国立大学（NUS）与上海人工智能实验室（Shanghai AI Lab）联合训练并开源了鲁棒语音识别模型 Mega-ASR。该模型针对真实世界中的极端声学环境，引入了监督微调（SFT）与强化学习（RL）联合优化策略，在回声、远场、丢包等复合场景下，相比现有主流模型（如 Whisper、Gemini-3-Pro）实现最高近 30% 的性能提升。

Voices-in-the-wild-2M 数据集：基于频谱操作流水线构建了包含 11,000 小时（约 260 万条）样本的训练集，覆盖 7 种单一声学条件与 54 种复合场景。引入智能体校验数据的物理合理性，并硬性过滤了词错误率（WER）高于 70% 的样本以保证训练稳定性。

声学到语义渐进式微调（A2S-SFT）：在基础训练阶段，模型强制在强声学扰动（如遮挡、回声与混响、电子失真等）环境下进行语义提取与恢复训练，输出基座模型 Mega-ASR-Base。

双粒度 WER 门控策略优化（DG-WGPO）：在 SFT 模型基础上引入强化学习对齐阶段，将 token 级细化奖励与句子级重建奖励相融合。该机制确保即使在基线 WER 超过 30% 的极端恶劣条件下，模型依然能获取有效的梯度学习信号。

多维度复合场景纠错能力：在包含嘈杂背景音（Babble Noise）、餐厅噪音、空输出恢复及长文本语义恢复的测试基准中，Mega-ASR 的实际 WER 显著低于 Qwen3-ASR、Seed-ASR 与 Whisper。

Arxiv:

https://arxiv.org/abs/2605.19833

Project page:

https://xzf-thu.github.io/Mega-ASR

（@社区投稿）

02 有亮点的产品

1、Pettichat 发布首款双向宠语翻译器：接入通义千问 LLM，基于 500 万声纹数据实现 1.2 秒实时翻译

初创科技公司 Pettichat 推出其首款双向宠语翻译器硬件，预售价 799 元。该设备通过接入阿里云通义千问大模型及自研宠物翻译模型，实现了猫狗叫声的实时双向翻译。此举标志着大语言模型（LLM）的应用边界首次正式延伸至跨物种实时语音交互领域。

500 万+声纹标注数据库：自研宠物翻译模型基于超 500 万真实猫狗声音样本进行训练，数据由专业训犬师与兽医进行多维度语义标注，用以克服不同品种、年龄和情绪下的表达差异，构建垂直领域的声纹数据壁垒。
边云协同架构与 1.2 秒响应：区别于传统竞品「录音-上传-云端处理-异步翻译」的延迟模式，Pettichat 采用边缘计算与云端 AI 协同架构，将双向翻译延迟控制在 1.2 秒内，官方宣称情绪识别及语言转化准确率达 94.6%。
大模型与自研模型混合推理：硬件接入阿里云通义千问 LLM，结合自研专属宠物翻译模型进行多模态语义解析，在保证实时翻译速度的同时，降低了硬件端的算力开销。
低功耗消费级硬件配置：整机重量 27g，采用蓝牙 5.4 低延迟连接；内置 ACS 控制音效系统与数字声音增强技术以优化全景立体音效；支持 IP65 级防水防尘，续航可提供 24 小时待机或 3 小时连续对话。

（@青来 AnW、@科技狐）

2、Google 发布 Gmail Live：引入 Gemini 驱动的语音对话式检索，支持多轮自然语言交互与上下文推理

谷歌在 Google I/O 2026 开发者大会上宣布推出对话式 AI 功能「Gmail Live」。该功能由 Gemini 模型驱动，允许用户通过自然语言语音交互直接检索、调取和管理收件箱深层信息。此更新旨在提供具备上下文感知与实时中断唤醒能力的多轮对话检索体验，替代传统的关键字搜索框。

多轮语音上下文推理与即时中断：Gmail Live 支持自然语言的多轮连续问答，能够精准识别语义的细微差别（如区分「实地考察」与「普通旅行」），自动推断未明确命名的实体关系，并允许用户在系统语音播报过程中进行实时打断和话题切换。
非结构化邮件数据细粒度提取：系统可直接从历史邮件中检索并提取特定的非结构化细节（如酒店房间号、门禁码、航班时刻等），无需用户依赖精确的检索词。
AI 收件箱订阅门槛下放：此前仅限于 Google AI Ultra 订阅者的 AI 收件箱（支持单页面聚合展示待办事项与未读摘要）功能，现已正式向下覆盖至 Google AI Pro 和 Plus 订阅用户。
语音技术栈多产品线同步：相同的语音对话底层技术将同步引入待办事项管理工具 Google Keep，以支持跨应用的任务状态语音标记与更新。
保留传统搜索的双轨制架构：吸取此前 Google Photos 因强制升级 AI 搜索而引发用户反弹的教训，Gmail Live 将作为并列的独立选项运行，不取代传统的关键词检索框。