CosyVoice3 和 Fun-ASR 开源轻量版;Gemini 原生音频模型升级,函数调用更准确丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01有话题的技术
1、通义发布「通义百聆」语音模型:升级 CosyVoice3 和 Fun-ASR,同步开源 0.5B 与 0.8B 版本
通义升级了其语音模型系列「通义百聆」,同步开源了两个轻量化版本。此举为云端服务提供了更低延迟与更高精度的语音能力,并为开发者社区提供了可本地部署与二次开发的 TTS 和 ASR 基础模型。
Fun-CosyVoice3 TTS 首包延迟降低 50%: 升级后的商业版模型支持双向流式合成,适用于语音助手、直播等实时场景。同时,中英混说词错误率 (WER) 降低 56.4%,复杂场景字符错误率 (CER) 降低 26%,支持 9 种语言、18 种方言的跨语种音色克隆。
Fun-CosyVoice3 合成:上面的 oversize 的衣服就不要选择这么大,你可以稍微再缩小一点点版型。
Fun-ASR 识别:然后被冠以了渣男线的称号,好了,不管这个,那么前方即将到达沈杜公路站,左边是 8 号线。
Fun-ASR 流式识别首字延迟降至 160ms: 在高噪声环境(如会议室、车载)下,识别准确率达到 93%。模型新增对歌词和说唱的识别能力,并支持 31 种语言的自由混说识别,无需预先指定语种。
ASR 引入 RAG 机制: 针对企业级定制需求,Fun-ASR 通过集成检索增强生成 (RAG),将定制热词上限从 1,000 条提升至 10,000 条,优化了专业术语、品牌名等的识别召回率,且不牺牲通用识别准确率。
开源 0.5B TTS 与 0.8B ASR 模型: 本次同步开源了 Fun-CosyVoice3-0.5B (TTS) 和 Fun-ASR-Nano-0.8B (ASR)。前者支持 3 秒 zero-shot 音色克隆,后者为轻量化 ASR。两者均支持本地部署与二次开发。
升级版 Fun-CosyVoice3 与 Fun-ASR 已在阿里云百炼平台可用;开源模型 Fun-CosyVoice3-0.5B 与 Fun-ASR-Nano-0.8B 已在 ModelScope、Hugging Face 及 GitHub 发布。
https://github.com/FunAudioLLM/CosyVoice
https://funaudiollm.github.io/cosyvoice3/
https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B
https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512
https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512
(@通义大模型)
2、UnityVideo 提出多模态统一训练:视频生成与模态估计性能显著提升,支持零样本泛化
港科大、港中文、清华大学与快手「可灵」团队联合发布「UnityVideo」,一个统一多模态与多任务的视频生成框架。该模型通过同时训练 RGB 视频、深度图、骨骼、光流、分割掩码等多种视觉模态,显著提升了视频生成、可控生成和模态估计任务的性能,并展现出强大的零样本泛化能力。
统一多模态训练:通过动态任务路由,在单个架构中无缝支持条件生成(从辅助模态生成 RGB)、模态估计(从 RGB 估计辅助模态)和联合生成(从文本生成 RGB 及辅助模态)。
模态区分架构:引入上下文学习器(通过文本提示区分模态)和模态自适应切换器(为每种模态学习独立的调制参数),实现即插即用的模态选择。
渐进式课程学习:采用两阶段策略,先在单人场景训练像素对齐模态,再引入所有模态和多样化场景数据,建立扎实的空间对应关系基础。
OpenUni 数据集:构建包含 130 万个多模态视频样本的数据集,涵盖单人、双人及多种来源数据,支持统一训练。
零样本泛化能力:在单人数据上训练后,可泛化到多人场景;在人体骨架上训练后,能泛化到动物骨架估计;对未见过物体和场景的深度估计和分割能力得到提升。
定量性能提升:在文本生成视频任务上,背景一致性达 97.44%;可控生成动态度达 64.42%;模态估计方面,视频分割 mIoU 达 68.82%。
模型代码已开源,论文在 arXiv 发布,提供数据集和评估基准。
论文链接:
https://arxiv.org/abs/2512.07831
代码链接:
https://github.com/dvlab-research/UnityVideo
项目主页:
https://jackailab.github.io/Projects/UnityVideo
(@量子位)
3、Authentic-Dubber 引入导演-演员交互学习:AI 配音情感准确率提升,复刻真实配音流程
内蒙古大学刘瑞教授团队在 AAAI 2026 上提出「Authentic-Dubber」,一种模拟真实电影配音中「导演-演员」交互协作模式的 AI 框架。该框架首次引入「导演」角色,通过检索增强学习和渐进式演绎,显著提升了 AI 配音在情感表达上的准确性和真实感,超越现有主流基线模型。
检索增强导演-演员交互学习:框架核心是模拟真实配音流程,AI 需「先理解,再表达」,而非直接硬性模仿。
多模态参考素材库:整合场景氛围、面部表情、台词文本等多种模态信息,并利用 LLM 进行深度语义理解,提取情感表征。
情感相似度检索:AI 能够从海量素材库中检索出情感最相关的参考片段,模拟演员「揣摩」情感线索的过程。
渐进式图结构语音生成:逐步融合检索到的情感知识(从基本情绪到多模态信息,再到参考音频),生成情感饱满、层次丰富的语音。
AAAI 2026 论文发布:研究成果发表于 AAAI 2026,论文题为《Towards Authentic Movie Dubbing with Retrieve-Augmented Director-Actor Interaction Learning》。
实验结果显著:在 V2C-Animation 数据集上,情感准确率(EMO-ACC)超越所有基线模型;主观听评(MOS-DE, MOS-SE)获得最高分;Mel 频谱图显示出可量化的情感表达优势。
研究成果已发表在 AAAI 2026,论文和源代码均已公开。
论文标题:
Towards Authentic Movie Dubbing with Retrieve-Augmented Director-Actor Interaction Learning(AAAI 2026)
链接:
http://arxiv.org/abs/2511.14249
代码:
https://github.com/AI-S2-Lab/Authentic-Dubber
(@机器之心)
4、Google Gemini 音频能力全面升级:实时语音智能体更智能,跨语言翻译更自然
Google 发布了更新的 Gemini 2.5 Flash Native Audio 模型,显著提升了实时语音智能体的能力,包括函数调用和指令遵循。该模型现已集成至 Google AI Studio、Vertex AI 及 Gemini/Search Live。此外,Google Translate 应用中新增了基于 Gemini 的实时语音翻译 Beta 功能。
Gemini 2.5 Flash Native Audio 关键提升:
函数调用准确率达 71.5%:在 ComplexFuncBench Audio 测试中,模型可靠识别并执行外部函数调用,无缝整合实时信息。
指令遵循率达 90%:相较于前代 84% 的水平,模型能更精准地处理复杂指令,提升用户满意度。
多轮对话质量增强:模型能更有效地检索前轮上下文,实现更连贯、自然的对话体验。
此外,Google Translate 应用中新增了基于 Gemini 的实时语音翻译 Beta 功能。
支持 70+ 语言、2000+ 语言对:结合 Gemini 模型的多语言能力与原生音频技术。
语音风格保留:捕捉原语调、节奏和音高,使翻译听起来自然。
支持连续监听与双向对话:可自动将多种语言译为目标语言,或在两人对话间实时切换翻译。
自动语言检测与抗噪:无需手动设置,即使在嘈杂环境下也能进行翻译。
( @Google Blog)
5、Zoom AI 新模型在「人类最后测试」表现 SOTA,AI 助手将实现复杂推理任务
Zoom AI 在极其严苛的「Humanity’s Last Exam (HLE)」基准测试中,通过其「联邦 AI」方法取得了 48.1% 的 SOTA 成绩,显著优于竞争对手。这一成果是 Zoom AI Companion 从 1.0 到 3.0 演进的体现,3.0 中集成的智能体能力,将直接赋能更高效的企业协作和自动化流程。
HLE Benchmark SOTA 达标: Zoom AI 在「Humanity’s Last Exam (HLE)」完整数据集上得分 48.1%,超越 Google Gemini 3 Pro (45.8%),展示了在复杂知识和推理能力上的领先。
联邦式 AI 架构与「Z-scorer」: 核心采用「联邦 AI」架构,通过专有的「Z-scorer」系统,协调 Zoom 自有 LLM、开源及闭源模型,兼顾特定任务性能、速度和成本。
「探索-验证-联邦」智能体策略: 引入创新的智能体工作流,通过平衡探索性推理与严格验证,聚焦并生成最具信息量和准确性的推理路径。
AI Companion 3.0 关键进展: 本次 SOTA 成果的基础是即将推出的 AI Companion 3.0,其智能体能力(包括检索、写作和工作流自动化)在复杂推理任务上得到显著提升。
AI Companion 演进的阶段性目标:
AI Companion 1.0: 奠定基础,提供会议摘要、要点提取等基础 AI 辅助。
AI Companion 2.0: 引入跨平台集成、外部数据连接(Gmail, Outlook)及网络搜索,扩展 AI 助手应用范围。
AI Companion 3.0: 转向更高级的联邦模型架构和智能体能力,实现复杂任务的自动化和深度推理。
相关链接:
https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/
( @Zoom Blog)
02有亮点的产品
1、Google 推出紧急实时视频功能,为紧急服务提供现场视觉信息
Google 在 Android 平台上推出了「Emergency Live Video」功能。该功能允许紧急调度员向用户发送请求,用户通过一次点击即可启动端到端加密的实时视频流,为紧急服务提供现场视觉信息。
一键启动视频流: 用户在接到紧急电话或短信时,可收到调度员发起的视频请求,通过单次点击即可启动摄像头进行实时视频传输。
端到端加密: 所有视频流默认采用加密传输,确保用户通信的隐私和安全。
用户完全控制: 用户在任何时候都可以自主决定是否共享视频,并可随时停止传输。
场景评估与指导: 实时视频可帮助紧急救援人员快速评估现场情况,并指导用户进行急救(如 CPR)直至救援到达。
兼容性: 支持运行 Android 8+ 并安装了 Google Play 服务的设备。
该功能即日起在美国、德国和墨西哥部分地区上线,支持 Android 8+ 设备。Google 正与全球公共安全机构合作,计划将此能力扩展至更多区域。
( @Android Blog)
2、Google Search Live 支持原生音频 Gemini 模型:响应更流畅、支持语速调整
Google 在「Search Live」功能中集成了新的原生音频 Gemini 模型。此更新旨在提升语音对话的自然度和表现力,允许用户调整语音回应的速度。
原生音频 Gemini 模型集成:为「Search Live」提供更流畅、更具表现力的语音回应。
语速与音质可调:回应支持自然语速或特定速度,适应不同场景(如 DIY 指导、学习)。
实时双向语音交互:在 AI 模式下,用户可进行「来回」语音对话,获取即时帮助并查找网络信息。
Google 应用(Android & iOS)支持:用户通过点击搜索栏下方的 Live 图标即可使用该功能。
更新的模型将在未来一周内向美国所有「Search Live」用户推出。
( @Google Blog)
03有态度的观点
1、李彦宏:2025 年是 AI 应用普及关键年,机会在应用层
据上观新闻报道,百度创始人李彦宏在《时代》周刊「AI 架构师」专题采访中表示,2025 年将是 AI 应用普及的关键一年。
他判断,基础模型层最终会留下少数几家,但应用层的各个方向将涌现众多成功参与者,「我认为那里才是机会最多的地方」。
他强调,百度采取「应用驱动」策略,针对搜索、数字人等重点领域定向训练模型以形成优势,而非追求面向所有人的「万能模型」。
李彦宏表示,全球 AI 竞争态势趋于白热化。与美国科技界主流投入巨资发展 AGI 不同,中国更关注应用,并拥有制造业等独特场景与低成本高效率的现实需求,「我们需要利用 AI 来解决这些挑战」。
他进一步提出,百度面向真实产业场景发布可商用自我演化超级智能体「伽谋」,以寻求「全局最优解」,并在公开性能基准测试与多项权威评测中展现算法推理优势与技术竞争力。
谈及技术趋势,他预计行业的决定性突破将在多模态,尤其在药物研发领域希望以 AI 推动革命性变革。
在更广泛的行业语境中,李彦宏多次强调「应用驱动」:他在此前接受《极客公园》采访时指出,「昨天大家在卷芯片、卷模型等等,我一直是说要卷应用,应用才是真正创造价值的地方」。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示:个人观点,仅供参考