一场论坛捕捉 26 年语音 AI 关键词:思考机制、专有模型、低功耗、超低帧率、多语种、语音增强……丨RTE2025 回顾
在 Convo AI&RTE2025 大会上,来自产业界和学术界的多位专家深入探讨了智能语音技术、大模型时代的语音交互范式变革及其在实时互动场景中的挑战与机遇。
科大讯飞寰语 AI 研究院副院长孟廷、声网音频体验与方案负责人徐广健、香港中文大学(深圳)副教授武执政、小米大模型 Core 团队首席研究员张栋、西北工业大学教授谢磊、上海交通大学特聘教授钱彦旻、声绘未来(北京)科技有限公司的 CEO 孙思宁等分享了他们在各自领域的研究成果和独到见解。
科大讯飞 AI 工程院副院长刘坤和声网音频算法负责人吴渤分别主持了主题分享和圆桌讨论环节。
孟廷:讯飞语音合成技术进展
科大讯飞副院长孟廷回顾了讯飞在语音合成领域的技术演进。从早期机械的语音合成,到 21 世纪统计参数方法的突破,再到神经网络时代的自然度提升,讯飞始终走在行业前沿。2023 年,语音合成已步入大模型时代,核心在于语音的离散化处理,使得语音建模能够借鉴文本大模型的量化方法。
讯飞构建了以语义 LLM 建模、细粒度声学建模和波形建模为核心的语音合成大模型底座。该底座通过剥离发言人信息保留语义 token,并能根据历史语音、语种、风格等属性实现高度可控的语音合成。尤其在长时多轮对话建模上,能够感知用户情绪与语气,显著提升了语音交互的体验。目前,讯飞已支持超过 50 种语言,多语种合成自然度大幅提升。
除了传统的语音合成,讯飞还拓展了文本到音频生成技术,能够根据文本提示创造声音。如今,通过一句话即可实现声音克隆,甚至仅凭对年龄、性别、音色等描述,就能生成个性化的声音。这得益于语音合成大模型在属性解耦上的能力,使得以极少数据即可实现声音属性的迁移和控制,例如让特定音库学习说方言或模仿特定风格。
「如何将当前高质量的超拟人效果,通过有效的压缩或优化,下沉到低资源和低功耗设备上,是产业化落地的必经之路。」
孟廷
科大讯飞寰语 AI 研究院副院长
徐广健:AI 时代 RTC 实时互动智能语音交互挑战与机遇
声网音频体验与方案负责人徐广健在分享中指出,随着用户对体验追求的不断提升,传统 RTC 拓扑在人机交互及复杂网络条件下已显不足。
声网为此采取了端云协同策略及多项 AI 技术:一方面,将复杂算法云端化,并推出 AIQS(AI Quality of Service)弱网对抗方案,可将传统 7-8 毫秒网络延时对抗能力提升至 3-4 秒;另一方面,声网自研并开源的 TEN VAD 模型也为轻量级端侧应用提供了高效支持。
在具体语音增强技术上,声网的核心亮点体现在多个维度,旨在解决传统语音处理中的痛点:
AI 回声消除(AEC):基于深度学习,有效解决产品声学结构差导致的非线性回声,在双讲时人声保留高达 80%以上,回声残留低于 0.1%,显著优于竞品及手机原生算法,有效防止人机交互中的语音打断和误识别。
AI 降噪(AINS)与去混响一体化:该模型注重幅度谱与相位谱同步增强,能有效抑制会议室混响、啸叫、地铁背景噪音、麦克风摩擦音等复杂问题,显著提升 ASR 在各种场景下的准确率,并在 GMOS 主客观测试中表现优异。
背景声消除与开源 TEN VAD 模型:在 AI 智能体陪伴机器人等场景中,能精准锁定目标人声,完全过滤背景人声。此外,声网开源的 TEN VAD 模型在人声、音乐检测方面也达到了业界领先水平。
TEN VAD:
https://github.com/TEN-framework/ten-vad
TEN Turn Detection:
https://github.com/ten-framework/ten-turn-detection
「相较于传统语音增强的『减法』策略,我们提出生成式的方法,旨在通过『加法』有效还原这些已受损的语音信号。」
徐广健
声网音频体验与方案负责人
武执政:语音处理技术研究进展
香港中文大学(深圳)副教授武执政指出当前语音大模型面临的核心成本问题:语音 Token 的帧率远高于文本,使得语音模型的训练和推理成本高企。
语音大模型的核心基建——离散表征(Codec)是解决这一问题的关键。他介绍了其团队开发的 DualCodec、TaDiCodec 和 FlexiCodec。新开发的 FlexiCodec 成功地将语音 token 的帧率从传统的 12.5Hz 降到了 6.25Hz,甚至在推理时可控制在 3.8Hz,大幅节省了计算资源,实现了根据说话者语速和发音边界建模。TaDiCodec 能够通过引入文本信息辅助建模,使得在 6.25Hz 的超低帧率下,各项音质指标依然能与 25Hz 甚至 50Hz 的高帧率模型持平。
在语音增强方面,他们将强化学习引入语音增强,通过构造人类偏好对(即正样本需在多个客观指标上完全胜出),对生成式模型进行后训练或偏好对齐,使模型的输出在人的感知上明显优于未对齐的版本。
他指出,歌声增强也是目前最具挑战性的问题之一,对歌声增强的深入优化,也会反哺语音增强技术的进步。为此,其团队主动构建了包含马路、游戏厅、酒吧等多种复杂场景的歌声数据集。
「如果把 token 的帧率从 12.5 赫兹降到 6.25 赫兹,保证它的音质是一样的,这相当于我的成本降低了一半。」
武执政
香港中文大学(深圳)副教授
张栋:MiMo-Audio 语音领域的 GPT-3 时刻
小米大模型 Core 团队首席研究员张栋认为,语音预训练应通过压缩互联网上所有的语音数据,让模型理解不同性格、不同背景的人在各种状态下是如何说话、如何感知音频世界的,从而获得强大的泛化性。
基于此动机,小米团队将预训练数据量扩展至超过 1 亿小时,以打造 MiMo-Audio-Base 模型。张栋将其称为语音领域的 「GPT-3 时刻」。他和团队观察到一个关键的「涌现能力」:在训练达到大约 1T Token 的临界点后,模型突然获得了之前不会的 Few-shot In-context Learning 能力。这意味着,模型能够通过上下文中的少量(如 5 到 16 个)样本,快速学习并执行新的语音任务,如音色转换、语音到语音翻译等。团队进一步推出了 MiMo-Audio-Instruct 模型。该模型在 7B 量级中达到了 SOTA 的性能,并在音频理解、语音对话等多个基准测试上表现出色。
为解决语音 Token 数量远超文本导致的训练效率低和模态学习困难,他们设计了 Patch Encoder 和 Patch Decoder 结构。这使得大模型最终见到的语音表示的帧率从 25Hz 降低到了 6.25Hz。此外,他们强调 Tokenizer 的首要原则必须是「信息无损」,保证语音中的信息尽可能完整地被保留下来。
「在训练达到大约 1T Token 的临界点后,模型突然获得了之前不会的 Few-shot In-context Learning 能力。」
张栋
小米大模型 Core 团队首席研究员
谢磊:生成式语音与音乐处理技术前沿
西北工业大学教授、音频语音与语言处理实验室负责人谢磊重点介绍了实验室在共情对话方面的探索。
他认为,对话模型需要从单纯的「工具属性」向「伙伴属性」跨越,具备感知用户情感并给出恰当、富有同理心响应的能力。鉴于共情数据稀缺,团队使用相对轻量级的千问 2.5/3B 模型,结合自建的 Easy Turn 200K 共情对话数据集进行微调。通过引入 「Think」机制,模型能够在理解用户情感的基础上,给出更具人性的回复,同时保持「智商」。
他还提到传统测试集难以反映垂域问题,因此团队与千问合作构建了已开源的 ContextASR Bench,用于评估 LLM-ASR 处理专有名词和热词的性能。在语音增强方面,他们发布了 SenSE 语义感知高保真通用语音增强模型,通过注入 Flow Matching 框架,有效解决了突发噪声和高频缺失等语音质量损伤。此外,音频语音与语言处理实验室联合 Soul 等机构完成了多方言拟人播客生成,模型基于 130 万小时多人对话数据训练,音色克隆效果好,支持多种方言,并具备在文本中加入副语言 Tag(如咳嗽、笑声)的特色功能。同时团队还开源了 WenetSppeech 等数据集,并将重点发布上万小时规模的方言数据集。
在音乐生成方面,谢磊团队发布的第二代 DiffRhythm 结合了 Block Flow Matching 和 CrossPair DPO 等技术,进一步提升了音乐性和结构完整性。他们还与上海音乐学院合作,发布了 SongEval 数据集,用于从音乐美学角度对 AI 生成音乐进行人工评估和打分。
「当一个『咳嗽着但开心地说要去听音乐会的小朋友』提问时,AI 应该给出穿搭建议,同时关心他是否感冒。」
谢磊
西北工业大学教授、
音频语音与语言处理实验室负责人
钱彦旻:听觉认知与计算声学的前沿进展
上海交通大学特聘教授钱彦旻强调了语音和声学学科在人工智能时代不可替代的重要性。他指出,尽管生成式 AI 取得了显著进展,并能处理多种模态,但语音作为人类交互的关键通道,其核心地位并未动摇。
针对「大模型能够一次性解决所有语音任务」的观点,钱教授认为在实时性、低延时、端侧部署等场景下,专有处理方案依然是刚需。
钱教授首先介绍了其团队自主研发的情感口语对话大模型 LUNA。LUNA 的诞生旨在探索经济高效的模型开发方式,具备多人对话无缝衔接、多语言及方言支持、角色扮演与情感丰富、知识问答等四大特色。值得关注的是,LUNA 在引入多模态后面临的「智商下降」问题相对可控,并且在延迟指标上表现出显著优势,有效解决了人机对话体验不佳的痛点。
随后,钱教授将重点转向语音翻译专模型,再次强调大模型在实时性方面存在的局限性,凸显了专用模型在语音翻译领域的不可替代价值。语音翻译的目标是实现自然、及时、无障碍的语音交互,这要求在精度、表现力(如跨语言语音克隆和副语言保留)以及即时性方面达到高度平衡。为了实现类似同声传译的等时性,团队开发了基于 MOE 架构的 Read Policy 策略,使模型能够自主判断何时进行「听」(Read)和何时进行「写」(Write),从而在精度和实时性之间取得最佳平衡。
「我们的语音翻译模型的目标,是让世界上各个国家的人在自己的语言体系下但还是可以完成无障碍、自然、即时地交互。」
钱彦旻
上海交通大学特聘教授
圆桌讨论:对话式 AI 时代,语音技术的落地挑战和思考
主题是「对话式 AI 时代,语音技术的落地挑战和思考」的圆桌讨论由声网音频算法负责人的吴渤主持,参与讨论的嘉宾有声绘未来(北京)科技有限公司的 CEO 孙思宁、小米大模型 Core 团队首席研究员张栋以及上海交通大学特聘教授、教育部长江学者钱彦旻。
主持人吴渤首先指出现场观众对对话式 AI 语音技术的热情,并向三位经历了语音技术三次革命的专家抛出了一个「灵魂拷问」:在大模型时代,专业语音技术(如 AI 降噪、混音消除)是会沦为大模型的数据处理工具,还是将继续以专有能力与大模型共生?
三位嘉宾的观点趋于一致,均认为未来将是「通专融合」和「长期并存」的格局。
孙思宁直言,传统技术在一定程度上已成为大模型数据清洗 pipeline 的重要组成部分,但这是一个「好事情」,说明技术在升级,并继续发挥着其核心价值。他强调,模型质量与数据清洗和积累息息相关。
张栋指出,大模型的能力增长是「锯齿状」的,有些任务(如数学)会随规模变好,但有些底层语音任务可能并非规模越大就能解决。更关键的是,语音应用对实时性和可部署性要求极高,大模型越大速率越慢,因此专业技术依然重要。
钱彦旻教授预测,在未来五到十年内,领域必然是通专融合。大模型适合通用、大规模场景,而专有模型凭借其在一个单点上的高效率和精确度(例如 20k 模型即可实现良好能力),在对延迟、功耗有严格要求的应用场景下,优势无法被大模型方案取代。
圆桌随后聚焦于两种主流架构的未来:优势在于灵活可控的三段式级联,与优势在于原生支持「边听边想边说」、但运算量大的端到端架构。
孙思宁认为两种架构会长期并存。在对嵌入式、可控性有要求的场景下,级联仍有优势。但从学术前沿看,端到端代表未来趋势,因为长期来看算力将越来越廉价,多模态融合是必然方向。
张栋认为应用场景决定架构选择。 他强调要分场景看待。对可靠性要求高的场景(如客服、销售),级联架构优势更大;而对于需要更高灵活度的陪伴、闲聊场景,端到端的上限则更高。
钱彦旻回忆了十年前端到端语音识别刚出现时被质疑的历程,认为现在 LLM 的发展也处于类似阶段。尽管目前级联在灵活性上占优,但从理论上看,端到端的性能上限更高,未来随着技术成熟,端到端将会实现全面替代,但目前级联仍将存在很长一段时间。
在实际落地中,三位专家指出了当前面临的最大瓶颈:
孙思宁认为挑战在于用户的直觉与技术相悖——用户认为越简单的(如区分说话人情绪、背景人声)AI 越不好做。此外,在非配合的 noisy 场景下,ASR 识别率很低,如何管理长期记忆模块并从中提取有效信息,是 AI 个性化趋势下的关键难题。
张栋认为最大的瓶颈是评估,尤其是涉及主观的多模态生成和语音对话。当前的评估缺乏可感知性、实时性、可扩展性和鲁棒性,急需开发出强大且能对齐人类偏好的自动化评估模型。
钱彦旻教授关注大模型「大力出奇迹」的低效率问题。他提出,人类大脑在复杂场景下处理信息极为高效,不需要消耗如此多的数据和电量。未来的研究应着眼于新的范式或框架,探索类脑启发式的理解和生成,以提升 AI 的效率。
在圆桌的最后,各位嘉宾分享了在人机交互和 AI 浪潮下的观察与展望:
张栋在回应推理能力时,提出解决语音交互中信息量和速度冲突的方案:利用语音输出速度固定,通过让模型输出思考通道或让另一个模型接力思考来解决。他更看好利用 「Think」机制来提升模型的情商(如揣测用户意图)和传统 TTS 任务(如用思考推断语气)。
孙思宁则从创业角度指出,大模型降低了「做出东西」的门槛,但提高了产品成功的门槛。小公司的机会在于垂直领域,因为大公司有其基因限制,难以深入垂直行业。现在的优势在于 AI 认知土壤已成熟,创业者需要做的就是找到好的切入点,从用户需求出发,避免过度设计。
钱彦旻补充道,人机交互的本质是交互对象从人变成了机器,但由于机器大脑不够鲁棒,传统语音增强反而可能导致机器识别性能下降。他预言,未来还会出现机机交互场景,例如具身机器人之间的社交,每个场景都会带来新的挑战。

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么