打造对话式 AI,选择级联还是端到端?

Voice Agent 是利用语音 AI 和实时互动技术进行交互、解决特定场景问题的智能体,代表场景有情感陪伴、智能外呼、实时翻译以及会议协作等。目前 Voice Agent 有两种主流架构方式 ,传统三段式的级联模式,以及端到端模式。级联模式以其模块化和低成本带来的灵活性,成为现阶段大多数开发者和企业的首选。

级联模式

它是将三个独立组件串联起来的流水线,三个组件各自负责专业的工作。

  • 语音识别(STT, Speech - to - Text):把语音输入转化为文本。

  • 语言模型(LLM, Large Language Model):分析文本并生成回复内容。

  • 语音合成(TTS, Text - to - Speech):将回复内容转为语音输出。

级联模式的优点在于是串联模式,允许开发者根据具体需求选择不同的服务供应商。例如,在口语练习中,可以选择擅长处理口音问题的 STT 服务。当这条串联路线上某个组件出现问题时,可以单独对其进行调试或替换,不会影响整体运作。

这样模块化的另一个好处是成本可控,灵活搭配不同价位的服务。比如在产品快速验证时期可以选择开源项目,随着产品的不断发展,选择更专业、功能更完善的商业版服务。

但由于涉及多个环节,可能会导致响应时间较长,并且需要分别对各个组件进行调试和部署,增加了复杂性。

端到端模式

相比之下,端到端模式更加直接,用户输入语音,模型内部经过一系列复杂的处理过程,直接输出语音回复,中间过程不会显性展示。

以 OpenAI 的 Realtime API 为例,它让开发者可以构建近乎实时的「语音到语音」的体验,实现更流畅的交互体验。这种模式将语音的处理过程从级联模式的三个步骤降低到一个步骤,显著降低了延迟,响应速度更快。由于只有一个模型,部署也很简单。

但是,这意味着整个过程更像是一个“黑盒子”,很难针对其中某一环节进行单独调整。而且需要投入大量资源进行开发。如果想要适应新的应用场景,可能需要重新训练整个模型。

端到端模式可能还存在回复不够深入和严谨的问题。吴恩达在今年二月的分享中提到端到端语音模型的两个挑战:缺少类似文本的结果检查;语音响应需要更加简洁,可能会减少了通过思维链推理,答案不够深入。

级联模式与端到端模式对比

维度

级联模式

端到端模式

部署

串联多个服务,部署复杂

单服务,部署简单

实时性

延迟高

延迟低

灵活性

组件可自由替换

单模型,无法局部调优

成本

按预算选择不同价位的模块

需投入大量计算资源、资金与专业人才

语义理解

取决于模型能力

适合场景

定制化、成本有限、对语言/语种要求高,如客服外呼、口语陪练等

实时性要求高如实时翻译等

开放生态助力 Voice Agent 产品探索与迭代

级联模式灵活性的基础,是开放繁荣的生态。根据 RTE 开发者社区发布的「RTE+AI 融合生态洞察报告 2024」,围绕 Voice Agent 产品的研发、商业化和增长的生命周期,在各个细分方向上已经有着众多技术成熟的供应商。

如以 DeepGram、AWS 为代表的 STT、Minimax、Azure 为代表的 TTS、以及 Open AI、Gemini、DeepSeek 等百花齐放的 LLM。除了基础的三个组件,该生态中还有提供底层传输的 RTC(如声网)、以及方便开发者快速搭建部署 Agent 的框架(如开源框架 TEN Framework)等。这些上下游企业让开发者能够选择最适合的能力组合、快速接入新服务、利用和学习行业最佳实践。

图源:「RTE+AI 融合生态洞察报告 2024」,RTE 开发者社区

级联模式在这样开放生态的支持下,已经有产品正在逐渐赶超端到端模式的体验。近期声网发布的全球首个对话式 AI 引擎就是采用级联模式的结构,基于在音视频领域深厚的技术优势与场景实践的积累,此次发布的对话式 AI 引擎既保留了级联模式灵活低成本优势,又克服了其延迟高和部署难的问题。只需 2 行代码,15 分钟,开发者即可部署基于大模型的对话式 AI Agent,语音对话延迟中位数低至 650ms,让 AI 秒回你的提问。

随着技术的进步, Voice Agent 的生态还会不断的扩大与完善,形成更成熟灵活的生态协作机制。为开发者提供更便捷的开发工具,降低算力与流量成本,创造更沉浸自然的用户体验,进而促成更健康的产业结构。

扩展阅读

让任意大模型开口说话,1 分钟不到 1 毛钱!

https://mp.weixin.qq.com/s/Gt_TkrQv3e0ALXP2RAOO1w

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

https://mp.weixin.qq.com/s/I5we_-QEYOlaIbJ2NVe0FQ

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)https://mp.weixin.qq.com/s/r2z1bilamX6YWTg90F8xYA

使用 TEN Agent+Deepseek 快速搭建语音助手

https://mp.weixin.qq.com/s/cfWG2rFsHDTrextRZVqRqQ

吴恩达来信:构建语音应用的经验分享

https://zhuanlan.zhihu.com/p/26978238279

注册登录 后评论
    // 作者
    @声网开发者
    声网开发者
    • 0
    // 相关帖子
    Coming soon...
    • 0
    打造对话式 AI,选择级联还是端到端?
    声网开发者