RTC:Voice Agent 的高铁网络
AI Agent 的兴起
AI Agent 以强大的自主学习能力与任务处理能力,成为大模型落地的重要形态之一。这种形态让大模型的能力更加贴近实际场景,帮助个人提升工作效率和生活质量,助力企业应对人力成本与用户体验的双重挑战。
AI Agent 并非全新概念,大模型技术赋予其更强的决策能力。其核心是以 LLM 为“大脑”,通过动态调用工具进行决策和完成任务(如 LangChain、Google、Claude 等定义)。Gartner 预测[引用1],到 2028 年,15%的日常工作决策将由 AI Agent 自主完成,而 LangChain 调研显示,超半数企业已开始在生产中尝试使用 Agent[引用2]。AI Agent 正在快速改变人们的工作和生活方式,以高效、智能的服务为人们提供更便捷的体验。
《State of AI Agents》-Langchain
语音交互是多模态 Agent 的必经之路
在人机协作中,交互是至关重要的一环。2024 年,AI 与实时互动技术的结合达到了前所未有的高度,推动了行业的发展与变革。5 月,OpenAI 发布了 GPT-4o,并展示了其对话功能,仿佛电影《HER》中的智能助手走入了现实生活。语音交互界面凭借着相对文本来说交互更自然高效、相对视频来说工作流程更简单等特点,成为多模态最快落地的场景和必经之路:
零门槛的自然交互:语音是人类最本能的表达方式,无需学习成本,对智能设备不熟悉的老年人也可使用。
语音传递更多信息:语调、语气等要素能够传递情绪和意图,让交流更加生动、富有层次。
沟通效率更高:语音能够快速传达复杂信息,减少文字输入的时间,正如人们常说的:“打个电话,两句话就能说清楚。”
无需额外设备:语音交互不需要借助键盘、鼠标等工具,只需对设备(如电脑、手机等)说话即可完成操作,使用门槛更低。
这些特点使得语音在实际落地中更具优势。但人机间的语音交互要达到人与人交流的自然程度,还存在一些关键痛点需要解决。
延迟过高:人耳对声音延迟非常敏感,ITU-T G.114 标准对语音通话的‘无感知延迟’阈值是 400ms。吴恩达在 2024 年 3 月的 AI Ascent 的演讲中提到,人类天性倾向于追求实时反馈。因此,延迟直接关系到交互的自然程度和“类人”的体验感。低延迟环境有助于更顺畅地传达和理解语义。
图源:哔哩哔哩-idatawill
交互机械化:人类之间的交流经常发生打断现象,这也是异步交流和实时交流的最大区别之一。然而在人机交互时,如果机器无法理解或应对打断,可能会导致对话显得生硬,或者难以在适当时机给出合适的反应,造成信息重复、错误或者交互冗余低效。这种情况会极大降低用户体验,让交互感觉不够“人性化”。
复杂环境干扰:交流随时随地都在发生,比如嘈杂的街道或办公室。在这种环境下,AI 能否准确接收到指令,直接影响到其判断和反应。噪音干扰可能导致语音识别错误,进而影响机器的决策,造成不准确的反馈。因此,高质量的音频处理成为提升语音交互体验的一个重要课题。
图源:unsplash Mohamed Nohassi
个人用户可能对等待和偶尔的错误有较高的容忍度。但在企业生产场景中,比如 AI 客服和 AI 实时翻译,能够”听得清”并正确理解和回应用户的需求只是基础操作。在 AI 陪伴和心理咨询等场景下,AI 如果能更像人类与用户互动,提供更自然和沉浸的体验,将会极大提升用户的满意度。这不仅能帮助企业降低成本,还能提升整体服务质量。
要解决上述问题,RTC 技术成为了不可或缺的底层支撑。
RTC 让 Voice Agent 更“耳聪目明”、“流畅表达”
2024 年 10 月,OpenAI 宣布与 Agora、Twilio 等实时互动技术公司展开合作,标志着实时互动(Real-Time Engagement)技术与 AI 的结合进入了一个全新的发展阶段;12 月,在 WebRTC 早期创建者之一 Justin Uberti 加入之后,OpenAI 宣布 Realtime API 在原有的 WebSocket 基础上,新增了支持 WebRTC,并在官方文档中明确指出对浏览器和移动端建议使用 WebRTC 进行连接。从 Agent 架构来说,无论是传统的三段式级联模式,还是端到端模式,应用 WebRTC 技术都可以大幅降低响应延迟,这主要归功于其自身的技术优势。
来源:https://platform.openai.com/docs/guides/realtime-webrtc
1、超低延迟
WebRTC 基于 UDP 协议(用户数据报协议,是在一组互连的计算机网络环境中提供分组交换计算机通信的数据报模式。为应用程序提供了一种以最少的协议机制向其他程序发送消息的过程),优先保证实时性,使得其在客户端连接公共互联网时,能够更好地进行音视频传输。并且内置了 STUN 等网络协议来处理复杂的网络问题,即使在网络状况不佳的情况下,也能保证相对稳定的连接。同时,WebRTC 支持点对点直接连接,减少因服务器中转造成的额外延迟。
2、音频处理
WebRTC 专为实时音视频通信设计,提供了丰富的 API 用于处理音视频流的采集、编解码、传输和渲染,并且内置了音频处理算法,如回声消除、自动增益控制和噪声抑制等。这些算法有效提高实时通信中的音频质量,减少环境噪
尽管与 WebSocket 等传输技术相比, WebRTC 技术已经极大的解决了语音交互中的传输问题,但它涉及许多复杂的底层技术细节,比如缺乏服务器方案的设计和部署、编译环境复杂、多端设备适配问题(麦克风失败、回声等)、跨地区、跨运营商、低带宽、高丢包等场景下的传输质量没有可靠保证等等。在实际生产中直接使用裸 WebRTC,投入的时间、金钱以及人力资源比想象中要高出数倍甚至数十倍。对于企业来说,更优的选择是将有限的时间和精力集中在优化 Agent 功能和提升业务逻辑,专注于更高层次的开发工作。而将 RTC 的复杂性交给专业团队处理。
以声网的 RTC 为例,相比 WebRTC 不仅即插即用,对音视频通话质量、传输以及使用体验等方面都有大幅性能优化:
全球首创软件定义实时网 SD-RTNTM,覆盖 200+国家和地区,极致抗弱网,80%丢包情况下保证音视频通话的流畅性,各种网络环境跨区域联通;支持 1000 万级并发
多端适配支持 30+平台开发框架,30000+终端机型
即插即用,首创四行代码构建实时互动应用
提供全面的技术支持,保证可用性和服务质量,10 年无全网事故
相比传统降噪算法性能有巨大提升,可解决上百种突发性噪声;明显减弱同地多设备啸叫问题;
如果类比为交通工具,自驾出行(比如 WebSocket 等)可以灵活安排路线(协议简单),但需面对堵车、红绿灯(如 TCP 协议重传延迟),且必须自备食物、解决车辆故障(开发者需要自行处理音视频编解码等)。如果选择乘坐火车(WebRTC),它提供铁路轨道和列车(UDP 协议),内置餐车与卫生间(音频处理算法),并有中央调度实时处理轨道故障(STUN 等)。而高铁(声网 RTC),采用更高标准的轨道(SD-RTNTM)和高速列车(传输优化),更舒适平稳的乘坐体验(自研降噪算法、回声消除等,多端适配),更先进的信号系统、安全监控系统(高可用性),动力系统也更先进,能耗更低(开发资源投入小)。
因此,虽然 RTC 技术并不是传输的唯一选择,综合考虑开发难度、资源投入以及最终效果,RTC 在复杂场景下无疑能以更高的性价比获取更加稳定舒适的体验,让 Agent“听得清、听得懂、回复准、反应快”。
打造“能说会道”的多模态体验
声网对话式 AI 引擎基于声网 RTC,开发者和企业通过该引擎不仅可以充分利用声网 RTC 低延迟、高音质等优势,在如下声网自研技术加成下,可以 2 行代码 15 分钟快速构建基于大模型的对话式 AI Agent。
AI 语音秒回: 行业领先,语音对话延迟低至 650ms
对话人声锁定: 屏蔽 95%环境人声、噪声干扰,精准识别对话人声
智能打断: 模拟真人对话节奏,随时打断与 AI 的对话,响应低至 340ms
全模型适配:基于全球主流开源框架 TEN Framework,实现 DeepSeek、ChatGPT 等全模型适配,更有音视频 SDK 支持 30000+终端机型适配,解决多设备兼容性的后顾之忧
不惧弱网:地铁、地下车库等弱网环境下,人与 AI 也能流畅对话
通过声网对话式 AI 引擎带来的极致对话体验与极简开发部署,企业可在智能助手、虚拟陪伴、口语陪练、智能客服等典型场景中为用户提供真人级语音交互入口,获得更加流畅与自然的体验。
RTC + AI 带来更多可能
在 RTC 技术的支持下,语音交互将进一步提升体验,降本增效,并带来新的使用场景。
1、多人+多 Agent
未来人机一对一的交互方式可能会发展成更复杂的多人+多 Agent 网络。在这个网络中,各个 Agent 可以分工合作,处理更加复杂的任务。例如教育领域多个 Agent 可以用不同的角色共同辅导学生,提供个性化的学习指导,就仿佛同时拥有了多门学科的老师、陪练辅导以及可意互相讨论的同学。
2、画面传输
交互方式将会从声音扩展到画面,通过 RTC 实时高效传输画面,AI 可以接收和处理更复杂的信息。比如与 AI Agent 进行视频通话推荐餐厅,Agent 可以在推荐过程中通过用户表情推测用户喜好并调整后续推荐。
RTC 作为底层传输技术,助力 AI Agent 在语音交互方面的体验优化,而 AI Agent 的持续发展也会对 RTC 提出新的需求,从而推动 RTC 技术的迭代。
Radical Ventures 的风险投资家 Rob Toews 对 2025 年人工智能的预测中提到,AI 可能在 2025 年通过语音版图灵测试。即 AI 通过语音与人类的互动能够达到让人难以辨别其非人类身份的自然与流畅。为了实现这一目标,需要将对话的延迟降到极低,并在处理模糊输入或误解时表现出更高的灵活性。相信在 RTC+AI 两者的互相作用下,AI 在不远的未来能够真正的通过图灵测试。
引用1:https://www.gartner.com/cn/information-technology/articles/top-technology-trends-2025