OpenAI 重构 WebRTC：采用 Relay+Transceiver 拆分语音 AI 架构丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、OpenAI 重构 WebRTC 架构：拆分流量转发与会话状态，降低 ChatGPT Voice 响应延迟

为保障 ChatGPT Voice 与 Realtime API 毫秒级的自然语音交互体验，OpenAI 全面重构了底层 WebRTC 协议栈。新架构将数据转发与协议状态处理物理拆分，成功解决了 Kubernetes 环境下暴露海量 UDP 端口带来的扩容瓶颈，在零修改客户端代码的前提下，为超 9 亿周活用户降低了端到端网络延迟与语音打断（barge-in）耗时。

弃用多方并发架构，边缘独占终结连接：针对大模型语音与智能体 1:1 的交互特点，OpenAI 放弃了视频会议常用的多方并发架构（SFU）。新架构由边缘节点（Transceiver）独占处理 WebRTC 的加解密与连接状态，并将其转化为内部精简协议，直接对接后端推理服务。这使得后端大模型服务能像普通微服务一样弹性扩缩容，无需处理复杂的 WebRTC 点对点逻辑。
利用协议原生字段实现无状态精准路由：为解决单端口复用带来的流量分发难题，新增的轻量级 Relay 转发层不参与数据解密。它仅读取首个数据包头中的 ufrag（用户名片段）原生字段——OpenAI 将路由信息提前注入了该字段。Relay 据此直接将音频包推送到持有该会话状态的 Transceiver 节点，完全省去了外部数据库查询的热路径延迟。
基于 Go 语言的底层多线程并发优化：转发层采用纯 Go 语言在用户态运行，未引入复杂的内核旁路技术。通过在代码中绑定 Linux 底层套接字选项与操作系统线程，系统强制同一用户的音频流在同一个 CPU 核心上处理。这种设计最大化了缓存命中率，大幅减少了线程上下文切换带来的性能损耗。
全局就近接入降低首包网络抖动：初始信令通过 Cloudflare 的地理位置调度，定向至距离用户最近的服务器集群。系统随后向客户端返回一个全局统一的虚拟 IP（VIP），确保后续的音频流能以最短物理路径进入 OpenAI 骨干网，有效降低了跨国网络传输中的延迟与数据包丢失。

该架构重构已在 OpenAI 全球基础设施部署上线，全量支撑 ChatGPT Voice 与 Realtime API 的实时媒体流量。

https://openai.com/index/delivering-low-latency-voice-ai-at-scale/

（@OpenAI Engineering Blog）

2、Inworld AI 发布 Realtime TTS-2：支持原生自然语言指令引导，对话延迟低于 200ms

Inworld AI 推出专为实时对话设计的语音生成模型 Realtime TTS-2。该模型放弃了传统的「孤立文本转语音」模式，改为通过接收前序对话的原始音频来感知用户情感，并允许开发者使用自然语言指令直接控制语音的演绎风格、节奏和情感输出。

自然语言指令引导（Voice Direction）：开发者无需调整复杂的参数滑块，可直接在文本中插入如 [speak sadly， as if something bad just happened] 或 [laugh] 等原生文本标签，模型将直接解析语义并改变演绎风格。
多回合音频上下文感知：模型不仅接收文本，还将前序对话的原始音频信号作为输入。通过识别用户的语气、音调和情绪状态，自动调整回复的语音特征，实现情感对齐。
单 ID 跨 100+ 语言一致性：模型支持 100 多种语言，并能在单次生成中（Mid-utterance）进行无缝语种切换，同时保持同一音色的音质、音调和身份特征。
文本驱动的语音设计（Advanced Voice Design）：支持仅凭文字描述（Prose Prompt）创建新音色（如「30 岁、带加州口音的女性」），无需任何参考音频即可生成并锁定可重复使用的 Voice ID。
低延迟流式架构：首包延迟（TTFB）低于 200ms，支持 48kHz 采样率。通过 WebSocket 持久连接，将 STT（语音转文本）、模型路由与 TTS 整合，减少环节损耗。

(@inworld_ai@X)

02 有亮点的产品

1、Interact AI 推出企业网站交互式智能体：支持实时 UI 生成与多模态内容调取，缩短 50% 销售周期

Interact AI 发布了一款面向企业网站的交互式 AI 智能体，旨在取代传统的静态表单。该智能体通过实时生成定制化 UI 和多模态内容演示，实现即时问答与会议预约，帮助企业将网站转化率提升 3 倍。

实时生成式 UI （Generative UI）：智能体不限于文本回复，可根据访客的具体问题实时构建并渲染 UI 界面，动态匹配用户需求。
多模态内容检索与分发：支持根据查询指令自动调取幻灯片、图像、视频及特定网页，在对话流中直接进行产品实操演示（Live Walkthrough）。
全栈身份与音视频定制：提供预置数字人形象，并支持开发者克隆特定团队成员的真实面部及音色，确保品牌交互的一致性。
企业级集成与安全性：提供原生 CRM、MAP（营销自动化平台）集成及全量 API 访问权限；通过 SOC 2 和 ISO 27001 审计，支持 RBAC 权限控制与 SSO 单点登录。
数据反馈闭环：所有交互记录、页面浏览路径及购买信号将自动同步至 CRM，并实时监测访客从流量到管道（Pipeline）的转化轨迹。

参考链接：https://www.interactlabs.ai/

( @interact_ai)

2、Runway 发布 Characters 实时视频智能体：单图生成 24fps 高清角色，端到端延迟仅 1.75s

Runway 基于通用世界模型 GWM-1 推出实时视频智能体 Characters。该系统支持将单张静态图像（涵盖写实、卡通及非生物）直接转化为具备自然唇形同步与表情的 24fps 高清视频，无需任何模型微调，实现了从用户停顿到角色响应仅 1.75s 的极速交互。

24fps 实时生成与 37ms 帧处理： 系统每 167ms 完成一次迭代并产出 4 个像素帧。通过流水线拆分（Pipeline Splitting），将扩散变换器（耗时 151ms）与 VAE 解码器（耗时 119ms）在不同设备上并行运行。解码耗时从关键路径中剥离，单帧有效模型时间仅为 37ms，低于 41ms 的实时渲染上限。
自回归流式生成架构： 放弃传统视频生成的全片段迭代降噪，采用自回归（Autoregressive）逐帧生成技术。结合分布匹配蒸馏（DMD）减少去噪步数，确保长视频流的连贯性与一致性。
全栈推理性能优化： 利用静态 CUDA 图（CUDA Graphs）规避内核启动开销；引入高效 KV 缓存驱逐与压缩机制以控制显存增长；针对硬件深度优化了注意力机制内核，采用 Flash Attention 4 及融合 Triton 内核提升计算效率。
原生多模态感知与扩展性：支持摄像头及屏幕共享等视觉输入，具备即时语音克隆及工具调用（Tool Calling）功能。开发者可通过一行代码将实时角色嵌入 Web 应用，或集成至 Zoom、Google Meet、Teams 等会议平台。

( @runwayml)

3、ElevenLabs 披露 5 亿美元 D 轮融资细节：ARR 突破 5 亿大关，收购波兰语音 AI 初创公司 Papla

语音 AI 头部企业 ElevenLabs 披露其 5 亿美元 D 轮融资的新增投资者名单，包括 Nvidia、Salesforce Ventures 及 BlackRock 等。得益于企业级合同的快速签署，该公司年收入经常性收入（ARR）已正式突破 5 亿美元，较去年底增长约 43%。

财务表现与估值跳升：公司 ARR 从 2025 年底的 3.5 亿美元增长至目前的 5 亿美元以上（其中 2026 年 Q1 净增 1 亿美元）；公司估值由去年 9 月的 66 亿美元攀升至今年 2 月的 110 亿美元。
产业资本密集入局：新投资者涵盖算力方（Nvidia）、软件生态方（Salesforce Ventures）、电信运营方（德国电信、KPN、Santander）及顶级资管机构（BlackRock、Wellington、D.E. Shaw) .
企业级业务下沉基础设施层：已与 Revolut、Klarna 及德国电信等签署合同，业务重点转向「语音即服务」（VaaS）、多语言自动化及「网络内 AI 智能体」（In-network AI agents）。
资本退出与人才整合：半年内完成第二次老股转让（Tender），规模达 1 亿美元；近期已收购波兰语音 AI 初创公司 Papla 的研发团队，旨在提升语音模型的拟人化程度。
零售投资渠道探索：计划通过 Robinhood Ventures 向零售投资者开放投资额度，具体准入细节尚未披露。

(@TechCrunch)

4、阿里发布生产级 Agent 产品 QoderWake：基于 Harness-First 架构，单条根因分析耗时缩短 93%

阿里正式发布生产级数字员工产品 QoderWake 及 Qoder 移动端。QoderWake 采用创新的 Harness-First 架构，解决了通用智能体缺乏经验沉淀与执行反馈的痛点，通过自进化体系实现软件工程、运营等岗位的全流程无人值守协作。

Harness-First 架构与五维自进化：QoderWake 改变了 Agent 「做完即忘」的现状，每次任务执行后会自动将经验沉淀至记忆、技能、策略、验证规则、工作流五个维度，实现生产环境下的持续增量学习。
Anti-Rot Governance 防腐治理机制：内置治理逻辑，可自动回溯任务轨迹并复盘，针对过期经验进行淘汰、合并冲突策略并撤回失效规则，确保模型在长期业务迭代中保持输出精度。
「数字程序员」落地实测：该角色已实现代码变更简报、故障诊断、告警分诊及代码修复。在阿里内部实践中，单条问题的根因分析（Root Cause Analysis）耗时从 30 分钟降至 2 分钟。
Qoder 移动端原生支持 CoT 展示：区别于传统 IM 接入 Agent 的模式，移动端应用支持远程操作桌面端，并能直观展示智能体的思考链（Chain of Thought）与工作流进度，支持主动弹窗请求人工干预。
全栈生态打通：移动端已完成 Qoder CLI 接入，后续将覆盖 Qoder IDE、QoderWork 及 QoderWake 全系产品线。