OpenAI 重构 WebRTC:采用 Relay+Transceiver 拆分语音 AI 架构丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@koki、@鲍勃


01 有话题的技术


1、OpenAI 重构 WebRTC 架构:拆分流量转发与会话状态,降低 ChatGPT Voice 响应延迟
图片


为保障 ChatGPT Voice 与 Realtime API 毫秒级的自然语音交互体验,OpenAI 全面重构了底层 WebRTC 协议栈。新架构将数据转发与协议状态处理物理拆分,成功解决了 Kubernetes 环境下暴露海量 UDP 端口带来的扩容瓶颈,在零修改客户端代码的前提下,为超 9 亿周活用户降低了端到端网络延迟与语音打断(barge-in)耗时。


  • 弃用多方并发架构,边缘独占终结连接:针对大模型语音与智能体 1:1 的交互特点,OpenAI 放弃了视频会议常用的多方并发架构(SFU)。新架构由边缘节点(Transceiver)独占处理 WebRTC 的加解密与连接状态,并将其转化为内部精简协议,直接对接后端推理服务。这使得后端大模型服务能像普通微服务一样弹性扩缩容,无需处理复杂的 WebRTC 点对点逻辑。

  • 利用协议原生字段实现无状态精准路由:为解决单端口复用带来的流量分发难题,新增的轻量级 Relay 转发层不参与数据解密。它仅读取首个数据包头中的 ufrag(用户名片段)原生字段——OpenAI 将路由信息提前注入了该字段。Relay 据此直接将音频包推送到持有该会话状态的 Transceiver 节点,完全省去了外部数据库查询的热路径延迟。

  • 基于 Go 语言的底层多线程并发优化:转发层采用纯 Go 语言在用户态运行,未引入复杂的内核旁路技术。通过在代码中绑定 Linux 底层套接字选项与操作系统线程,系统强制同一用户的音频流在同一个 CPU 核心上处理。这种设计最大化了缓存命中率,大幅减少了线程上下文切换带来的性能损耗。

  • 全局就近接入降低首包网络抖动:初始信令通过 Cloudflare 的地理位置调度,定向至距离用户最近的服务器集群。系统随后向客户端返回一个全局统一的虚拟 IP(VIP),确保后续的音频流能以最短物理路径进入 OpenAI 骨干网,有效降低了跨国网络传输中的延迟与数据包丢失。


该架构重构已在 OpenAI 全球基础设施部署上线,全量支撑 ChatGPT Voice 与 Realtime API 的实时媒体流量。


https://openai.com/index/delivering-low-latency-voice-ai-at-scale/


(@OpenAI Engineering Blog)



2、Inworld AI 发布 Realtime TTS-2:支持原生自然语言指令引导,对话延迟低于 200ms


Inworld AI 推出专为实时对话设计的语音生成模型 Realtime TTS-2。该模型放弃了传统的「孤立文本转语音」模式,改为通过接收前序对话的原始音频来感知用户情感,并允许开发者使用自然语言指令直接控制语音的演绎风格、节奏和情感输出

  • 自然语言指令引导(Voice Direction):开发者无需调整复杂的参数滑块,可直接在文本中插入如 [speak sadly, as if something bad just happened] 或 [laugh] 等原生文本标签,模型将直接解析语义并改变演绎风格。

  • 多回合音频上下文感知:模型不仅接收文本,还将前序对话的原始音频信号作为输入。通过识别用户的语气、音调和情绪状态,自动调整回复的语音特征,实现情感对齐。

  • 单 ID 跨 100+ 语言一致性:模型支持 100 多种语言,并能在单次生成中(Mid-utterance)进行无缝语种切换,同时保持同一音色的音质、音调和身份特征。

  • 文本驱动的语音设计(Advanced Voice Design):支持仅凭文字描述(Prose Prompt)创建新音色(如「30 岁、带加州口音的女性」),无需任何参考音频即可生成并锁定可重复使用的 Voice ID。

  • 低延迟流式架构:首包延迟(TTFB)低于 200ms,支持 48kHz 采样率。通过 WebSocket 持久连接,将 STT(语音转文本)、模型路由与 TTS 整合,减少环节损耗。


(@inworld_ai@X)



02 有亮点的产品



1、Interact AI 推出企业网站交互式智能体:支持实时 UI 生成与多模态内容调取,缩短 50% 销售周期

Interact AI 发布了一款面向企业网站的交互式 AI 智能体,旨在取代传统的静态表单。该智能体通过实时生成定制化 UI 和多模态内容演示,实现即时问答与会议预约,帮助企业将网站转化率提升 3 倍。

  • 实时生成式 UI (Generative UI):智能体不限于文本回复,可根据访客的具体问题实时构建并渲染 UI 界面,动态匹配用户需求。

  • 多模态内容检索与分发:支持根据查询指令自动调取幻灯片、图像、视频及特定网页,在对话流中直接进行产品实操演示(Live Walkthrough)。

  • 全栈身份与音视频定制:提供预置数字人形象,并支持开发者克隆特定团队成员的真实面部及音色,确保品牌交互的一致性。

  • 企业级集成与安全性:提供原生 CRM、MAP(营销自动化平台)集成及全量 API 访问权限;通过 SOC 2 和 ISO 27001 审计,支持 RBAC 权限控制与 SSO 单点登录。

  • 数据反馈闭环:所有交互记录、页面浏览路径及购买信号将自动同步至 CRM,并实时监测访客从流量到管道(Pipeline)的转化轨迹。


参考链接:https://www.interactlabs.ai/


( @interact_ai)


2、Runway 发布 Characters 实时视频智能体:单图生成 24fps 高清角色,端到端延迟仅 1.75s


Runway 基于通用世界模型 GWM-1 推出实时视频智能体 Characters。该系统支持将单张静态图像(涵盖写实、卡通及非生物)直接转化为具备自然唇形同步与表情的 24fps 高清视频,无需任何模型微调,实现了从用户停顿到角色响应仅 1.75s 的极速交互

  • 24fps 实时生成与 37ms 帧处理: 系统每 167ms 完成一次迭代并产出 4 个像素帧。通过流水线拆分(Pipeline Splitting),将扩散变换器(耗时 151ms)与 VAE 解码器(耗时 119ms)在不同设备上并行运行。解码耗时从关键路径中剥离,单帧有效模型时间仅为 37ms,低于 41ms 的实时渲染上限。

  • 自回归流式生成架构: 放弃传统视频生成的全片段迭代降噪,采用自回归(Autoregressive)逐帧生成技术。结合分布匹配蒸馏(DMD)减少去噪步数,确保长视频流的连贯性与一致性。

  • 全栈推理性能优化: 利用静态 CUDA 图(CUDA Graphs)规避内核启动开销;引入高效 KV 缓存驱逐与压缩机制以控制显存增长;针对硬件深度优化了注意力机制内核,采用 Flash Attention 4 及融合 Triton 内核提升计算效率。

  • 原生多模态感知与扩展性:支持摄像头及屏幕共享等视觉输入,具备即时语音克隆及工具调用(Tool Calling)功能。开发者可通过一行代码将实时角色嵌入 Web 应用,或集成至 Zoom、Google Meet、Teams 等会议平台。


( @runwayml)



3、ElevenLabs 披露 5 亿美元 D 轮融资细节:ARR 突破 5 亿大关,收购波兰语音 AI 初创公司 Papla

图片


语音 AI 头部企业 ElevenLabs 披露其 5 亿美元 D 轮融资的新增投资者名单,包括 Nvidia、Salesforce Ventures 及 BlackRock 等。得益于企业级合同的快速签署,该公司年收入经常性收入(ARR)已正式突破 5 亿美元,较去年底增长约 43%。


  • 财务表现与估值跳升:公司 ARR 从 2025 年底的 3.5 亿美元增长至目前的 5 亿美元以上(其中 2026 年 Q1 净增 1 亿美元);公司估值由去年 9 月的 66 亿美元攀升至今年 2 月的 110 亿美元。

  • 产业资本密集入局:新投资者涵盖算力方(Nvidia)、软件生态方(Salesforce Ventures)、电信运营方(德国电信、KPN、Santander)及顶级资管机构(BlackRock、Wellington、D.E. Shaw) .

  • 企业级业务下沉基础设施层:已与 Revolut、Klarna 及德国电信等签署合同,业务重点转向「语音即服务」(VaaS)、多语言自动化「网络内 AI 智能体」(In-network AI agents)。

  • 资本退出与人才整合:半年内完成第二次老股转让(Tender),规模达 1 亿美元;近期已收购波兰语音 AI 初创公司 Papla 的研发团队,旨在提升语音模型的拟人化程度。

  • 零售投资渠道探索:计划通过 Robinhood Ventures 向零售投资者开放投资额度,具体准入细节尚未披露。


(@TechCrunch)



4、阿里发布生产级 Agent 产品 QoderWake:基于 Harness-First 架构,单条根因分析耗时缩短 93%

图片


图片


阿里正式发布生产级数字员工产品 QoderWake 及 Qoder 移动端。QoderWake 采用创新的 Harness-First 架构,解决了通用智能体缺乏经验沉淀与执行反馈的痛点,通过自进化体系实现软件工程、运营等岗位的全流程无人值守协作。


  • Harness-First 架构与五维自进化:QoderWake 改变了 Agent 「做完即忘」的现状,每次任务执行后会自动将经验沉淀至记忆、技能、策略、验证规则、工作流五个维度,实现生产环境下的持续增量学习

  • Anti-Rot Governance 防腐治理机制:内置治理逻辑,可自动回溯任务轨迹并复盘,针对过期经验进行淘汰、合并冲突策略并撤回失效规则,确保模型在长期业务迭代中保持输出精度。

  • 「数字程序员」落地实测:该角色已实现代码变更简报、故障诊断、告警分诊及代码修复。在阿里内部实践中,单条问题的根因分析(Root Cause Analysis)耗时从 30 分钟降至 2 分钟

  • Qoder 移动端原生支持 CoT 展示:区别于传统 IM 接入 Agent 的模式,移动端应用支持远程操作桌面端,并能直观展示智能体的思考链(Chain of Thought)与工作流进度,支持主动弹窗请求人工干预

  • 全栈生态打通:移动端已完成 Qoder CLI 接入,后续将覆盖 Qoder IDE、QoderWork 及 QoderWake 全系产品线。


(@阿里云)


03 有态度的观点



1、黄仁勋:AI 正在创造大量就业,「末日论」只会让人不敢用 AI

图片


英伟达 CEO 黄仁勋当地时间 4 日在米尔肯研究所举办的活动上接受 MSNBC 主播 Becky Quick 的访谈时表示,人工智能正在「创造大量就业机会」,而非外界所担忧的大规模失业推手。


黄仁勋在谈及 AI 对劳动力市场的影响时持乐观立场。


他认为,AI 是美国「再工业化」的最佳机遇,驱动了一批新型工业工厂的建设 —— 这些工厂生产的正是 AI 基础设施所需的硬件(英伟达的核心业务即在于此)。


他同时强调,自动化取代的是具体任务,而非整个职位。


工作的目的与工作中的任务是相关的,但并不等同。对于「AI 将主宰人类」或「将摧毁大量行业」的论断,黄仁勋明确表示反对。他称自己最担忧的,是这类科幻式叙事令公众对 AI 产生恐惧,进而拒绝使用这项技术。


( @APPSO)


04 社区黑白报


1、「三人行必有 AI」黑客松北京站,5 月 10 日北京场路演


技术平权时代,代码不再是护城河,圈层与资源才是。


这次作为合作社群,特别向大家推荐「三人行必有 AI」黑客松。这不仅是 Google Cloud Next 26 在中国区的重磅线下联动,更是一个极高浓度的资源连接器。


5 月 10 日北京场路演,现场全是顶尖的 AI 创业者、技术大咖和投资人。如果你正带着想法寻找变现路径,或者正卡在增长瓶颈,这里就是那个能帮你把成功率提上去的“房间”。


报名最后倒计时: 北京站明天(5 月 7 日)截止报名。每城仅 199 席,趁还没满员,赶紧扫码上车!


活动详情:我想把贵人介绍给你:技术平权后,卡住你的不再是技术


图片
图片


注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    OpenAI 重构 WebRTC:采用 Relay+Transceiver 拆分语音 AI 架构丨日报RTRTE_Dev_Comm