Sesame 收购 SMPL,团队包含前 Skype 与 WebRTC 核心成员丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Mixhalo 发布 Mixhalo Translate:结合超低延迟串流,提供 50 种语言实时 AI 同传与转写
现场音频流媒体平台 Mixhalo 推出 AI 翻译服务 Mixhalo Translate。该服务将该公司的超低延迟音频串流技术与 AI 结合,允许参会者通过个人智能手机直接获取多语言实时同传与文本转写。
50 种语言本地化支持:服务上线即支持 50 种语言的实时音频同传与同步文本转写。
超低延迟音频传输:基于 Mixhalo 自研的流媒体传输技术,提供广播级音质,解决传统同传设备延迟和覆盖盲区问题。
双重网络架构兼容:支持基于 5G 的 Mixhalo Over Cellular 方案,以及利用场馆 Wi-Fi 的 Mixhalo Rodeo 方案,保障高密度人群环境下的高带宽连接。
免专用硬件部署:淘汰了传统会议昂贵的红外与射频接收器及专用耳机,参会者通过个人智能手机和自带耳机即可接入。
Mixhalo 将其在大型体育赛事和音乐会中验证的超低延迟流媒体技术引入企业会议场景,直击传统硬件同传部署成本高、设备维护难的痛点。然而,官方目前未披露其底层 AI 翻译模型的具体合作方,其在专业垂直行业(如医疗、金融)的术语翻译准确率及抗噪性能仍需实际应用检验。
服务已正式上线,参会者可通过智能手机客户端获取。
( @TechCrunch)
2、Sesame 收购 SMPL,团队包含前 Skype 与 WebRTC 核心团队成员:专注语音 AI 音频前处理技术
Voice AI 团队 Sesame 宣布收购实时音频基础设施团队 SMPL。
SMPL 团队由 Skype、Microsoft Teams、WebRTC 及亚马逊 Alexa 的核心音频奠基人组成,其研发的算法与编解码器目前支撑着全球每日数十亿次通话,技术已在超 1.5 亿辆汽车和数亿部智能手机中落地。
此次收购旨在将 SMPL 工业级的声学前处理、回声消除与网络抖动控制技术引入 Sesame 的语音智能体生态。
据 SMPL 网站介绍,SMPL 提供以下核心业务:
承袭通信级底层技术资产:SMPL 团队拥有超过 200 项音频专利。核心成员主导了行业标准音频编解码器 Opus 的制定,发明了 Skype SILK、微软 Satin、谷歌 iSAC 编解码算法,并开发了现已成为 WebRTC 核心组件的 NetEq 抖动缓冲区,在实时音视频(VoIP)和车载前装声学处理领域拥有极高的行业占有率。
管道延迟低于 16ms 与高资源效率:音频管道新增延迟小于 16ms,采用轻量级架构设计,支持移动端和可穿戴设备。带宽消耗降低 50%,具备超低功耗和低内存占用的特性。
近零误触的智能打断机制:针对 iOS 原生 VPIO 栈及 Android 平台的自打断顽疾,采用定制的双讲处理与回声消除技术。在 100 次基准测试中,各设备上的误打断次数从原生系统的数百次降至接近 0 次。
高噪声环境字错率降至 6.5%:内置针对语音智能体音频模式训练的机器学习回声消除模型。在医疗、车载等高噪声、多发言者环境下,其字错率仅为 6.5%,而传统 WebRTC AEC3 方案的字错率为 26.6%。
支持多平台 Drop-in SDK 且服务商无关:iOS 端支持 SPM 导入,Android 端支持 Maven 导入。兼容 OpenAI Realtime、ElevenLabs 以及任何基于 WebSocket 或 WebRTC 的语音 API。
参考链接:
https://simplertc.com/#integration
( @sesame@X)
3、马斯克:Grok 语音控制特斯拉 FSD 功能将在 3 个月左右推出
自从去年 Grok 智能助手上线后,特斯拉车主已习惯和自己的爱车对话,但车辆的驾乘交互体验即将迎来一次全方位的语音革新。以往用户只能通过语音搜索歌曲、给导航添加目的地,而不久之后,用户将能用自然语言直接设定特斯拉 FSD(监督版)系统的全部行驶逻辑。
一位 X 平台用户发帖,希望车载 AI 能新增 FSD 语音控制功能,马斯克很快给出了明确预估:「该功能大约三个月左右就能上线。」
马斯克此前已证实,Grok 与 FSD 系统的适配工作正在推进,而这次回复是首次给出确切落地周期。若该时间计划如期推进,这套高阶语音操控功能将于今年秋季陆续推送至全系特斯拉车辆。
Grok 去年夏天率先在美国以测试版车载助手的身份登陆特斯拉车型,随后逐步覆盖加拿大、欧洲等地区。本月初,特斯拉进一步扩大 Grok 的开通国家范围。
这款智能对话机器人持续拓展车辆实用控制能力:特斯拉在 2025 年假日版本更新中,为 Grok 新增导航语音指令,驾驶员可通过语音一键添加途经点、重新规划路线;不久前推送的 2026 春季功能更新(系统版本 2026.14 及以上),上线语音唤醒口令「嘿,Grok」与基于位置的导航提醒功能,车主只需口述「快到家时提醒我买橙汁」即可设置提醒。
让 Grok 直接操控 FSD 底层系统,是顺理成章的下一步,同时也是一次重大突破。当前新版 FSD(监督版)系统,仅能依靠驾驶员手动打转向灯,引导车辆转向;而接入 Grok 后,无需手动操作,仅凭自然语言就能操控车辆,彻底改变驾驶交互方式。
Grok 与 FSD 系统适配后,提升最显著的场景当属停车,停车一直是车主反馈最多的问题。14.1 版本虽新增「抵达目的地自动泊车」功能,但车机屏幕可选模式十分有限,无法精准指定车辆停放位置。
依托 Grok 搭建起通往自动驾驶神经网络的语音通道,车主可实时口述精准泊车指令。例如你可以直接说:「导航去五金店,到店后倒进门店门口的车位」,或是「开回家,直接驶入自家车道」。
(@IT 之家)
02 有亮点的产品
1、Google Home Speaker 发布:内置 Gemini 语音智能体,支持多步推理与空间音频组网
谷歌推出首款专为 Gemini 语音智能体设计的智能家居硬件 Google Home Speaker,定价 99.99 美元。该设备摒弃了传统智能音箱的固定指令模版,依靠大模型的自然语言理解与多步推理能力,实现自然纠错、多意图连续对话,并能与 Nest 摄像头联动进行空间状态的多模态检索。
上下文理解与实时纠错:支持单句输入多项复杂指令(如同时调节灯光、播放音乐并设置计时器),允许用户在说话过程中即时纠错(如「关闭咖啡机……不对,是打开」)。支持 Continued Conversation 功能,在回答完毕后麦克风短暂保持唤醒,实现无需重复唤醒词的多轮对话。
多步逻辑推理:能够解析带有否定和限定条件的复杂逻辑请求(如「关闭除床头灯以外的所有灯」);可自主拆解并跨数据源检索多步信息(例如通过关联赛程时间、比赛地点和气象预报,直接回答「下一场棒球赛天气如何」)。
Nest 摄像头多模态检索:订阅 Google Home Premium 的用户可解锁 Camera History Search 功能,通过音箱直接用自然语言查询摄像头历史画面(如问询「后院门现在开着吗」或「宠物今天有没有上沙发」),并支持获取全屋动态摘要(Home Briefs)。
360 度空间音频与硬件联动:配备 360 度扬声器与环境自适应麦克风;支持无线连接 Google TV Streamer,最多可将两台音箱配对组建空间环绕声系统。
( @Google@X)
2、Odyssey 完成 3.1 亿美元 B 轮融资:发布实时多模态与多智能体世界模型,基于 AWS Trainium 芯片深度优化
世界模型初创公司 Odyssey 宣布完成 3.1 亿美元 B 轮融资,估值达 14.5 亿美元,由 Natural Capital 领投,亚马逊及 AMD Ventures 等参投。Odyssey 将利用该笔资金加速通用世界模型的研发,并确立 AWS 为首选云服务商,与 Annapurna Labs 合作在 AWS Trainium 芯片上优化其世界模型。
物理仿真精度升级:通用世界模型 Odyssey-2 Max 在世界模拟的物理精确度上取得关键进展,提升了物理规律、因果关系及动态系统的仿真质量。
实时多模态学习:Starchild-1 突破了仅依赖视觉观测学习的传统局限,支持通过更丰富的多模态交互进行实时学习与模拟。
多智能体实时交互:多智能体世界模型 Agora-1 支持人类与 AI 智能体等多个参与者在同一个共享的世界模拟环境中进行实时交互。
强化学习主动探索架构:PROWL 采用新型对抗性强化学习框架,利用强化学习智能体主动探索游戏环境,以主动收集数据并优化世界模型的整体性能。
算力与芯片级联合优化:Odyssey 与亚马逊 Annapurna Labs 展开深度合作,针对 AWS Trainium 专用芯片优化其高吞吐、低延迟的世界模型负载。
( @odyssey.ml@X)
3、字节跳动 Pico「Project Swan」头显设计曝光:背面头带类似苹果 Vision Pro、正面酷似三星 Galaxy XR
字节跳动旗下 Pico 下一代头显「Project Swan」的演示视频已意外从公开 SDK 中曝光。
从演示视频来看,这款头显后部头带几乎和 Vision Pro 的单圈编织头带一模一样,而前部遮光垫以及额头缓冲垫部分则明显类似三星 Galaxy XR。
视频中还展示了头显随附的外接模块,相应模块设计风格类似苹果 Vision Pro 的电池单元,不过目前暂不知悉其用途,既有可能是电池组,也可能包含了计算单元。
视频还展示了这款头显配备带有追踪功能的控制器,外观与 Pico 4 Ultra 的控制器类似,并支持 Quest 绘制边界区域,不过目前还不清楚这些控制器是否会随包装附送。
此外,官方还在视频中详细介绍了 Pico OS 6 中大量类似 visionOS 的功能,以及类似 RealityKit 的 Pico Spatial Engine。
此前消息显示,这款 Pico「Project Swan」头显将搭载 micro-OLED 面板,像素密度达到 4000 PPI,同时采用双芯片架构,其中包含一颗自研协处理器,专门负责计算机视觉和图像处理,以及一颗全新的主处理器,其 CPU 和 GPU 性能将达到现有高通骁龙 XR2 Gen 2(目前用于 Pico 4 Ultra 和 Meta Quest 3)的两倍。
(@极客公园)
03 有态度的观点
1、梁朝伟:AI 能节省制作时间,但没有灵魂
梁朝伟在上海国际电影节闭幕前接受采访时,把 AI 称为「双刃剑」。
他认为,AI 可以在前期和后期制作中节省大量时间和成本,这类效率优势会更快进入主流商业片和爆米花电影;但它也会让一些岗位消失,并把创作简化成计算。它只是计算,没有灵魂。
梁朝伟指出,表演和电影仍依赖人的观察、经验和情感积累,年轻观众也需要重新学习如何欣赏不同类型的电影,而非只接受一种模板。
他以自己成长经历作对照:上世纪 70 年代的香港街头有很多电影院,银幕体验构成了他对电影的基本理解。
他表示,自己几乎不在家看电影,因为大银幕能保留更多电影语言和细节;在短视频、流媒体和游戏分散注意力的时代,电影业需要找到邀请年轻人走进影院的方法。
(@APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、寻找 AI Agent 在物理世界的落地|报名开启 · SOLID 2026 AI Builder 创客节 @深圳
过去几年,AI 活在屏幕里。
现在,它开始有重量了。
机器人、硬件、Agent
—— AI,开始离开屏幕,从赛博世界走向物理世界。
它正在成为新的生产力,正在重构我们的工作方式、生活方式,甚至商业世界的运行逻辑。
深圳,是最好的硬件试验场。
四十年前,有人在这里画了一个圈。
从此,这座城市开始造一切。
收音机、手机、无人机、芯片……
每一次技术浪潮,都在这里找到了重量。
现在,轮到 AI 了。
6 月 28 日,
300 位 AI Builder,
深圳集结,来造。
时间:2026 年 6 月 28 日(周日)
地点:深圳,具体地址待定
规模:300+ AI Builder
面向人群:AI 创业者、独立开发者、AI 软硬件团队、产品经理、设计师、工程师、投资人及所有热爱创造的人...
详情可见链接:寻找 AI Agent 在物理世界的落地|报名开启 · SOLID 2026 AI Builder 创客节 @深圳

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考