Gemini 音频总监：带摄像头 AirPods 将成最普及 AI 设备丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、NVIDIA 发布免训练空间推理智能体 SpatialClaw：以 Python 代码为动作接口，20 项基准测试平均提升 11.2 分

NVIDIA Research 推出免训练空间推理智能体 SpatialClaw，该智能体直接将 Python 代码作为处理复杂视觉任务的动作接口。通过在持久化内核中动态编写代码、调用感知模块并复用感知变量，该智能体无需任何针对特定基准或模型的微调，即可在多样化的空间推理任务中显著提升性能。

以 Python 代码替代预定义工具链：智能体不再依赖调用固定的预定义工具集，而是在一个持久化内核中动态编写并执行 Python 代码，用于灵活组合感知模块并实时调整后续推理策略。
感知输出变量化与科学计算库集成：将视觉感知的输出直接转化为 Python 语言的标准变量，使其能与 NumPy、SciPy 等主流科学计算库无缝结合，直接进行复杂的空间几何与数学运算。
持久化内核下的多步骤动态修正：在执行长时序、多步骤任务时，智能体能够审查中间运行结果和内核状态，并根据报错或中间反馈实时修正代码逻辑与执行策略。
免微调跨基准性能提升 11.2 分：在不进行任何基准或模型专属微调的前提下，SpatialClaw 在 20 项空间推理基准测试中，相较于先前的前沿智能体平均成绩提升 11.2 分，且在 6 种不同的基座模型上均表现出高度的性能一致性。

https://github.com/NVlabs/SpatialClaw

论文链接：

https://spatialclaw.github.io/static/pdfs/spatialclaw.pdf

( @NVIDIAAI@X)

2、Soniox 发布 v5 Real-Time 实时语音模型：原生支持 60+ 语言同传、流式说话人分离与自定义端点灵敏度

Soniox 推出流式语音 AI 模型 Soniox v5 Real-Time，将转录、同传及说话人分离等分步级联管线整合为单一的原生流式系统。该模型专门针对重叠发言、嘈杂背景及多语种混合等复杂现实场景设计，能显著降低语音智能体、会议同传和客户服务系统的整体响应延迟。

实时说话人分离：无需等待音频结束进行后处理。模型在流式推断过程中，结合声学特征与语义上下文实时识别发言人更替，在多人插话、重叠发言或背景噪声环境下输出带有发言人标签的文本。
原生同传与 3600 个语言对识别：支持超 60 种语言的原生语种识别。在流式转录过程中直接完成翻译，消除先转录再翻译的多阶段 API 调用延迟，支持 3,600 个语言对的实时互译，并优化了人名、专有名词和代词的翻译精度。
新增 endpoint_sensitivity 端点检测参数：升级了基于语义、语调和上下文的端点检测算法。向开发者开放 endpoint_sensitivity 控制参数，调高该值可缩短检测延迟（适用于命令控制系统），调低该值可增加等待时间（适用于长文本听写）。
原生上下文注入 API：支持在建立 API 连接时传入会话特定的专有名词、产品 SKU、人名或首选翻译术语。该机制在模型内部生效而非后处理，可直接提升复杂声学环境下专有名词的识别和翻译准确率。
向下兼容与平滑迁移：新模型命名为 stt-rt-v5，完全兼容现有 API 接口。原 stt-rt-v4 模型将于 2026 年 6 月 30 日退役，届时未手动更改模型名称的请求将自动路由至新版。

( @soniox_ai@X)

02 有亮点的产品

1、Snap 发布 SPECS 一体式 AR 眼镜：定价 2195 美元，主打高精度手势与语音纯空间交互

Snap 在 AWE 2026 开发者大会上正式发布首款消费级一体式 AR 眼镜 SPECS，并宣布完成对空间增强现实公司 Illumix 的收购。该设备采用独立式无线设计，通过双芯片架构与电致变色光学透视（OST）技术实现 7ms 的运动到光子延迟。SPECS 彻底摒弃了物理控制器，采用高精度手势追踪与语音协同的纯空间交互方案。然而，其 2195 美元的高昂售价引发了行业关于「轻量级交互硬件如何跑通商业化」的广泛争议。

无控制器空间交互：基于手势追踪与语音控制：SPECS 抛弃了传统手柄，完全依赖手部追踪与语音指令进行控制。依托低延迟算法，用户可通过自然手势在空中直接进行虚拟物体的抓取、缩放、点击及拖拽。配合 Snap OS 2.0，设备支持多窗口空间管理，交互逻辑向主流混合现实（MR）设备看齐。
双处理器异构架构支撑 7ms 交互延迟：搭载两颗骁龙处理器，其中一颗专门用于计算机视觉与空间定位（处理手势识别与空间锚定算法），另一颗专门负责运行 Snap OS 和渲染 Lenses。硬件层面的解耦确保了高频手势交互的响应速度，实现 7ms 的运动到光子延迟。
空间地图技术与智能体化开发流：整合新收购的 Illumix 空间地图技术，强化虚拟菜单和物体在真实物理空间中的锚定精度。同时，联合 Claude Code、Codex 和 Cursor 为开发者引入智能体化开发预览版。

但不可忽视的是 Specs 仍存在几个难以回避的短板。续航、重量、性能这个「不可能三角」依然制约着 Specs 的体验，再加上其搭载的 Snap OS 2.0 和高通双芯片方案带来的高能耗，使其续航只有 45 分钟左右，这意味 Specs 无法成为重度的生产力工具，只能面向特定的短周期任务运行。同时，全彩光波导镜片在特定场景下会出现不可避免的颜色分离和彩虹伪影的物理缺陷，这也让 Specs 暂时难以进入高精度或极端环境场景。

已在官网开放预售（需支付 200 美元可退还定金），售价为 2195 美元，预计今年秋季在美、英、法三地首批出货。

（@VR 陀螺、@snap）

2、Bland 获 5000 万美元融资：自研语音模型主打非线性交互，支持 45 分钟超长通话

语音智能体初创公司 Bland 宣布完成 5000 万美元 C 轮融资，累计融资总额已超 1 亿美元。该轮资金将用于扩展自研语音模型并扩充工程团队。Bland 避开了套壳第三方大模型的通用路线，通过全栈自研语音模型，直接在医疗、金融等强监管行业落地高风险、高复杂度的超长语音交互服务。

自研全栈语音模型：Bland 拒绝使用第三方基础模型 API 进行套壳封装，其智能体完全运行在自研的语音底座模型上（且不支持客户替换底层模型），专门针对实时通话中的高延迟、易打断、多歧义等痛点进行底层调优。
支持超长非线性对话：突破传统语音机器人只能处理预约提醒、电话路由等简短脚本任务的局限，单次通话时长可达 30 至 45 分钟，支持如引导老年患者测量血压并评估是否呼叫救护车等高风险、多分支的非线性复杂决策。
周通话处理量超 350 万次：目前主要服务于医疗保健、金融服务等强监管行业，拥有超 250 家企业客户（包括 Samsara、Kin Insurance 等），周通话处理量超 350 万次，上年度累计处理通话量超 1.75 亿次。
打破「电话消亡」的市场偏见：在 Y Combinator 孵化阶段，曾有 180 位投资人因「电话业务日渐式微」的预判而拒绝投资。Bland 本轮获得戴尔科技资本、ElevenLabs 首席技术官及 Twilio 创始人的联合注资，验证了实时语音在特定高门槛业务中的刚需属性。

( @SiliconANGLE)

3、Genesis AI 发布折叠式机器人 Eno：集成 22 自由度灵巧手，最大作业高度达 2.2 米

Genesis AI 发布首款通用移动操作机器人 Eno，采用无头无腿的「轮式底盘 + 三段折叠躯干」去拟人化结构，并搭载自研高自由度灵巧手。该机器人本体与 GENE 基础模型系统深度集成，旨在平整工业、仓储及实验室场景中，直接利用人类既有工具实现全栈软硬件协同的操作闭环。

三段式折叠躯干机构：采用非双足的轮式底盘，躯干支持前倾、后仰或下腰等动态姿态，可直接调节双臂基座高度，使最大作业高度达 2.2 米，非工作状态下可折叠收纳以降低空间占用。
22 主动自由度自研灵巧手：手指采用不等长设计以贴合人手比例，支持可反向驱动以确保人机协作安全；手部集成摄像头与触觉传感器，单臂负载能力 3 至 5 公斤，单次续航 4 至 6 小时。
低成本数据采集方案：避开传统高成本遥操作设备，计划部署单价约 300 美元的自研训练手套，通过大规模部署采集专家工人的高精度手部操作数据。
无拟人外壳与认知交互界面：机身无外露执行器、线缆、铰链或螺丝孔；去除了头部与脸部设计，可选配胸前认知交互屏幕，通过视觉窗口实时展示机器人的推理状态与操作意图。
端到端长时序任务控制：由底层控制频率达 200Hz 级别的 GENE-26.5 基础模型系统驱动，支持双手协同进行线束整理、缠绕粘性胶带、移液和试管加盖等非结构化任务，具备失误后自主重试与容错能力。

（@极客公园）

4、Moss 发布实时网页检索语音智能体 Founding Agent：依托 <10ms 无向量数据库检索架构

实时检索基础设施服务商 Moss 宣布推出网页原生语音智能体「Founding Agent」并开启早期访问。该智能体直接运行在 Moss 自研的超低延迟检索架构上，跳过传统外部向量数据库，将端到端检索延迟压缩至 10 毫秒以内，旨在为企业网站提供即时、无延迟的语音问答、客户意向筛选与会议预约服务。

无向量数据库的底层检索架构：Founding Agent 摒弃了传统的外部向量数据库设计，消除因网络跳数带来的延迟瓶颈，支持 100% 本地、边缘、浏览器、设备或云端部署，直接在 AI 运行的同侧执行语义检索。
端到端检索延迟低于 10ms：在 10 万个文档的基准测试中，Moss 的检索延迟 P50 仅为 3.1ms，P99 为 5.4ms，相较于 ChromaDB（351.8ms）或 Pinecone（432.6ms）等传统向量数据库，检索速度提升近 100 倍，解决了实时语音交互中因检索卡顿导致的对话中断问题。
网页端多功能语音交互：该智能体可直接嵌入企业官网，基于企业自身的文档、产品手册、常见问题解答及内部知识库进行本地索引，支持用户通过实时语音直接询问定价、技术规格等复杂问题，并支持自动评估潜在客户意向及调用日程接口预约会议。
主流语音与大模型生态原生兼容：支持通过数行代码接入现有大模型技术栈，底层深度集成语音 AI 基础设施，并与 LangChain、DSPy 及 Vercel AI SDK 等主流大模型开发工具链无缝互通。

( @moss.dev)