Grok 发布原生语音智能体构建平台 Voice Agent Builder丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Grok Voice 发布 Voice Agent Builder：原生 speech-to-speech 语音智能体构建平台，支持 MCP 协议与 SIP 接入

Grok Voice 推出免代码语音智能体构建平台 Voice Agent Builder（测试版）。该平台基于原生 speech-to-speech 架构，避开了传统的 STT-LLM-TTS 拼接模式，允许开发者与运营人员在两分钟内配置并部署具备生产级电话、工具调用和知识检索能力的语音智能体。

原生 speech-to-speech 架构与高抗噪基准：采用单阶段语音到语音紧密耦合架构，降低了多阶段拼接带来的延迟、成本与级联错误。在 τ-voice Bench 基准测试中，Grok Voice Think Fast 1.0 取得 67.3% 的得分，优于 Gemini 3.1 Flash Live（43.8%）和 GPT Realtime 1.5（35.3%），支持在低音质、高噪声、强口音及打断场景下进行 25 种以上语言的交互。
支持 MCP 协议与标准 SIP 接入：平台支持模型上下文协议和 WebSocket 连接。用户可通过 SIP 协议直接接入已有电话号码，或使用平台免费提供的电话号码进行呼叫，同时支持在浏览器端直接调试。
多格式知识检索与双向工具调用：支持导入 Word、Excel、PPT、Markdown、HTML、JSON 等多格式文档构建共享知识库；内置 Google/Outlook 日历、Linear、Notion、Google Drive 和 OneDrive 集成，并支持通过网页搜索、X 平台搜索及自定义 API 进行实时外部数据检索与业务操作。
80+ 预置音色与两分钟声音克隆：提供超过 80 种内置音色，支持使用 2 分钟音频样本进行品牌声音克隆。内置安全护栏功能，可自动屏蔽敏感信息（如信用卡号）并防止智能体偏离预设脚本。

目前已开启公测。API 资费为 0.05 美元/分钟音频（包含内置音色，无平台订阅费），使用平台提供的免费电话号码需额外支付 0.01 美元/分钟的通话费。

(@x.ai)

2、上海人工智能实验室与清华大学发布 AuDirector：闭环多智能体音频故事生成框架，自然语言编辑成功率达 90%

上海人工智能实验室与清华大学联合推出了面向沉浸式音频故事生成的自反思闭环多智能体框架 AuDirector。该系统通过主管、选角、声学制作和质检等智能体的协同，将音频故事创作转化为可迭代的闭环工作流。其核心突破在于支持用户通过自然语言对生成音频进行局部、定向的精细化重生成，无需重新生成整段音频。

三阶段多智能体流水线：将创作解构为前期制作（标识感知）、协同合成与修正、人类引导交互微调。通过主管智能体调度选角、声学制作、质检、混音和交互等多个智能体，在统一的时间线上实现语音、环境音效与背景音乐的精准对齐。
标识感知选角与多维度情绪控制：系统构建了包含 320 条音频样本的音色库，利用文本嵌入进行粗筛，并由智能体结合剧本上下文自动选角。同时，将情绪拆解为多种基础情绪的组合信号，实现对单句台词表现强度与情感走向的细粒度控制。
基于质检智能体的闭环重生成机制：引入自动评估反馈。质检智能体针对语音清晰度、情绪契合度及音色匹配度进行评分，评分低于预设阈值时，自动调整提示词并触发定向重生成，以此对冲生成式模型的不稳定性。
90% 成功率的自然语言局部编辑：交互智能体将用户输入的自然语言编辑指令转化为对底层制作脚本的修改，仅重构受影响音轨片段。在语音精修、音效修改、音量控制和结构编辑四类任务中的平均指令执行准确率达到 90%。

论文链接：

https://arxiv.org/pdf/2605.11866

代码链接：

https://github.com/Riddae/AuDirector

Demo 链接：

https://riddae.github.io/AuDirector_demopage

（@语音之家）

3、Tether 推出 BrainOS 脑机接口技术栈与 1.7B 边缘医疗模型，脑电信号转文字词错率降至 2% 以下

数字资产公司 Tether 宣布推出其脑机接口操作技术栈 BrainOS，并发布了点对点本地 AI 框架 QVAC 及其 1.7B 参数的边缘医疗模型 QVAC MedPsy。该系统通过本地化硬件和对等网络协议进行数据流隔离，实现了单通道和批处理皮层内信号转文字词错率低于 2% 的转换。这一框架旨在为肌萎缩侧索硬化症和闭锁综合征患者重建无创沟通管道，并支持控制辅助机械臂等外部设备。

BrainOS 物理智能体框架：集成智能推理模型与语音识别技术，通过打通 Tether Data 与 Tether Evo 两个板块，构建实现物理硬件控制的物理智能体体系。
QVAC 离线对等网络运行环境：采用无需许可的本地对等网络架构，包含负责脑电信号翻译的 BrainWhisperer 底层模块，并向全球开发者开放 QVAC SDK。
脑电信号直接翻译精度：原型系统可将单通道及批处理的皮层内信号实时翻译为文本，词错率低于 2%，绕过受损神经通路为语言障碍患者重建沟通渠道。
完全本地化的抗监测安全架构：系统在架构层面强制本地存储神经数据，不回传至任何中央服务器，且其对等网络后端协议可阻止包括协议开发商在内的任何第三方截获数据流。

(@TechCrunch)

02 有亮点的产品

1、Oasis Devices 发布智能指环 OASIS 1：集成降噪麦克风与光学触控板，主打私密语音输入与无键盘编辑

Oasis Devices 推出首款智能指环 OASIS 1，旨在通过硬件创新实现无键盘的私密语音交互。该设备集成了降噪麦克风与光学触控板，允许用户在不便大声说话的场景下通过轻声低语完成文本输入，并配合指环表面进行高精度文本编辑。

双模交互架构：内置降噪麦克风支持低分贝私密语音听写；同时集成电容式触控与光学追踪触控板，无需键盘即可实现精准的文本光标导航与编辑。
16 小时全天候续航：单次充电支持 16 小时连续使用，机身内部配备精密马达，可提供高精度触觉反馈。
多设备与软件生态适配：硬件端原生兼容 iPhone、Mac 和 Vision Pro，软件端深度整合语音效率工具 Wispr Flow，并支持 Spotify、Apple Music 等第三方流媒体应用。
跨设备意图追踪：技术路线图规划了移动端与跨平台的上下文切换功能，旨在实现用户交互意图在不同设备间的无缝传递。

首批产品已在官网开启限量预售，定价 289 美元，预计于 2026 年圣诞节期间发货。

(@oasisdevices@X)

2、Weave 发布家用移动机器人 Isaac 1：配备 21 自由度与可伸缩躯干，支持自主与远程操控协同

机器人初创公司 Weave 推出家用移动机器人 Isaac 1，采用全栈自研执行器与可收缩躯干设计。该机器人旨在自主完成衣物折叠、杂物整理等家务任务，并支持在复杂场景下引入远程操控协同，为家庭环境提供软硬件一体化的自动化服务。

21 自由度全自研硬件架构：系统总计配备 21 个自由度（头部 2、双臂 2×6、双手 2×1、躯干 2、底盘 3），垂直触及范围达 80 英寸（约 2.03 米），水平触及范围达 33 英寸（约 0.84 米），满足家庭环境中绝大多数抓取和放置的高度需求。
可变高度躯干与轮式底盘：机器人高度可在 3 英尺至 5 英尺 9 英寸之间动态调节，工作时可延展至成人高度，闲置时可向下折叠收拢以减少空间占用；底盘采用轮式设计以提供物理被动稳定性。
自主运行与远程操控协同机制：默认状态下自主导航并执行任务，在遇到算法无法解决的边缘场景时，系统支持人工远程操控介入协助，以保证任务最终完成。
8 小时续航与被动安全外壳：单次充电支持 8 小时运行（充电时间为 2 小时），机身外部包裹可拆卸和更换的软质织物外壳，用于提供物理缓冲和被动安全防护。

(@weaverobotics@X)