Grok 发布原生语音智能体构建平台 Voice Agent Builder丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@koki、@鲍勃


01 有话题的技术


1、Grok Voice 发布 Voice Agent Builder:原生 speech-to-speech 语音智能体构建平台,支持 MCP 协议与 SIP 接入


Grok Voice 推出免代码语音智能体构建平台 Voice Agent Builder(测试版)。该平台基于原生 speech-to-speech 架构,避开了传统的 STT-LLM-TTS 拼接模式,允许开发者与运营人员在两分钟内配置并部署具备生产级电话、工具调用和知识检索能力的语音智能体。


  • 原生 speech-to-speech 架构与高抗噪基准:采用单阶段语音到语音紧密耦合架构,降低了多阶段拼接带来的延迟、成本与级联错误。在 τ-voice Bench 基准测试中,Grok Voice Think Fast 1.0 取得 67.3% 的得分,优于 Gemini 3.1 Flash Live(43.8%)和 GPT Realtime 1.5(35.3%),支持在低音质、高噪声、强口音及打断场景下进行 25 种以上语言的交互。

  • 支持 MCP 协议与标准 SIP 接入:平台支持模型上下文协议和 WebSocket 连接。用户可通过 SIP 协议直接接入已有电话号码,或使用平台免费提供的电话号码进行呼叫,同时支持在浏览器端直接调试。

  • 多格式知识检索与双向工具调用:支持导入 Word、Excel、PPT、Markdown、HTML、JSON 等多格式文档构建共享知识库;内置 Google/Outlook 日历、Linear、Notion、Google Drive 和 OneDrive 集成,并支持通过网页搜索、X 平台搜索及自定义 API 进行实时外部数据检索与业务操作。

  • 80+ 预置音色与两分钟声音克隆:提供超过 80 种内置音色,支持使用 2 分钟音频样本进行品牌声音克隆。内置安全护栏功能,可自动屏蔽敏感信息(如信用卡号)并防止智能体偏离预设脚本。


目前已开启公测。API 资费为 0.05 美元/分钟音频(包含内置音色,无平台订阅费),使用平台提供的免费电话号码需额外支付 0.01 美元/分钟的通话费。


(@x.ai)


2、上海人工智能实验室与清华大学发布 AuDirector:闭环多智能体音频故事生成框架,自然语言编辑成功率达 90%

图片


上海人工智能实验室与清华大学联合推出了面向沉浸式音频故事生成的自反思闭环多智能体框架 AuDirector。该系统通过主管、选角、声学制作和质检等智能体的协同,将音频故事创作转化为可迭代的闭环工作流。其核心突破在于支持用户通过自然语言对生成音频进行局部、定向的精细化重生成,无需重新生成整段音频。


  • 三阶段多智能体流水线:将创作解构为前期制作(标识感知)、协同合成与修正、人类引导交互微调。通过主管智能体调度选角、声学制作、质检、混音和交互等多个智能体,在统一的时间线上实现语音、环境音效与背景音乐的精准对齐。

  • 标识感知选角与多维度情绪控制:系统构建了包含 320 条音频样本的音色库,利用文本嵌入进行粗筛,并由智能体结合剧本上下文自动选角。同时,将情绪拆解为多种基础情绪的组合信号,实现对单句台词表现强度与情感走向的细粒度控制。

  • 基于质检智能体的闭环重生成机制:引入自动评估反馈。质检智能体针对语音清晰度、情绪契合度及音色匹配度进行评分,评分低于预设阈值时,自动调整提示词并触发定向重生成,以此对冲生成式模型的不稳定性。

  • 90% 成功率的自然语言局部编辑:交互智能体将用户输入的自然语言编辑指令转化为对底层制作脚本的修改,仅重构受影响音轨片段。在语音精修、音效修改、音量控制和结构编辑四类任务中的平均指令执行准确率达到 90%。


论文链接:

https://arxiv.org/pdf/2605.11866


代码链接:

https://github.com/Riddae/AuDirector


Demo 链接:

https://riddae.github.io/AuDirector_demopage


(@语音之家)


3、Tether 推出 BrainOS 脑机接口技术栈与 1.7B 边缘医疗模型,脑电信号转文字词错率降至 2% 以下

图片


数字资产公司 Tether 宣布推出其脑机接口操作技术栈 BrainOS,并发布了点对点本地 AI 框架 QVAC 及其 1.7B 参数的边缘医疗模型 QVAC MedPsy。该系统通过本地化硬件和对等网络协议进行数据流隔离,实现了单通道和批处理皮层内信号转文字词错率低于 2% 的转换。这一框架旨在为肌萎缩侧索硬化症和闭锁综合征患者重建无创沟通管道,并支持控制辅助机械臂等外部设备。


  • BrainOS 物理智能体框架:集成智能推理模型与语音识别技术,通过打通 Tether Data 与 Tether Evo 两个板块,构建实现物理硬件控制的物理智能体体系

  • QVAC 离线对等网络运行环境:采用无需许可的本地对等网络架构,包含负责脑电信号翻译的 BrainWhisperer 底层模块,并向全球开发者开放 QVAC SDK。

  • 脑电信号直接翻译精度:原型系统可将单通道及批处理的皮层内信号实时翻译为文本,词错率低于 2%,绕过受损神经通路为语言障碍患者重建沟通渠道。

  • 完全本地化的抗监测安全架构:系统在架构层面强制本地存储神经数据,不回传至任何中央服务器,且其对等网络后端协议可阻止包括协议开发商在内的任何第三方截获数据流。


(@TechCrunch)



02 有亮点的产品


1、Oasis Devices 发布智能指环 OASIS 1:集成降噪麦克风与光学触控板,主打私密语音输入与无键盘编辑

Oasis Devices 推出首款智能指环 OASIS 1,旨在通过硬件创新实现无键盘的私密语音交互。该设备集成了降噪麦克风与光学触控板,允许用户在不便大声说话的场景下通过轻声低语完成文本输入,并配合指环表面进行高精度文本编辑


  • 双模交互架构:内置降噪麦克风支持低分贝私密语音听写;同时集成电容式触控与光学追踪触控板,无需键盘即可实现精准的文本光标导航与编辑。

  • 16 小时全天候续航:单次充电支持 16 小时连续使用,机身内部配备精密马达,可提供高精度触觉反馈。

  • 多设备与软件生态适配:硬件端原生兼容 iPhone、Mac 和 Vision Pro,软件端深度整合语音效率工具 Wispr Flow,并支持 Spotify、Apple Music 等第三方流媒体应用。

  • 跨设备意图追踪:技术路线图规划了移动端与跨平台的上下文切换功能,旨在实现用户交互意图在不同设备间的无缝传递。


首批产品已在官网开启限量预售,定价 289 美元,预计于 2026 年圣诞节期间发货。


(@oasisdevices@X)



2、Weave 发布家用移动机器人 Isaac 1:配备 21 自由度与可伸缩躯干,支持自主与远程操控协同

机器人初创公司 Weave 推出家用移动机器人 Isaac 1,采用全栈自研执行器与可收缩躯干设计。该机器人旨在自主完成衣物折叠、杂物整理等家务任务,并支持在复杂场景下引入远程操控协同,为家庭环境提供软硬件一体化的自动化服务。


  • 21 自由度全自研硬件架构:系统总计配备 21 个自由度(头部 2、双臂 2×6、双手 2×1、躯干 2、底盘 3),垂直触及范围达 80 英寸(约 2.03 米),水平触及范围达 33 英寸(约 0.84 米),满足家庭环境中绝大多数抓取和放置的高度需求。

  • 可变高度躯干与轮式底盘:机器人高度可在 3 英尺至 5 英尺 9 英寸之间动态调节,工作时可延展至成人高度,闲置时可向下折叠收拢以减少空间占用;底盘采用轮式设计以提供物理被动稳定性。

  • 自主运行与远程操控协同机制:默认状态下自主导航并执行任务,在遇到算法无法解决的边缘场景时,系统支持人工远程操控介入协助,以保证任务最终完成。

  • 8 小时续航与被动安全外壳单次充电支持 8 小时运行(充电时间为 2 小时),机身外部包裹可拆卸和更换的软质织物外壳,用于提供物理缓冲和被动安全防护。


(@weaverobotics@X)



03 有态度的观点

1、扎克伯格:AI 不必然导致大规模失业,关键在「赋能个人」

图片


据报道,Meta CEO 马克·扎克伯格昨日在接受 Complex 频道《Idea Generation》现场访谈时表示,他不认为人工智能必然会导致大规模失业。


扎克伯格在访谈中指出,目前部分领先的 AI 公司一心推动知识工作自动化,结果可能并不理想。他提倡一种平衡状态,即部分公司负责提高企业运营效率,而另一部分公司则致力于发展「个人超级智能」,旨在赋能个人并提升劳动者的生产力。


他认为,如果个人生产力的提升速度快于企业实现自动化的速度,未来的就业岗位理论上应该会增加


目前,Meta 已投入数十亿美元用于人才挖掘和 AI 战略调整。扎克伯格将这一转型过程称为一次「重启」,并透露 Meta 的超级智能实验室成立尚不足一年。尽管 Meta 在生成式 AI 领域已取得显著进展,但扎克伯格表示公司仍有提升空间。


值得注意的是,Meta 的财务文件显示,截至今年 4 月,公司总员工数为 77986 人。然而,Meta 在 5 月份开启了约 10% 的裁员计划,涉及约 8000 个岗位,包括网络安全和内容设计等团队。公司此前表示,裁员是为了提高运营效率,以抵消在 AI 等领域的持续投资。


(@APPSO)



04 社区黑板报



招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)


1、活动推荐|令人心动的 AI 硬件」48H 挑战|DIIS BUILD 4.0 张江特别版  ↓

图片


张江 AI 小镇、高瓴创投 Aseed+联合 D.Transformer,打造 AI 硬件的浪漫 gtm 和创造现场最高 3w 奖金,价值 300w+孵化权益,更有 top fund 投资人、创业者、大企业、供应链、AI 应用商店选品团队,陪你放大信号。


我们在找:


· 100 位硬件 builder:25 组古灵精怪、不同寻常的 toC 硬件产品,新终端/新交互/新形态...可以抽象,不能平庸:)

· 100 位硬件观察员:早期硬件头号玩家来给喜欢的产品送花写情书,也有机会被反选获奖


时间:2026.7.10-7.12

地点:张江人工智能创新小镇 · AI 服务中心


全程免费,欢迎全职创业者&独立开发者,有最大胆硬件创想的 maker 点击推文扫码报名!也欢迎推荐身边最酷&需要这次机会的硬件 builder 来玩~


详情见推文:

「令人心动的 AI 硬件」48H 挑战 张江特别版 | DIIS BUILD 4.0


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Grok 发布原生语音智能体构建平台 Voice Agent Builder丨日报RTRTE_Dev_Comm