Hugging Face 发布 Reachy Mini 机器人智能体工具包,支持自然语言开发丨日报

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。



本期编辑:@koki、@鲍勃


01 有话题的技术

1、豆包大模型家族首款全模态理解模型:字节跳动 Doubao-Seed-2.0-lite 升级

图片


5 月 6 日,Doubao-Seed-2.0-lite 升级新版本,这是豆包大模型家族首款全模态理解模型,支持视频、图像、音频、文本原生统一理解,Agent、Coding 与 GUI 能力同步升级。在同等算力成本下,是企业大规模、批量化部署全模态推理任务的更优性价比选择


新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升,在物理(HiPhO)、医疗(MedXpertQA)等高阶学科推理上,表现大幅超越 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知(BabyVision、WorldVQA)与具身理解(ERQA)等关键领域达到 SOTA 水平,更适合企业在高价值场景规模化部署。


融入语音理解后,新版本的 Doubao-Seed-2.0-lite 可同时理解多种输入模态,并完成跨模态联合推理直接处理必须「音画结合」才能判断的复杂业务需求。


(@极客公园)



2、Krisp 发布 VIVA 2.0 语音智能体 SDK:集成音频中断识别与 200ms 对话轮次预测



语音 AI 基础设施提供商 Krisp 发布 VIVA 2.0,一套专为生产环境Voice Agent设计的服务器端 SDK。该版本通过预测式模型取代传统的静音检测机制,解决了复杂环境下的高字错率(WER)和交互延迟问题,直接提升智能体在真实通话中的转向准确度


  • Interruption Prediction v1(中断识别):行业首个纯音频中断识别模型,无需转录即可实时区分「mhm/okay」等反馈音(Backchanneling)与实质性中断指令。模型反应延迟低于 1 秒,针对咳嗽、喷嚏等非语音噪声的误触发率低于 5%,虚假中断率(False Positives)低于 6%。

  • Turn Prediction v3(对话轮次预测):基于语调、节奏和句子波形而非静音时长预测发言结束。相比 v2 版本,在 200ms 内捕获真实转向的准确率提升 47%;支持中、英、日、法、德等主流语言,模型体积仅 30MB。

  • Voice Isolation v3(语音隔离):重构底层推理引擎,专门清除背景人声、房间回声及编解码伪影。算法延迟控制在 15ms,旨在将高噪声环境下的 STT 字错率(WER)从 15%–30% 降低至 5% 左右

  • 实时信号探测器(Signal Detectors):新增一组轻量化 CPU 模型,支持实时检测 TTS 合成语音、说话人性别及口音,为下游 LLM 提供多维度的元数据支持。

  • 边缘与服务器端部署:SDK 完全基于 CPU 运行,无需 GPU 算力支持。


(@krisp.ai blog)



3、Hugging Face 发布 Reachy Mini 机器人智能体工具包:支持自然语言端到端开发,装机量突破 10,000 台

图片


Hugging Face 推出针对 Reachy Mini 开源桌面机器人的「智能体工具包」(Agentic Toolkit),允许用户通过自然语言描述行为需求,由 AI 智能体自主完成代码编写、测试、部署及迭代。此举旨在消除机器人开发的 SDK 门槛,通过 Hugging Face Hub 构建开源机器人应用生态。


  • 端到端智能体工作流:AI 智能体可直接调取托管在 GitHub 的源码与在线文档,实现从自然语言指令到代码生成、模拟测试再到实机部署的自动化闭环,无需开发者掌握特定机器人 SDK。

  • 开源应用仓库(App Store):所有应用均以开源 Repo 形式托管于 Hugging Face Hub,支持一键安装、Fork 及二次开发;目前已有 150 多名开发者贡献了包括语音助理、语言教师、国际象棋对弈等 200+ 款应用。

  • 硬件渗透规模:Reachy Mini 全球实际安装量已接近 10,000 台,近期新增交付 3,000 台,并计划在未来 30 天内再出货 1,000 台。

  • 全栈开源协议:涵盖硬件结构、底层驱动及上层应用逻辑,允许社区成员对现有 200 多款应用进行二次开发与审计。


https://huggingface.co/blog/clem/reachymini-appstore


(@ClementDelangue@X)



4、小米TS-ASR 大模型引入 CoT 推理与 GRPO 强化学习,车外混音识别错误率降至 4.84%


小米 MiLM Plus 团队推出了基于 LLM 范式的目标说话人识别(TS-ASR)大模型,并应用于新一代 SU7 车外语音系统。该技术通过声纹特征与大模型推理能力的融合,解决了「鸡尾酒会」效应下的多声源干扰问题,实现了复杂移动环境下对目标用户指令的精准提取。


  • 基于 LLM 范式的混合架构:采用预训练 Data2Vec2 作为语音编码器(SpeechEncoder),通过线性 Adapter 将语音特征投影至轻量化 LLM 空间,无需额外说话人编码模块即可同时捕捉语义与说话人特征。

  • 语音思维链(CoT)推理机制:模型在输出转录文本前增加推理环节,结构化分析音频中说话人数量、性别、时间段及声纹相似度(1-5 离散等级)。实验数据表明,CoT 使双人混音错误率从 7.4% 降至 5.29%

  • GRPO 强化学习算法优化:引入 GRPO 算法针对模型预测错误的难样本进行迭代,通过「识别准确率」与「格式规范」双重奖励信号,将混音场景下的识别错误率进一步压低至 4.84%。

  • TS-Tracking 动态追踪:配套移动拾音功能,支持在用户移动过程中实时追踪声源位置并进行动态转录,单人场景下的识别错误率从 8.1% 降至 3.65%。


(@小米技术)



02 有亮点的产品



1、喵吉托发布 Meowart:从 AI 原生游戏转向开发者工具链,实现首笔持续性收入

图片


原字节跳动 AI 小镇负责人李驰创办的喵吉托(Meowjito)在尝试多款 AI 原生游戏后,正式将重心转向 AI 开发工具领域。其推出的像素生成工具 Meowart 通过解决 AI 生图在像素层面的精度问题,实现了工作室的首笔持续性收入,标志着 AI 游戏赛道从「玩法驱动」向「管线驱动」的技术沉淀。


  • 实现「完美像素」 (Perfect Pixel) 生成:Meowart 解决了扩散模型在生成低分辨率素材时边缘模糊、像素点不规范的痛点,可直接产出生产环境可用的像素素材及小型像素动画,大幅降低了独立游戏的资产生产成本。

  • AI 逻辑与数值平衡的冲突规避:团队在复盘《言灵计划》等项目时发现,LLM 的黑盒属性与传统游戏(如肉鸽、数值导向游戏)的透明规则存在天然冲突,AI 介入会导致数值体系崩坏,因此开发重心已从底层逻辑 AI 化转向辅助工具化。

  • 交互成本与留存瓶颈优化:针对自然语言交互带来的高认知负载问题,团队将 AI 原生游戏的探索收缩至陪伴向(AVG)及 Agent 小镇方向,利用 LLM 的叙事优势而非对抗交互。

  • 全流程工具链规划:Meowart 计划进一步整合代码生成、策划方案生成、音乐音效及 VFX 特效能力,旨在构建一套基于 Agent 的「私人助理式」开发管线。


(@竞核)



2、千问发布电脑版 AI 语音输入法:双模快捷键交互,集成场景感知与多模态 Agent

图片


图片


通义千问推出电脑端(Win/Mac)及网页版语音输入法,通过全局快捷键实现「智能转写」与「指令调度」双模操作。该产品深度集成了 PPT、Excel 及文档处理 Agent,支持跨应用场景感知,旨在将口述自然语言直接转化为专业办公产出。


  • 双模式快捷键交互逻辑:支持自定义全局唤起(如 Win: Right Alt / Mac: Right Command),长按执行智能转写(自动过滤语气词、纠正口误、重构结构化表达);双击触发语音指令,直接调用 AI 执行查询、回复消息或生成文档。

  • 跨应用场景感知(Context-Awareness):系统可自动识别当前活跃窗口的应用类型(如钉钉、微信、浏览器)及屏幕显示内容,据此调整输出风格或根据当前上下文(如聊天记录、会议内容)提供精准回复建议。

  • 原生 Agent 协同体系:内置 PPT Agent(基于代码生成动态排版而非传统模板)、Excel Agent(支持截图转表格、自然语言生成函数公式)以及 Word/PDF Agent(支持最多 39 种格式文件并发处理、图文数据提炼)。

  • 专业领域识别优化:针对技术办公场景,强化了中英混输及专业术语(如函数名、Token、逻辑分支等)的识别精度,并能根据口述指令(如「把数据段落提前」)实现文本的自动重排


(@APPSO)



03 有态度的观点



1、郭明錤:OpenAI 首款 AI 手机提速,联发科定制芯片有望明年上半年量产

图片


昨天,天风国际证券分析师郭明錤更新了对 OpenAI 首款 AI 手机的预测,称该设备的量产时间表已大幅提前,预计最早将于明年上半年进入量产阶段


在芯片供应商方面,联发科目前已成为最有力的候选方,高通此前也曾被列为考虑对象。郭明錤透露,OpenAI 手机将搭载联发科定制版芯片,基于天玑 9600 改款,采用台积电下一代 N2P 制程,预计于今年下半年正式亮相。


在芯片设计上,该定制芯片将以 AI 能力为核心,而非单纯追求性能跑分。其中,ISP(图像信号处理器)被列为「主打卖点」,增强 HDR 处理管线,提升设备对周围环境的视觉理解能力,以契合 AI 手机持续感知与分析现实世界的使用场景。

此外,芯片还配备双 NPU 架构,用于处理不同类型的 AI 任务,并支持 LPDDR6 内存与 UFS 5.0 存储。郭明錤预计,若项目进展顺利,该设备明年与 2028 年的合计出货量有望达到约 3000 万部。


(@APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    // 相关帖子
    Coming soon...
    • 0
    Hugging Face 发布 Reachy Mini 机器人智能体工具包,支持自然语言开发丨日报RTRTE_Dev_Comm