小米全模态模型MiMo-V2-Omni,将感知与行动深度绑定;ClawStage开启众筹:让OpenClaw拥有物理肉身丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Soul App 发布开源模型 SoulX-LiveAct:高鲁棒实时交互数字人,双卡低成本流式生成
该示例中,视频由 SoulX-LiveAct 生成,人声由 SoulX-Podcast 生成
近日,Soul App AI 团队(Soul AI Lab)发布开源模型 SoulX-LiveAct。作为新的实时数字人生成方案,SoulX-LiveAct 通过 Neighbor Forcing(同扩散步对齐的自回归条件传播)与 ConvKV Memory(KV 记忆压缩),让 AR diffusion 从「能流式」走向「可真正长时稳定地实时流式」。
SoulX-LiveAct 三大亮点
恒定显存:真正支持无限时长生成
过去的 AR diffusion 往往依赖 KV cache 记忆历史信息,但缓存会随视频长度线性增长——视频一长,不是爆显存,就是不得不丢历史,稳定性随之崩掉。SoulX-LiveAct 从「条件传播方式」和「历史记忆管理」两个层面解决了这一瓶颈,创新机制使系统既能「带得动」长时历史,又不会因缓存膨胀而拖慢推理,从而在机制上具备小时级甚至更长时长的持续生成能力。
实时吞吐:2 张 H100/H200 即可 20 FPS 流式推理
在 512×512 分辨率下,SoulX-LiveAct 仅需 2 张 H100/H200 即可达到 20 FPS 的实时流式推理能力,端到端延迟约 0.94s。同时,单帧计算成本降低到 27.2 TFLOPs / frame,在追求实时的条件下显著减轻算力压力,为线上部署提供更现实的成本方案。
长时一致:身份稳定 + 细节不「掉件」
长视频最容易「翻车」的不是第一分钟,而是第十分钟、第三十分钟:常见现象包括脸漂、发型/衣纹漂移、饰品忽隐忽现,甚至口型逐步失配。在报告的长时对比中,基线方法普遍出现不同程度的身份漂移与细节不稳定;而 SoulX-LiveAct 能在更长时间窗口内保持身份一致性与关键细节持续稳定(如配饰与衣物纹理不「掉件」)。
现阶段,伴随着 AI 技术在数字人直播、视频播客、实时互动等场景快速普及,行业应用层对模型的实际需求正在从「能生成」走向「能长期稳定生成」。而 Soul 此次开源的技术,让数字人视频在流式实时推理下做到小时级甚至无限长度、同时保持身份一致/细节稳定/口型精准,无疑是行业的重大突破。
(@Soul 社交)
2、Xiaomi MiMo-V2-Omni 发布:看得清,听得懂,能动手的全模态 Agent 基座
MiMo-V2-Omni 专为现实世界中复杂的多模态交互与执行场景而生。从底层构建了融合文本、视觉、语音的全模态基座,并以统一架构将「感知」与「行动」深度绑定。这不仅打破了传统模型「重理解、轻执行」的局限,更让模型原生具备了多模态感知、工具调用、函数执行及 GUI 操作能力。MiMo-V2-Omni 可无缝接入各种 Agent 框架,实现了从理解到操控的跨越,大幅降低了全模态 Agent 的落地门槛。
从对比图中不难看出
音频理解方面,支持从环境声分类、多说话人分离、音频-视觉联合推理,到超过 10 小时连续长音频的深度理解。综合表现超越 Gemini 3 Pro,是当前最强的音频理解基座模型之一。
图像理解方面,MiMo-V2-Omni 展现出强大的多学科视觉推理与复杂图表分析能力,超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等顶尖闭源模型水平。
视频理解方面,支持原生音视频联合输入,实现真正的多模态视频理解。通过创新的视频预训练,模型具备强大的情境感知与未来推理能力。
在与真实数字环境交互的评测基准上,MiMo-V2-Omni 表现优异,比肩 Gemini 3 Pro。前沿的感知能力与原生训练的行动能力形成了复合优势:感知越准确,行动越有效。
接下来,小米还将持续推进长周期智能体规划、实时流式感知、多智能体协同,以及与物理世界更深层的整合。
( @Xiaomi MiMo)
3、Xiaomi MiMo-V2-TTS 发布:为 Agent 注入灵魂,从此刻开始发声
Xiaomi MiMo-V2-TTS 是小米自主研发的语音合成大模型。它基于自研 Audio Tokenizer 和多码本语音-文本联合建模架构,经过上亿小时语音数据的大规模预训练与多维度强化学习,实现了高度可控的多粒度语音风格控制。
MiMo-V2-TTS 支持从整体风格定调到局部情绪表达的精准调节,能在同一句话内完成语气转折和情感递变;真实还原人类说话的自然韵律。
打哈欠
这会……(打了个哈欠)呵啊——,这会到底还得开多久啊?啧,(压低声音)我都快听睡着了。那个,那个……咱们等会儿中午吃啥?
面试
紧张,深呼吸)呼……冷静,冷静。不就是一个面试吗……(语速加快,碎碎念)自我介绍已经背了五十遍了,应该没问题的。加油,你可以的……(小声)哎呀,领带歪没歪?
MiMo-V2-TTS 不止于标准语音生成,还具备丰富的多元表达能力:支持多种方言的自然发音,可进行角色扮演式的风格化演绎,更能实现高质量的歌声合成——让同一个模型既能说、能演、也能唱。
孙悟空
师父莫怕!俺老孙刚才翻到那山头看过了,前面树林子里透着股妖气。你们先在这石头上歇着,且容俺去打个头阵,探探什么来路!
在小米的规划中:中英文之外更多语种的覆盖;以及与 MiMo-V2-Omni 多模态理解能力的深度融合——让 Agent 不仅能看懂世界、理解世界,更能以富有表现力的人类声音去讲述这个世界。
正因语音 Agent 时代需要的,不只是听得清的声音,而是有生命力的声音。
( @Xiaomi MiMo)
02 有亮点的产品
1、HooRii 开启 ClawStage 众筹:基于树莓派 5,让 OpenClaw 拥有「物理肉身」与空间感知力
HooRii 正式推出 ClawStage,这是全球首款基于 OpenClaw 架构的具身 AI 终端。它不仅是一个桌面上运行 LLM 的「盒子」,更是一个具备物理坐标系、支持 Thread/Matter 协议的 IoT 枢纽。它解决了 Agent 长期「悬浮」在云端对话框、无法感知并干预真实物理世界的痛点。
从「对话框」到「物理肉身」的具身化:ClawStage 为 AI Agent 提供了坐标系统。通过旋转机构、摄像头与传感器,Agent 能感知用户律动(如进入工位、长时间静止)并产生物理反馈(如主动侧身招呼、变换姿态),实现从「被动指令执行」到「环境主动感知」的交互跨越。
跨终端的 AI Persona 状态流转:依托 HooRii Workshop,用户定义的 AI 角色具备跨端连续性。Agent 状态可在手机、桌面端与 ClawStage 硬件间无缝切换——用户在下班路上通过 App 沟通的任务,回到工位后由 ClawStage 硬件「唤醒」并继续执行物理侧操作。
自然语言驱动的「空间编排器」:内置 ShadowLink 技术,将 LLM 意图直接映射为 Thread/Matter 协议指令。用户无需记忆特定代码,只需口述「我要开始专注」,ClawStage 即可协同调控桌面灯光、调节室温并切换至沉浸模式,实现原子级硬件的自动化编排。
开放且模块化的「Agent PC」架构:针对开发者设计,核心采用 Raspberry Pi 5 模块化方案,支持硬件级的 DIY 升级。兼容 OpenClaw 开源框架,提供标准的传感器/执行器映射层,允许开发者像写 Web 插件一样,为 Agent 编写新的物理交互行为。
当前已在 Kickstarter 开启众筹。预计 2026 年 9 月开始全球交付。
Kickstarter 链接:
https://www.kickstarter.com/projects/hoorii/hoorii-stage-your-proactive-smart-personalized-companion-hub
(@Kickstarter)
2、Meta 旗下核心元宇宙产品将不再支持 Quest VR 头显用户访问
Meta Platforms 表示,其 Meta Quest 头显用户将无法再访问 Horizon Worlds——这是一个虚拟空间,用户可以在其中以卡通形象见面并进行游戏。这标志着该公司进一步缩减曾在 Mark Zuckerberg 战略中占据核心地位的「元宇宙」布局。
Meta 周二表示,自 6 月 15 日起,消费者将不再能够在 Quest 头显上创建、发布或更新虚拟现实世界,也无法通过 Meta Horizon Worlds 进行访问。不过,用户仍可通过 Meta Horizon 应用继续访问这些虚拟世界。
(@元宇宙 News)
3、苹果智能家居硬件负责人离职,加盟智能戒指厂商 Oura
苹果公司负责家庭硬件工程的高级总监布莱恩·林奇(Brian Lynch)即将离开苹果,加入智能戒指公司 Oura,出任硬件工程高级副总裁一职。过去几年里,Oura 已多次从苹果挖走人才,而林奇的离任被形容为在苹果正筹备推出多款新家居设备之际,为其智能家居产品团队带来了新的动荡。
苹果正在开发一款智能家居中枢设备,不过由于 Siri 相关技术开发进展不及预期,该产品的发布日期一再推迟,目前计划推迟至 2026 年 9 月发布。此外,苹果还在研发家用安防及自动化传感器,以及计划于 2027 年推出功能更为先进的桌面家用机器人。在可穿戴和新形态设备方面,苹果也有包括智能眼镜、可穿戴式 AI 吊坠或胸针,以及配备摄像头的 AirPods 等产品规划。
林奇在苹果供职逾 20 年,在接手智能家居硬件之前,曾参与苹果现已叫停的造车项目。在组织架构上,他向同时负责音频工程与 Beats 设备的马特·科斯特洛(Matt Costello)汇报工作,而科斯特洛则直接向苹果硬件工程负责人约翰·特努斯(John Ternus)汇报。
(@极客公园)
03 有态度的观点
1、黄仁勋:Token 将成为企业预算标配,智能体时代算力消耗将爆发式增长
英伟达 CEO 黄仁勋在日前的 GTC 大会上反复提及一个概念:Token。
黄仁勋将未来的计算机定义为「生产 Token 的制造设备」,并预言 Token 将像笔记本电脑或软件订阅一样,成为企业预算中的固定支出项。
他表示,工程师未来可能会获得「Token 预算」以提升生产力,并在主题演讲中抛出了一个颇具话题性的设想——为英伟达工程师提供价值相当于其年薪一半的 Token 作为额外激励,以此吸引人才。
在谈及投入产出时,黄仁勋表示这笔费用完全值得,尤其是对于薪酬较高、借助 AI 智能体能够带来显著生产力提升的工程师而言。
如果每天额外投入 100 美元的推理成本——也就是 Token 成本,我会非常乐意......就算在冲刺阶段每天投入 1000 美元,也完全没问题他同时补充,更强大、更节能的英伟达硬件将持续降低 Token 的生成成本。
黄仁勋还指出,AI 智能体的兴起将大幅推高 Token 消耗量。由于智能体可以在无人监督的情况下自主运行,未来计算机将全天候不间断地运转。
现在我们的笔记本电脑大多处于闲置状态,但未来计算机将 7×24 小时运行、持续生成 Token,因为你的智能体一直在处理任务。
(@APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、声网招聘开发者体验专家
岗位职责:
负责声网控制台、云市场、开发者中心等核心开发者触点的开发与优化,提升全球开发者的使用体验。
深入了解开发流程和痛点,持续优化开发者体验(DevX),确保产品更易选用、使用和推荐。
与全球和本地的产品、设计、社区及开发者关系团队紧密协作,推动开发者体验和技术改进。
实践 AI 辅助开发(如 Cursor、Claude Code、GPT 等),提升开发效率和工程质量。
参与构建与优化 AI Agent、开发者工具和示例应用,确保开发者在初次使用时获得正向体验。
跟踪开发者社区反馈与行为数据,提出系统性优化建议,推动产品迭代。
岗位要求:
精通前端技术,熟悉 JavaScript/TypeScript、Vue/React 等框架,具备良好的代码质量意识。
具备一定的全栈能力,熟悉 Node.js/Go 等后端技术,有实际项目经验。
熟悉 AI 产品与 AI 编程工作流,能高效利用 AI 辅助设计、编码与调试。
强烈的开发者同理心,关注 API 清晰性与开发者初次成功体验。
能熟练使用 Figma、Sketch 等设计工具进行协作,具备极客精神、产品敏感度和全球设计审美,追求「好用、爱用」的产品体验。
良好的沟通与协作能力,能与跨职能团队高效配合,提升整体体验。
加分项:
具有 AI Agent、Conversational AI、开发者工具等相关经验。
参与开源项目、技术博客、Demo 或 GitHub 活跃记录,展现技术热情。
有开发者技术内容创作或 DevRel 经验。
投递方式:
有意者请将简历投递至:

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考