小米全模态模型MiMo-V2-Omni，将感知与行动深度绑定；ClawStage开启众筹：让OpenClaw拥有物理肉身丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Soul App 发布开源模型 SoulX-LiveAct：高鲁棒实时交互数字人，双卡低成本流式生成

该示例中，视频由 SoulX-LiveAct 生成，人声由 SoulX-Podcast 生成

近日，Soul App AI 团队（Soul AI Lab）发布开源模型 SoulX-LiveAct。作为新的实时数字人生成方案，SoulX-LiveAct 通过 Neighbor Forcing（同扩散步对齐的自回归条件传播）与 ConvKV Memory（KV 记忆压缩），让 AR diffusion 从「能流式」走向「可真正长时稳定地实时流式」。

SoulX-LiveAct 三大亮点

恒定显存：真正支持无限时长生成

过去的 AR diffusion 往往依赖 KV cache 记忆历史信息，但缓存会随视频长度线性增长——视频一长，不是爆显存，就是不得不丢历史，稳定性随之崩掉。SoulX-LiveAct 从「条件传播方式」和「历史记忆管理」两个层面解决了这一瓶颈，创新机制使系统既能「带得动」长时历史，又不会因缓存膨胀而拖慢推理，从而在机制上具备小时级甚至更长时长的持续生成能力。

实时吞吐：2 张 H100/H200 即可 20 FPS 流式推理

在 512×512 分辨率下，SoulX-LiveAct 仅需 2 张 H100/H200 即可达到 20 FPS 的实时流式推理能力，端到端延迟约 0.94s。同时，单帧计算成本降低到 27.2 TFLOPs / frame，在追求实时的条件下显著减轻算力压力，为线上部署提供更现实的成本方案。

长时一致：身份稳定 + 细节不「掉件」

长视频最容易「翻车」的不是第一分钟，而是第十分钟、第三十分钟：常见现象包括脸漂、发型/衣纹漂移、饰品忽隐忽现，甚至口型逐步失配。在报告的长时对比中，基线方法普遍出现不同程度的身份漂移与细节不稳定；而 SoulX-LiveAct 能在更长时间窗口内保持身份一致性与关键细节持续稳定（如配饰与衣物纹理不「掉件」）。

现阶段，伴随着 AI 技术在数字人直播、视频播客、实时互动等场景快速普及，行业应用层对模型的实际需求正在从「能生成」走向「能长期稳定生成」。而 Soul 此次开源的技术，让数字人视频在流式实时推理下做到小时级甚至无限长度、同时保持身份一致/细节稳定/口型精准，无疑是行业的重大突破。

（@Soul 社交）

2、Xiaomi MiMo-V2-Omni 发布：看得清，听得懂，能动手的全模态 Agent 基座

MiMo-V2-Omni 专为现实世界中复杂的多模态交互与执行场景而生。从底层构建了融合文本、视觉、语音的全模态基座，并以统一架构将「感知」与「行动」深度绑定。这不仅打破了传统模型「重理解、轻执行」的局限，更让模型原生具备了多模态感知、工具调用、函数执行及 GUI 操作能力。MiMo-V2-Omni 可无缝接入各种 Agent 框架，实现了从理解到操控的跨越，大幅降低了全模态 Agent 的落地门槛。

从对比图中不难看出

音频理解方面，支持从环境声分类、多说话人分离、音频-视觉联合推理，到超过 10 小时连续长音频的深度理解。综合表现超越 Gemini 3 Pro，是当前最强的音频理解基座模型之一。
图像理解方面，MiMo-V2-Omni 展现出强大的多学科视觉推理与复杂图表分析能力，超越 Claude Opus 4.6，逼近 Gemini 3 Pro 等顶尖闭源模型水平。
视频理解方面，支持原生音视频联合输入，实现真正的多模态视频理解。通过创新的视频预训练，模型具备强大的情境感知与未来推理能力。

在与真实数字环境交互的评测基准上，MiMo-V2-Omni 表现优异，比肩 Gemini 3 Pro。前沿的感知能力与原生训练的行动能力形成了复合优势：感知越准确，行动越有效。

接下来，小米还将持续推进长周期智能体规划、实时流式感知、多智能体协同，以及与物理世界更深层的整合。

( @Xiaomi MiMo)

3、Xiaomi MiMo-V2-TTS 发布：为 Agent 注入灵魂，从此刻开始发声

Xiaomi MiMo-V2-TTS 是小米自主研发的语音合成大模型。它基于自研 Audio Tokenizer 和多码本语音-文本联合建模架构，经过上亿小时语音数据的大规模预训练与多维度强化学习，实现了高度可控的多粒度语音风格控制。

MiMo-V2-TTS 支持从整体风格定调到局部情绪表达的精准调节，能在同一句话内完成语气转折和情感递变；真实还原人类说话的自然韵律。

打哈欠

这会……（打了个哈欠）呵啊——，这会到底还得开多久啊？啧，（压低声音）我都快听睡着了。那个，那个……咱们等会儿中午吃啥？

面试

紧张，深呼吸）呼……冷静，冷静。不就是一个面试吗……（语速加快，碎碎念）自我介绍已经背了五十遍了，应该没问题的。加油，你可以的……（小声）哎呀，领带歪没歪？

MiMo-V2-TTS 不止于标准语音生成，还具备丰富的多元表达能力：支持多种方言的自然发音，可进行角色扮演式的风格化演绎，更能实现高质量的歌声合成——让同一个模型既能说、能演、也能唱。

孙悟空

师父莫怕！俺老孙刚才翻到那山头看过了，前面树林子里透着股妖气。你们先在这石头上歇着，且容俺去打个头阵，探探什么来路！

在小米的规划中：中英文之外更多语种的覆盖；以及与 MiMo-V2-Omni 多模态理解能力的深度融合——让 Agent 不仅能看懂世界、理解世界，更能以富有表现力的人类声音去讲述这个世界。

正因语音 Agent 时代需要的，不只是听得清的声音，而是有生命力的声音。

( @Xiaomi MiMo)

02 有亮点的产品

1、HooRii 开启 ClawStage 众筹：基于树莓派 5，让 OpenClaw 拥有「物理肉身」与空间感知力

HooRii 正式推出 ClawStage，这是全球首款基于 OpenClaw 架构的具身 AI 终端。它不仅是一个桌面上运行 LLM 的「盒子」，更是一个具备物理坐标系、支持 Thread/Matter 协议的 IoT 枢纽。它解决了 Agent 长期「悬浮」在云端对话框、无法感知并干预真实物理世界的痛点。

从「对话框」到「物理肉身」的具身化：ClawStage 为 AI Agent 提供了坐标系统。通过旋转机构、摄像头与传感器，Agent 能感知用户律动（如进入工位、长时间静止）并产生物理反馈（如主动侧身招呼、变换姿态），实现从「被动指令执行」到「环境主动感知」的交互跨越。
跨终端的 AI Persona 状态流转：依托 HooRii Workshop，用户定义的 AI 角色具备跨端连续性。Agent 状态可在手机、桌面端与 ClawStage 硬件间无缝切换——用户在下班路上通过 App 沟通的任务，回到工位后由 ClawStage 硬件「唤醒」并继续执行物理侧操作。
自然语言驱动的「空间编排器」：内置 ShadowLink 技术，将 LLM 意图直接映射为 Thread/Matter 协议指令。用户无需记忆特定代码，只需口述「我要开始专注」，ClawStage 即可协同调控桌面灯光、调节室温并切换至沉浸模式，实现原子级硬件的自动化编排。
开放且模块化的「Agent PC」架构：针对开发者设计，核心采用 Raspberry Pi 5 模块化方案，支持硬件级的 DIY 升级。兼容 OpenClaw 开源框架，提供标准的传感器/执行器映射层，允许开发者像写 Web 插件一样，为 Agent 编写新的物理交互行为。

当前已在 Kickstarter 开启众筹。预计 2026 年 9 月开始全球交付。

Kickstarter 链接：

https://www.kickstarter.com/projects/hoorii/hoorii-stage-your-proactive-smart-personalized-companion-hub

（@Kickstarter）

2、Meta 旗下核心元宇宙产品将不再支持 Quest VR 头显用户访问

Meta Platforms 表示，其 Meta Quest 头显用户将无法再访问 Horizon Worlds——这是一个虚拟空间，用户可以在其中以卡通形象见面并进行游戏。这标志着该公司进一步缩减曾在 Mark Zuckerberg 战略中占据核心地位的「元宇宙」布局。

Meta 周二表示，自 6 月 15 日起，消费者将不再能够在 Quest 头显上创建、发布或更新虚拟现实世界，也无法通过 Meta Horizon Worlds 进行访问。不过，用户仍可通过 Meta Horizon 应用继续访问这些虚拟世界。

（@元宇宙 News）

3、苹果智能家居硬件负责人离职，加盟智能戒指厂商 Oura

苹果公司负责家庭硬件工程的高级总监布莱恩·林奇（Brian Lynch）即将离开苹果，加入智能戒指公司 Oura，出任硬件工程高级副总裁一职。过去几年里，Oura 已多次从苹果挖走人才，而林奇的离任被形容为在苹果正筹备推出多款新家居设备之际，为其智能家居产品团队带来了新的动荡。

苹果正在开发一款智能家居中枢设备，不过由于 Siri 相关技术开发进展不及预期，该产品的发布日期一再推迟，目前计划推迟至 2026 年 9 月发布。此外，苹果还在研发家用安防及自动化传感器，以及计划于 2027 年推出功能更为先进的桌面家用机器人。在可穿戴和新形态设备方面，苹果也有包括智能眼镜、可穿戴式 AI 吊坠或胸针，以及配备摄像头的 AirPods 等产品规划。

林奇在苹果供职逾 20 年，在接手智能家居硬件之前，曾参与苹果现已叫停的造车项目。在组织架构上，他向同时负责音频工程与 Beats 设备的马特·科斯特洛（Matt Costello）汇报工作，而科斯特洛则直接向苹果硬件工程负责人约翰·特努斯（John Ternus）汇报。

（@极客公园）

03 有态度的观点

1、黄仁勋：Token 将成为企业预算标配，智能体时代算力消耗将爆发式增长

英伟达 CEO 黄仁勋在日前的 GTC 大会上反复提及一个概念：Token。

黄仁勋将未来的计算机定义为「生产 Token 的制造设备」，并预言 Token 将像笔记本电脑或软件订阅一样，成为企业预算中的固定支出项。

他表示，工程师未来可能会获得「Token 预算」以提升生产力，并在主题演讲中抛出了一个颇具话题性的设想——为英伟达工程师提供价值相当于其年薪一半的 Token 作为额外激励，以此吸引人才。

在谈及投入产出时，黄仁勋表示这笔费用完全值得，尤其是对于薪酬较高、借助 AI 智能体能够带来显著生产力提升的工程师而言。

如果每天额外投入 100 美元的推理成本——也就是 Token 成本，我会非常乐意......就算在冲刺阶段每天投入 1000 美元，也完全没问题他同时补充，更强大、更节能的英伟达硬件将持续降低 Token 的生成成本。

黄仁勋还指出，AI 智能体的兴起将大幅推高 Token 消耗量。由于智能体可以在无人监督的情况下自主运行，未来计算机将全天候不间断地运转。

现在我们的笔记本电脑大多处于闲置状态，但未来计算机将 7×24 小时运行、持续生成 Token，因为你的智能体一直在处理任务。

(@APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、声网招聘开发者体验专家

岗位职责：

负责声网控制台、云市场、开发者中心等核心开发者触点的开发与优化，提升全球开发者的使用体验。
深入了解开发流程和痛点，持续优化开发者体验（DevX），确保产品更易选用、使用和推荐。
与全球和本地的产品、设计、社区及开发者关系团队紧密协作，推动开发者体验和技术改进。
实践 AI 辅助开发（如 Cursor、Claude Code、GPT 等），提升开发效率和工程质量。
参与构建与优化 AI Agent、开发者工具和示例应用，确保开发者在初次使用时获得正向体验。
跟踪开发者社区反馈与行为数据，提出系统性优化建议，推动产品迭代。

岗位要求：

精通前端技术，熟悉 JavaScript/TypeScript、Vue/React 等框架，具备良好的代码质量意识。
具备一定的全栈能力，熟悉 Node.js/Go 等后端技术，有实际项目经验。
熟悉 AI 产品与 AI 编程工作流，能高效利用 AI 辅助设计、编码与调试。
强烈的开发者同理心，关注 API 清晰性与开发者初次成功体验。
能熟练使用 Figma、Sketch 等设计工具进行协作，具备极客精神、产品敏感度和全球设计审美，追求「好用、爱用」的产品体验。
良好的沟通与协作能力，能与跨职能团队高效配合，提升整体体验。

加分项：

具有 AI Agent、Conversational AI、开发者工具等相关经验。
参与开源项目、技术博客、Demo 或 GitHub 活跃记录，展现技术热情。
有开发者技术内容创作或 DevRel 经验。

投递方式：

有意者请将简历投递至：

zhangqianze@shengwang.cn

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考