Thinking Machines 发布原生多模态实时互动模型丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

直播预告

好奇 Thinking Machines 和 OpenAI 最新实时交互模型的技术细节与落地场景？

5 月 17 日（本周日）上午，我们将邀请多位深耕「边听边说边执行」底层多模态模型的模型专家，与专注「实时对话+推理」的 Agent 开发者，一起聊聊新一代实时交互模型的技术趋势与产品玩法。感兴趣的朋友，欢迎前往【RTE开发者社区】公众号预约直播！

1、Thinking Machines 发布 TML-Interaction-Small：原生多模态实时交互模型，支持 200ms 微回合实时推理

Thinking Machines 发布了 TML-Interaction-Small 研究预览版。该模型弃用了传统的外部脚手架和 VAD 组件，采用原生多模态架构实现连续的音视频与文本交互。这使得 AI 能够摆脱轮询对话模式，在保持 LLM 级智能的同时实现类似人类的实时并发协作。

Time-aligned Micro-turns 架构：模型将输入输出流切分为 200ms 的微回合（Micro-turns）进行交错处理，而非等待完整 token 序列生成。该架构支持实时打断、重叠说话以及无感知的对话管理，无需独立的对话管理模块。

Encoder-free Early Fusion 原生融合：摒弃 Whisper 或大型视觉编码器，音频通过轻量级 dMel 嵌入层处理，图像采用 40x40 patch 配合 hMLP 编码。所有模态（音频、视频、文本）在 Transformer 内部直接融合，并使用 flow head 进行音频解码。
双系统异步协作机制：系统分为交互模型（Interaction Model）与后台模型（Background Model）。前者负责 200ms 级别的即时感知与反馈；当涉及长时推理、复杂工具调用或网页浏览时，任务将委派给后台模型异步处理，结果动态织入实时对话。
SOTA 级交互性能指标：在 FD-bench V1 基准测试中，其对话轮转延迟（Turn-taking latency）仅为 0.40s；在 FD-bench V1.5 交互质量测试中得分 77.8，显著优于 Gemini 和 GPT 的实时版本。

内核级推理优化：通过 Streaming Sessions 技术在 GPU 内存中维护持久序列，避免频繁的内存重分配与元数据计算。针对 MoE 架构采用 gather+gemv 策略优化双向服务效率，确保在频繁 prefill 的小包环境下仍满足严格延迟约束。

Demo演示：

无缝的对话管理：模型可以隐式地追踪说话者是在思考、准备让出话语权、进行自我修正，还是在引导回应。背后无需任何独立的对话管理系统支撑。

言语和视觉打断：模型根据上下文需要随时打断插话，而不仅限于用户说完话时。

时间感知能力： 该模型能直接感知时间的流逝。

同步工具调用、搜索与生成式 UI： 在与用户交谈和倾听的同时，模型可以并发执行搜索、浏览网页或生成 UI 界面，并根据需要将结果自然融入对话之中。

原文地址：

https://thinkingmachines.ai/blog/interaction-models/

( @thinkmachines.blog)

直播预告

好奇 Thinking Machines 和 OpenAI 最新实时交互模型的技术细节与落地场景？

2、OpenBMB 发布开源多模态模型 MiniCPM-V 4.6

OpenBMB 正式发布并开源了 1.3B 参数量的边缘多模态大模型 MiniCPM-V 4.6，模型权重基于 Apache 2.0 协议开放。

官方表示，该模型基于 SigLIP2-400M 与 Qwen3.5-0.8B 构建，采用最新的 LLaVA-UHD v4 架构，将视觉编码计算量降低了 55.8%。

根据官方提供的数据，该模型在多项基准测试中，以极低的 token 消耗超越了 Qwen3.5-0.8B。

该模型专为消费级硬件和移动设备优化，原生支持在 iOS、Android 和 HarmonyOS 平台端侧部署。

https://huggingface.co/openbmb/MiniCPM-V-4.6

https://github.com/OpenBMB/MiniCPM-V-edge-demo

（@橘鸦 Juya）

3、Reactor 上线实时世界模型试玩入口

近日，Reactor 正式上线旗下「实时世界模型」早期预览入口，用户打开网页即可直接体验由 AI 即时生成的可交互 3D 场景。

据悉，该公司由前苹果与 Luma AI 核心成员联合创办，其技术路线的核心是将生成模型部署于自建的全球低延迟云基础设施之上，实现像素、音效与交互反馈的实时生成。

联合创始人兼 CTO Bryce Schmidtchen 在 X 平台发布的演示视频中，一辆红色跑车在异星沙漠中行驶，路面颠簸、远处行星等场景元素均由 AI 实时渲染，并即时响应用户的操控输入。

预览入口：https://www.reactor.inc/

(@_bschmidtchen@X, @APPSO)

02 有亮点的产品

1、Mark Gurman：苹果 Vision Pro 团队已被拆分重组

据报道，苹果已大幅调整封闭式头显项目的战略优先级，原 Vision 产品团队被分拆重组，业务重心全面转向 AR 眼镜与其他 AI 可穿戴设备。

知情人士透露，苹果在一年前已解散原 Vision 产品团队（VPG），将其软硬件人员拆分并入公司更庞大的工程架构中。

目前，原 VPG 负责人 Mike Rockwell 转为统管 Siri 与 visionOS 的联合软件部门，且其本人及核心副手的大部分精力均已倾斜至 Siri 业务的研发。

产品开发方面，苹果暂缓了重大封闭式新头显的推进，代号为 N100 的低成本头显（Vision Air）亦已于去年被取消。

软件层面，Gurman 称即将发布的 visionOS 27 将缺乏重大功能级创新，更新重点仅限于底层性能优化、Bug 修复，以及实现与 iOS 27 等系统在全新 AI 编辑工具和 Siri 升级上的功能对齐。

报道指出，在暂停封闭式头显推进期间，相关硬件团队正集中资源攻坚「带摄像头的 AirPods」及「AI 吊坠」等新型 AI 可穿戴设备。

( @APPSO)

2、EgoScience 发布桌面机器人 Cubie：采用本地+云端双架构，集成多 LLM API 并支持离线交互

EgoScience 推出 AI 原生桌面机器人 Cubie，采用模块化硬件设计与「本地+云端」混合架构。该设备通过集成主流 LLM API 与本地智能体系统，在解决隐私合规问题的同时，实现了复杂语义理解与离线基础交互的平衡。

混合 AI 驱动与 API 集成：底层接入 ChatGPT、Gemini、Grok、Claude 等主流大语言模型，并结合自研本地智能体系统，支持根据对话内容实时匹配肢体动作与表情。
端侧离线交互能力：搭载端侧 AI 芯片，支持在断网状态下独立完成语音指令识别、本地行为响应等基础交互，降低了云端依赖。
隐私敏感型硬件配置：采用原生无摄像头设计，通过触摸传感器、防跌落传感器及麦克风阵列实现感知，规避 AI 硬件常见的视觉隐私泄露风险。
开放接口与开发者生态：开放主流模型接口支持二次开发，允许用户通过配套 APP 自定义机器人的语气、行为逻辑与互动模式，并支持社群共创脚本。
物理性能参数：三段式模块化堆叠结构（91×91×94 mm），配备 2.79 英寸显示屏；内置 800mAh 电池，支持连续运行 3 小时，通过 OTA 实现多语言扩展。

（@新智独角兽）

3、三星发布 Project Luna 概念机器人：搭载视觉追踪旋转屏，探索具身智能交互

三星在米兰设计周推出名为 Project Luna 的概念 AI 机器人。该设备通过集成视觉传感器与多轴机械结构，实现了能够主动追踪并面向用户的「具身化」交互，旨在将 AI 从被动的语音黑盒子转化为具有物理「在场感」的桌面实体。

主动式视觉追踪系统：硬件集成视觉传感器，配合可旋转、可倾斜的精密机械底座。设备能实时感应用户位置，并物理调整屏幕朝向，确保显示界面始终处于用户视线正对面。
非线性的性格交互引擎：内置丰富的表情动画与趣味音效系统，模仿生物特征（类比 Wall-E 设计逻辑），将 AI 交互从单纯的指令响应（Command-Response）转向性格导向的情感反馈。
定制化圆形 UI 交互：针对圆形显示屏开发了特定接口，如模拟黑胶唱片的旋转音乐播放界面，支持封面艺术图的动态物理化呈现。
具身智能（Embodied AI）物理实体化：该项目标志着三星从端侧 AI 算力竞争转向物理交互层面的竞争，利用机械执行器解决 AI 与人类在物理空间内的交互对齐问题。

（@AloT 未来智讯）