从「跨模态思维链」到「物理 AI 数据闭环」:下一代多模态技术和落地丨多模态技术专场@RTE2025 回顾


在本届 RTE2025 大会上,来自产业界和学术界的多位专家深入探讨了从 AI 视频生成到可实时交互的世界模型,从被动响应到主动感知与交互,再到下一代多模态大模型的设计与构建——由商汤科技和 RTE 开发者社区联合出品的「多模态技术专场」将展望一个由实时多模态 AI 驱动的未来。

商汤科技执行商务总监李星冶、RTE 开发者社区联合主理人和 OpenQ 联合创始人林旅强、商汤科技多模态交互产品负责人路少卿、加拿大滑铁卢大学访问学者冯睿蠡、阶跃星辰语音和 AIGC 算法负责人俞刚、和众科技 HooRii Technology Co-Founder&CTO 刘一聪、灵宇宙创始人顾嘉唯、Agora 的 Principal Product Manager Monica Chen、拽米科技(DraMa.i)创始人何竞飞以及 Memories.ai 算法负责人 Jerrick 分享了他们在各自领域的实践经验和独到见解。


商汤科技执行商务总监李星冶和 RTE 开发者社区的联合主理人,OpenQ 联合创始人林旅强分别主持了活动主题分享和圆桌讨论环节。



路少卿:从文本推理到多模态交互:为什么是必经之路?


商汤科技多模态交互产品负责人路少卿发现,即使是市面上最新的模型,在处理涉及视觉理解、空间认知和复杂图文推理的任务时,也表现出明显的缺失。并提出了商汤未来必须攻克的方向——从文本推理到原生融合的统一多模态大模型。目前的多模态模型依然停留在 VLP(视觉语言预训练)+LLM 的 Merge 阶段(即 VQA 任务),缺乏真正原生融合后产生的跨模态思维链推理能力。

商汤的核心路径是追求统一深度的多模态大模型,目标是实现理解与生成融合统一,并激活类人的多模态思维链能力。针对图文交错的推理难题,商汤构建了专门的数据生产管线和强化学习后训练机制,用于提升模型在需要多次图像局部信息确认和推理的任务上的能力。同时,商汤重构了 DiT 网络,实现了单人人像视频的生成和语音驱动。通过引入音频驱动的 Attention 模块,成功整合了人像生成、实时驱动和多模态实时交互的完整能力。商汤还在文本对话中掺杂了图片域训练,使端到端融合模型能够实现文本域推理,并结合对话历史中的图片域推理和交互,大幅提升了上下文记忆能力。

路少卿也提到了业界的最新突破,如 OpenAI GPT-4o 实现了复杂的 Prompt 与图像生成的完全对齐,以及 Google Nano-banana 在跨多角色 ID 保持上的突破,都是「理解与生成融合统一」的最新信号。模型正从传统的被动接受指令转向具备环境感知、主动推理和主动规划的能力。他以一个案例演示:模型感知到用户「有点渴」,能识别到环境中的饮品和食物,主动发起交互反馈。他认为,技术发展很快,但远未到收敛状态,未来将聚焦于图文交错推理数据、视频理解和 Agentic RL(强化学习)等六个方向,最终实现统一的多模态表征的理解和生成的统一。

「未来,AI 将从单纯的问答机器转向自主规划、主动服务的方向发展。」

 路少卿 

商汤科技多模态交互产品负责人


冯睿蠡:Neural Interactive Simulation as World Foundation Models

加拿大滑铁卢大学访问学者冯睿蠡认为,通往更强智能的关键在于一个「Playground」,一个低成本、实时交互的世界模型(World Foundation Model)。他以「黑客帝国」为代号,展示了如何让 AI 能在虚拟世界中不断「玩耍」和学习。当 GPT 看到一张脏桌子并制定了「把书拿走」的 Plan 后,它并不知道书底下可能还藏着油污和划痕。他指出,目前 AI 缺失的正是「在环境中检验 Policy 的能力」

人类智能是一个迭代过程,我们需要和世界交互,环境给出反馈,我们再基于反馈做 Reason 和 Plan——这是「实践检验真理」的过程。此外,他观察到当前 AI 模型调用存在「倒挂现象」:视觉交互对人类至关重要(90% 信息是视觉信号),但 AI 模型的调用量却是文本模态远高于视觉模态。为了填补这个空白,必须给模型搭建一个「Playground」。

冯睿蠡从生物学中找到了灵感:动物为什么需要 Play(玩耍)? 乌鸦在雪地里打滚、蜜蜂搬运圆形物体,这些看似与生存无直接利益的行为,实际上提供了一种「Simulation」(模拟),让生物在安全、廉价、可重复的环境下练习技能。基于此,他提出了理想交互模拟器的四个标准:实时反馈、足够廉价和快速、支持测试不同选择、能够覆盖对应场景。

他的「The Matrix」项目实现了四个主要目标:实时交互、立即的视觉反馈、极长的存在时间(最长测试了 10 小时交互性能不衰减),以及强大的泛化能力。模型现在能生成 15 分钟以上的长视频,且画面质量无显著衰减。它能响应用户对 Prompt 的切换(如将驾驶场景从沙漠切换到水面),并保持对键盘输入(前后左右运动)的准确响应。模型通过采用混合数据策略(游戏引擎数据与真实世界运动数据混合),模型获得了强大的泛化能力。即使训练数据中只包含白色的车,它也能生成其他颜色的车;即使训练数据中不存在,它也能让车在办公室或深水里运动

这些成果意味着,AI 已经拥有了一个安全、廉价、高性能的神经交互模拟器来不断磨炼自己的认知和决策能力,最终可以被用于 Vtuber、电商直播或机器人控制等场景。

「只有成本降到每个人都能承受的程度,交互式世界模型才能被大规模用于推理场景,成为通往更强智能的基石。」

 冯睿蠡 

加拿大滑铁卢大学访问学者


俞刚:大模型时代下的多模态生成和理解

阶跃星辰语音和 AIGC 算法负责人俞刚提到,过去两年大模型的参数量从 T 级狂飙到万亿级,训练数据量也像坐上了火箭,连开源和闭源模型的差距都在肉眼可见地缩小。这让他意识到,文本智能这座高山已经快被征服了。下一个战场自然是声音。语音和文本是天生的好搭档。他们的目标很明确:做一款能把所有信息都吃进去的「大胃王」

他们推出了 Step-Audio2,一款百亿级的模型,特点是采用了连续信号输入(能保留语音中的情感和声学信号)和离散 tokenizer 输出(兼顾训练效率)。为了让这个模型「智力」和「听力」双高,他们设计了一个多达四个阶段的预训练流程,再用 SFT(指令微调)和 PPO+GRPO 的强化学习技术进行「对齐训练」。他们也同步开源了小尺寸的 7B 模型,让创业者和开发者能以更低的门槛把语音 AI 搬上自家业务。

俞刚直言,目前的 AI 世界出现了两个「流派」:

1.理解派: 侧重「思考」,如阿里的千问 Omni 系列,它能接收各种模态的输入,但通常只能输出文本或音频

2.生成派: 侧重「创造」,比如 Veo3 或 Sora2,它们能生成炫酷的视觉内容,但「脑子」相对简单,缺乏复杂的理解和推理能力。

为什么不能把这两种能力「深度融合」在一个模型里,做一个真正的 Any2Any 全能模型?俞刚坦诚,最大的绊脚石是 Tokenizer。目前的大模型主要依赖离散的 Tokenizer,但面对图像和视频这些二维、三维的复杂信号时,信息损失非常严重。而生成派的 Diffusion 模型则采用连续信号,信息量更大,更擅长处理全局视觉信息。

为了解决这个「硬伤」,他们通过将 AI 模型作为「思考者」和信息提取器,再把生成工作交给 Diffusion 模型。这个组合最大的价值在于让 AI 有了「反思」和「自我纠正」的能力。比如,在图片编辑时,如果第一次生成结果遗漏了猫的影子或人物的残肢,理解模型能立刻发现并进行下一轮修正,从而让成品更加完美。

俞刚总结,未来 AI 的上限仍有赖于 World Model、交互和记忆的突破,甚至需要探索自主学习的新范式,才能实现真正的飞跃。


「当模型已经充分利用现有数据,如何进一步提升模型性能?自主学习是潜在的突破方向之一。」

 俞刚 

阶跃星辰语音和 AIGC 算法负责人


刘一聪:个人化的 HomeAI——为归属而生


和众科技 HooRii Technology Co-Founder & CTO 刘一聪看来,HomeAI 的终极形态绝不应该是一个冰冷的工具,而是一位有温度的家人

他提出的「信息论困境」点明:AI 的进化迫切需要来自物理世界的第一手原始数据,来构建「世界模型」。然而,用户对家里的 AI 兴趣寥寥,不愿高频交互,因为他们得到的是一个工具,而不是一个灵魂伴侣。这种「工具范式」导致了三个致命缺陷:空间断连、情境失忆、关系缺失。AI 记不住你何时何地做了什么,更无法主动关心你。

起因就是这个「工具循环」:体验不够好 → 没有高频交互 → 无法获取一手数据 → AI 无法进化。为了打破这一循环,HooRii 的解决方案是实现范式转移,从「工具」转向「关系」。他们推出的核心平台 HooRii Stage,被定位为连接数字智能与物理世界的关键基础设施。

那么,HooRii 是如何通过精妙的智能架构来实现「赛博家人」的养成的呢?

1.连接层:解决「空间断连」。通过 HooRii OS、ShadowLink(跨协议通信技术)和 HooRii Console,平台为 AI 提供了连接物理世界的 API。这就像给 AI 接上了「神经系统」,让它可以管理跨品牌的智能设备,真正「住进家里」;

2.感知层:解决「情境失忆」。其中的 Perceiver Agent 和 Context Agent 就像 AI 的记忆中枢,将摄像头、麦克风等上报的原始数据转化为结构化的情景知识,这个自进化记忆引擎能让 AI 越用越懂你;

3.协作层:Planning Agent 负责制定执行计划。它分析当前情境,将用户的需求转化为一系列行动路径,并分配给不同的智能体。

4.执行层: 负责将计划转化为具体操作。包括控制 HomeAI 智能体,直接驱动物理设备的响应和交互,实现个性化、有情感的陪伴。

他们产品的核心优势在于实现了自我迭代的闭环:当 AI 执行动作后,物理世界状态的变化会被实时捕获并反馈给感知层,更新记忆。这种持续的实时反馈,使得 HomeAI 能够自我纠正、自我学习。刘一聪强调,HomeAI 必须是个人化的,这才是 AIGC 的灵魂。无论是对 AI 角色进行「灵魂雕刻」,还是根据家庭环境进行「情景重组」,这种高度定制化才能真正构建出「归属感」

「自进化的记忆引擎是我们 HomeAI 成为家人的关键,因为一个家人会记得你的习惯、你的喜好、你的忧伤。」

 刘一聪 

和众科技
 HooRii Technology Co-Founder & CTO


顾嘉唯:World as Prompt, World as Interface


灵宇宙创始人顾嘉唯作为曾在微软、百度从事 AR 和自动驾驶研究的资深创作者,他将自己 12 年前的作品——百度 Eye(一个语音对话摄像头)和今天的「小方机」进行对比,感叹大模型将当年的「不可能」变成了「可能」。他认为,这是时代赋予的机会,要为下一代孩子定义一个「不只是机,而是伴」的新型学习伙伴

如果将空间尺度拉小、用户价值放大,通过一个第一视角设备高频使用,是否就能获取到自动驾驶最渴求的物理世界结构化数据集?这个想法的本质,是找到了物理世界 AI 最大的痛点:缺乏数据

1.Luka 时代(读万卷书): 这是顾嘉唯上一代创业的产品,一只可爱的大眼睛猫头鹰机器人。它解决了家庭场景的垂直痛点(如读绘本),通过摄像头识别、OCR 转 TTS 等技术,实现了「翻到哪里读到哪里」的交互。

2.小方机时代(行万里路): 小方机利用多模态大模型的能力,让孩子的世界变得 AR 化和可交互。它是一个随身、可穿戴的 AI 伙伴,并将 Luka 积累的桌面数据扩展到了孩子一整天的世界交互行为。

顾嘉唯强调,这不是简单的功能叠加,而是要构建一个 FSD(全自动驾驶)一样的数据闭环。通过第一视角数据集,他希望能够捕捉下一代年轻人如何在物理世界中交互的完整过程,为未来具身机器人等最需要数据的领域提供最核心的资产

顾嘉唯将自己的工作视为在践行物理世界的 AI,并尝试构建 LingOS,一套基于数据闭环的操作系统。

他坦诚这需要极强的韧性,去等待和感悟时机。他认为自己正在做的事情,就是将十年前的百度 Eye 梦想,通过今天的技术和产品落地,来构建世界模型上「非常重要的数据源」。

「具身不只是人形,本质是怎么把物理世界和虚拟世界融合。未来可能会诞生各种各样的新物种,但不变的是人类对于物理世界的感知和解决问题的能力。」

 顾嘉唯 

灵宇宙创始人



圆桌讨论:从帮点一杯咖啡到 AGI——多模态的未来

本次主题为「从帮点一杯咖啡到 AGI——多模态的未来」的圆桌讨论由 RTE 开发者社区的联合主理人,OpenQ 联合创始人林旅强主持,参与讨论的嘉宾还有 Agora 的 Principal Product Manager Monica Chen、拽米科技(DraMa.i)创始人何竞飞以及 Memories.ai 算法负责人 Jerrick




本次圆桌首先聚焦于 AI 时代的实时互动基建。主持人抛出了第一个问题:在 AI 时代,视频作为 3D 维度的信息载体,其处理和传输的挑战是什么?机器生成内容是否更易于机器理解?

Agora 的 Monica Chen 关于这个问题从底层技术进行了剖析。她指出,视频的信息量是文字和声音的几百倍,这赋予了它在图表理解等场景中不可替代的优势,但同时也使实时互动和传输成为一个共同的、难以解决的挑战。她特别提到了实时互动中的低延时、清晰度、真实度之间的平衡,认为这三者的权衡,以及上行与下行带宽、多设备适配性等问题,都是决定未来几年技术竞争的关键

针对机器生成视频(如数字人)是否更易于机器理解的问题,Monica Chen 解释说,计算机生成的内容虽然省略了模拟到数字的转换,但它可能色彩更丰富、边缘更清晰,这些特点实际上不利于传输。但从正面看,这类内容又具有更高的对称性,更可以被拆解和分析。

她总结,Agora 的产品提供超低延时、高保真、高适配性的解决方案,确保无论是真实信息还是 AI 生成信息,信息流的顺畅都是基石。

如果说底层技术保证了信息流的顺畅,那么如何在这些信息之上构建有吸引力的 AI 应用和世界?主持人将视角转向了多 Agent 驱动的娱乐体验,向拽米科技创始人何竞飞提出了第二个问题:多 Agent 世界如何从学术研究走向 C 端商业化?AI 角色「活灵活现」的核心机制是什么?

何竞飞指出,其项目虽然灵感来源于「斯坦福小镇」论文中对多智能体模拟人类行为的探索,但作为一个商业 C 端产品,最核心的部分在于「模拟剧情」,而非简单的行为模拟

他坦言,仅靠多模态系统自主运行,故事线会因为冲突点不够密集而过于平淡。为此,他分享了其创新的 Direct Agent + Multimodal System 机制。其中,Direct Agent 扮演了中心化的「导演」角色,负责主导所有剧情控制,直接向 NPC 下达精准的指令,以确保产生具有戏剧张力的核心冲突场景。而 Multimodal System 则负责填充核心章节之间的日常片段,提供 24 小时运行的陪伴感。他强调,这种模式结合俯瞰像素体和动画漫画片段,复刻了用户在现实中「聊天-看社交媒体-再交流」的社交逻辑,是当前阶段通往世界模型的最佳商业化路径


随着 AI 应用在实时互动和虚拟世界中的成熟,AI 的长时记忆和认知能力自然成为下一个核心议题。主持人将问题转向 Memories.ai 的 Jerrick:如何构建 AI 的视频记忆,并利用 Visual RAG 改变搜索范式?我们距离 AGI 的关键缺口在哪里?

Jerrick 认为,构建 AI 记忆必须同时解决「存储」和「搜索」的问题

在存储上,他们将视频、音频、文字、OCR 视为全模态信息源,通过高效的压缩算法和基于 AI 的信息整合,构建可供自由问答的全网视频库。更关键的是搜索范式的革命:未来的搜索将不再是简单的检索,而是一个由 Agent 规划的「全模态搜索链条」。这个 Agent 将理解用户的意图,进行「分析 + 整合」,提供个性化的精准答案,使 AI 成为用户的「个人助理」。

关于 AGI 的关键缺口,Jerrick 认为,除了 AI 记忆,最关键的探索方向是空间智能或具身领域。Memories.ai 正通过 AI 硬件探索收集人类生活化场景的第一视角视频,用这些数据来训练 World Model,目标是让 AI 能够在记住信息的同时,真正地理解物理世界。


在最后的总结环节,圆桌讨论走向了对 AI 价值的深度反思与对未来的有力展望,三位嘉宾以精炼的观点对圆桌内容进行了收束。

Monica Chen 再次强调了实时互动和传输的基建支撑,指出无论是真实信息还是 AI 生成信息, Agora 的产品都是实现端到端触达的坚实平台,希望借此为创业者和企业家提供更好的发展基础。

何竞飞则从产品实践中提炼出深刻的教训:在 AI 互动娱乐中,切忌过度追求 AI 性能的「本体论」,因为这往往会忽略用户的体验和感受;他强调,用户体验应该是第一位的,只有当 AI Native 能够带来更新或更好的体验时,其价值才能被有效实现。

Jerrick 则用一句简明的话概括了他们的终极目标:希望能够让 AI 「看见并且记住」,真正理解人类世界,并通过构建 Agent 系统,帮助人类更好地生活、规划,完成各种任务。

最终,主持人林旅强将个人的参与热情升华为对整个行业的呼吁。他不仅强调了 RTE 开发者社区作为技术交流平台 365 天不打烊的活力,更指出 RTE 开发者社区的愿景是成为中国能牵头的中坚力量,去改变这个世界的技术。他鼓励所有开发者和创作者,借助社区力量,将技术提炼、场景验证,并在商业上有所提升,共同将 RTE 领域推向全球技术的前沿。



阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么


注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    分类
    // 相关帖子
    Coming soon...
    • 0
    从「跨模态思维链」到「物理 AI 数据闭环」:下一代多模态技术和落地丨多模态技术专场@RTE2025 回顾RTRTE_Dev_Comm