智谱 AI 将上线原生多模态模型：聚焦长程任务与自主演化丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、智谱 AI 确认数月内上线原生多模态模型：聚焦长时程任务与自主演化架构

智谱 AI 创始人唐杰明确表示，其原生多模态模型将在数月内正式上线。该模型不再将多模态视为简单的功能叠加，而是将其作为智能体感知环境、执行「长时程任务（Long-horizon tasks）」的底层基础设施，旨在实现从单轮问答向自主闭环作业的跨越。

以原生多模态支撑长时程任务（Long-horizon tasks）：智谱将多模态感知定义为智能体落地的先决条件。模型将通过端到端预训练统一处理视觉、声音等多模态信息，使其具备在复杂动态环境中持续学习与执行高级直觉任务（如全天候漏洞挖掘）的能力。
工程化解决记忆与持续学习：技术路线避开大规模范式转移，通过 1M+ 超长上下文窗口与 RAG（检索增强生成）解决「记忆」痛点；通过缩短发布周期（目标实现周级更新）在工程层面模拟「持续学习」。
自我演化（Self-Evolution）训练闭环：提出大模型下半场的竞争终局是自主训练，即模型通过编写代码、清洗数据及生成合成数据实现自我迭代，利用大规模算力（如 200 万片芯片集群规模）置换人力标注与时间成本。
重构计算机架构：LLM OS 与按需生成应用：预判 AGI 阶段将彻底颠覆冯·诺依曼架构，传统桌面将被 LLM 操作系统取代，所有应用程序将基于用户需求即时生成（Generated on demand），不再存在独立的 APP 概念。

（@AI 前线）

2、Tavus 发布 Image-to-Replica：基于 Phoenix-4 架构实现单图生成实时情感 AI 智能体

Tavus 推出 Image-to-Replica 训练路径，允许开发者仅凭单张照片、AI 生成头像或插画角色构建 AI 智能体，无需传统的 60 秒真人录像。该技术基于 Phoenix-4 引擎，实现了具备实时情感响应、主动聆听和低延迟交互能力的数字人生成，大幅降低了数字人部署的准入门槛。

基于运动控制视频扩散（Motion-controlled Video Diffusion）的合成管线：系统通过扩散模型将静态图像合成为包含自然说话、聆听及微表情的短片，生成的视频流直接接入 Phoenix-4 训练管线，确保图像生成的数字人与视频生成的数字人具备同等交互精度。
API 接口无缝迁移：在现有的 /replicas 端点中新增 train_image_url 与 voice_name 参数，完全兼容现有的 CVI（对话式视频接口）智能体架构，开发者无需更改下游代码逻辑。
Phoenix-4 实时渲染引擎：该模型将情感状态、主动聆听行为和连续面部运动整合为统一系统，支持毫秒级延迟的上下文感知表情生成，解决了传统静态图转视频中常见的「恐怖谷」与僵硬感问题。
内置「Fix with AI」自动修复功能：预生成检查器（Pre-generation checker）可实时评估图像的光照、构图及遮挡情况，并支持一键自动修复图像缺陷，以满足模型训练的高质量输入需求。
扩展非物理摄录角色支持：支持历史人物、品牌吉祥物（Mascot）、插画角色及纯 AI 生成的虚拟形象，将数字人的应用范围从「真人克隆」扩展至「视觉概念实例化」。

https://www.tavus.io/post/introducing-image-to-replica

( @tavus@X)

3、Meta 发布 Ray-Ban 智能眼镜 HUD 显示更新：开放 Web/移动端 SDK，支持 EMG 神经手势控制

Meta 正式开启 Ray-Ban 智能眼镜的视觉显示（Display）功能开发预览。该更新将眼镜从纯 AI 音频助手升级为具备信息叠加（HUD）能力的 AR 设备。开发者现在可以通过原生 SDK 或 Web 技术栈，将应用界面投射到镜片上，并利用 EMG 腕带实现隐蔽的生物电手势交互。

双轨开发架构支持：提供 Device Access Toolkit（支持 Swift/Kotlin 原生开发，适配现有 iOS/Android 应用扩展）与 Web Apps（标准 HTML/CSS/JS，支持 URL 直接部署）两条路径，无需学习专有框架。
Meta Neural Band 交互集成：引入基于表面肌电图（EMG）的手势控制技术，支持通过微小的手指或手部动作进行非口语、非接触式输入，绕过语音或物理触摸限制。
底层硬件 API 开放：开发者可直接调取摄像头、音频流、运动/方向传感器（IMU）、手机 GPS 及本地存储，并在显示屏渲染文本、图像、交互列表、按钮及视频回放。
快速原型部署与测试：Web 路径支持在浏览器预览并通 URL 实时分发；预览版阶段允许通过密码保护的链接向最多 100 位测试人员共享应用版本。

https://developers.meta.com/blog/build-for-display-glasses

( @OscarFalmer@X)

02 有亮点的产品

1、Google 发布 Magic Pointer 与 Googlebook：语义识别光标实现原生「指代交互」，Android 与 ChromeOS 深度融合

Google 在 Android Show 上推出了 Magic Pointer（魔法指针）技术与全新硬件产品线 Googlebook。该更新通过将 Gemini 多模态能力集成至鼠标光标，使系统能够理解屏幕像素背后的语义实体，从而允许用户通过自然语言指代（如「处理这个」）直接操作界面内容，旨在消除传统 AI 聊天框带来的「交互绕路」。

从坐标追踪进化为语义实体识别（Entity Recognition）：Magic Pointer 不再仅反馈 X/Y 轴像素坐标，而是利用 AI 实时解析光标悬停处的 UI 元素、文本块或视频帧内容。系统可将静态像素转化为可交互实体，例如识别视频中的地理位置并直接弹出订座链接。
低摩擦力的交互触发机制：用户无需记忆快捷键或输入复杂提示词（Prompt），通过「晃动鼠标」即可唤起 AI 功能面板。系统会根据当前上下文自动推荐操作选项，如针对图像提供「元素移动」建议，针对复杂菜谱提供「比例换算」润色。
支持自然语言指代交互（Deictic Interaction）：利用「视觉上下文共享」原理，用户可使用「这个」、「那个」等代词配合口语指令完成跨应用任务，由 AI 自动完成从代词到具体像素区域的映射，大幅降低了提示词工程的门槛。
Googlebook 硬件与系统级集成：新一代 Googlebook 笔记本内置名为「Aluminum」的现代操作系统（Android 与 ChromeOS 融合），支持 Android 应用镜像无缝投射、跨设备文件自由流转，并通过机身集成的 Glowbar 发光条指示 AI 工作状态。

( @APPSO)

2、FrontierX 发布球形机器人 Aura：搭载 AuraOS 操作系统，支持端侧视觉模型与智能体架构

FrontierX（跃界）推出物理 AI 原生硬件本体 Aura，通过自研 AuraOS 系统实现硬件底层与大模型能力的深度耦合。该设备定位于「物理 AI 操作端口」，旨在通过端侧部署的感知能力与移动能力，为开发者提供一个可高度自定义的具身智能实验平台。

AuraOS 操作系统与智能体架构：系统原生支持智能体架构，将感知、决策与执行逻辑封装。该架构支持「电子生命体」跨设备迁移，允许同一智能体逻辑在 Aura 机器人、车机或其他物理载体间同步状态。
本地化端侧感知与算力部署：Aura 及其宠物版衍生品 Vex 均支持端侧部署视觉模型与空间感知算法。通过本地算力完成图像识别与环境建模，不依赖云端处理敏感数据，以实现低延迟响应并保障隐私安全。
分级开发体系与 Vibe Coding 支持：提供 L0（普通用户）、L1（轻度开发）、L2（深度开发）三级接口。L1 层级支持 Vibe coding 工具，允许用户通过自然语言定义复杂的任务触发逻辑与多模态输入输出。
安全优先的自主性定义权：不同于主流机器人预设的主动交互逻辑，Aura 将「自主性」定义权交还用户。系统默认采用被动响应模式（Safe-by-default），用户可根据需求自定义机器人在特定场景下的主动行为。
全向球形本体设计：采用球形结构以适配家庭复杂环境的灵活移动。基于同一底层能力，公司已拓展出面向宠物场景的垂直版本 Vex，实现感知与移动算法的模块化复用。

（@新智独角兽）

03 有态度的观点

1、Scaling Law 没有到头，大多数「撞墙」是因为有 bug

Google DeepMind 研究员姚顺宇表示，预训练的 Scaling Law 并没有到头。在被问及模型进步速度是否放缓时，他的回答是「完全没有」。

他解释称，用 Benchmark 分数涨幅来判断进展快慢，本身就是一个误导性框架 —— 任何 Benchmark 都有上限，越接近满分，数字增长自然越慢。

模型「学东西」的能力在持续增强，研究者如今更多的精力是在「把问题定义清楚、构建合适的数据」，其余的事情「好像很多时候是顺其自然的了」。

对于那些认为 Scaling Law 已触及天花板的观点，他归纳出三种来源：规律本身的适用范围有极限、关键条件（如数据）已耗尽。

他认为大多数「撞墙」，其实是研究工作本身存在 bug，但研究者自己没有发现。「修好一个 bug 带来的进展，远大于一些很神奇的技巧。」

而在谈及今年最大的期待，他用了一个自己常说的口号：

Train with finite context, use as infinite context.

用有限的上下文训练、却能在推理时支持近乎无限上下文的能力，他预计今年有望实现。一旦落地，这将解锁真正意义上的持续性个人助手 —— 模型在与用户长期交互中动态管理记忆，而不再受限于固定的上下文窗口。