智谱 AI 将上线原生多模态模型:聚焦长程任务与自主演化丨日报

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@koki、@鲍勃



01 有话题的技术

1、智谱 AI 确认数月内上线原生多模态模型:聚焦长时程任务与自主演化架构

图片


智谱 AI 创始人唐杰明确表示,其原生多模态模型将在数月内正式上线。该模型不再将多模态视为简单的功能叠加,而是将其作为智能体感知环境、执行「长时程任务(Long-horizon tasks)」的底层基础设施,旨在实现从单轮问答向自主闭环作业的跨越


  • 以原生多模态支撑长时程任务(Long-horizon tasks):智谱将多模态感知定义为智能体落地的先决条件。模型将通过端到端预训练统一处理视觉、声音等多模态信息,使其具备在复杂动态环境中持续学习与执行高级直觉任务(如全天候漏洞挖掘)的能力。

  • 工程化解决记忆与持续学习:技术路线避开大规模范式转移,通过 1M+ 超长上下文窗口与 RAG(检索增强生成)解决「记忆」痛点;通过缩短发布周期(目标实现周级更新)在工程层面模拟「持续学习」。

  • 自我演化(Self-Evolution)训练闭环:提出大模型下半场的竞争终局是自主训练,即模型通过编写代码、清洗数据及生成合成数据实现自我迭代,利用大规模算力(如 200 万片芯片集群规模)置换人力标注与时间成本。

  • 重构计算机架构:LLM OS 与按需生成应用:预判 AGI 阶段将彻底颠覆冯·诺依曼架构,传统桌面将被 LLM 操作系统取代,所有应用程序将基于用户需求即时生成(Generated on demand),不再存在独立的 APP 概念。


(@AI 前线)



2、Tavus 发布 Image-to-Replica:基于 Phoenix-4 架构实现单图生成实时情感 AI 智能体


Tavus 推出 Image-to-Replica 训练路径,允许开发者仅凭单张照片、AI 生成头像或插画角色构建 AI 智能体,无需传统的 60 秒真人录像。该技术基于 Phoenix-4 引擎,实现了具备实时情感响应、主动聆听和低延迟交互能力的数字人生成,大幅降低了数字人部署的准入门槛

  • 基于运动控制视频扩散(Motion-controlled Video Diffusion)的合成管线:系统通过扩散模型将静态图像合成为包含自然说话、聆听及微表情的短片,生成的视频流直接接入 Phoenix-4 训练管线,确保图像生成的数字人与视频生成的数字人具备同等交互精度。

  • API 接口无缝迁移:在现有的 /replicas 端点中新增 train_image_url 与 voice_name 参数,完全兼容现有的 CVI(对话式视频接口)智能体架构,开发者无需更改下游代码逻辑。

  • Phoenix-4 实时渲染引擎:该模型将情感状态、主动聆听行为和连续面部运动整合为统一系统,支持毫秒级延迟的上下文感知表情生成,解决了传统静态图转视频中常见的「恐怖谷」与僵硬感问题。

  • 内置「Fix with AI」自动修复功能:预生成检查器(Pre-generation checker)可实时评估图像的光照、构图及遮挡情况,并支持一键自动修复图像缺陷,以满足模型训练的高质量输入需求。

  • 扩展非物理摄录角色支持:支持历史人物、品牌吉祥物(Mascot)、插画角色及纯 AI 生成的虚拟形象,将数字人的应用范围从「真人克隆」扩展至「视觉概念实例化」。


https://www.tavus.io/post/introducing-image-to-replica


( @tavus@X)



3、Meta 发布 Ray-Ban 智能眼镜 HUD 显示更新:开放 Web/移动端 SDK,支持 EMG 神经手势控制


Meta 正式开启 Ray-Ban 智能眼镜的视觉显示(Display)功能开发预览。该更新将眼镜从纯 AI 音频助手升级为具备信息叠加(HUD)能力的 AR 设备。开发者现在可以通过原生 SDK 或 Web 技术栈,将应用界面投射到镜片上,并利用 EMG 腕带实现隐蔽的生物电手势交互。


  • 双轨开发架构支持:提供 Device Access Toolkit(支持 Swift/Kotlin 原生开发,适配现有 iOS/Android 应用扩展)与 Web Apps(标准 HTML/CSS/JS,支持 URL 直接部署)两条路径,无需学习专有框架。

  • Meta Neural Band 交互集成:引入基于表面肌电图(EMG)的手势控制技术,支持通过微小的手指或手部动作进行非口语、非接触式输入,绕过语音或物理触摸限制。

  • 底层硬件 API 开放:开发者可直接调取摄像头、音频流、运动/方向传感器(IMU)、手机 GPS 及本地存储,并在显示屏渲染文本、图像、交互列表、按钮及视频回放。

  • 快速原型部署与测试:Web 路径支持在浏览器预览并通 URL 实时分发;预览版阶段允许通过密码保护的链接向最多 100 位测试人员共享应用版本。


https://developers.meta.com/blog/build-for-display-glasses


( @OscarFalmer@X)



02 有亮点的产品


1、Google 发布 Magic Pointer 与 Googlebook:语义识别光标实现原生「指代交互」,Android 与 ChromeOS 深度融合



Google 在 Android Show 上推出了 Magic Pointer(魔法指针)技术与全新硬件产品线 Googlebook。该更新通过将 Gemini 多模态能力集成至鼠标光标,使系统能够理解屏幕像素背后的语义实体,从而允许用户通过自然语言指代(如「处理这个」)直接操作界面内容,旨在消除传统 AI 聊天框带来的「交互绕路」


  • 从坐标追踪进化为语义实体识别(Entity Recognition):Magic Pointer 不再仅反馈 X/Y 轴像素坐标,而是利用 AI 实时解析光标悬停处的 UI 元素、文本块或视频帧内容。系统可将静态像素转化为可交互实体,例如识别视频中的地理位置并直接弹出订座链接。

  • 低摩擦力的交互触发机制:用户无需记忆快捷键或输入复杂提示词(Prompt),通过「晃动鼠标」即可唤起 AI 功能面板。系统会根据当前上下文自动推荐操作选项,如针对图像提供「元素移动」建议,针对复杂菜谱提供「比例换算」润色。

  • 支持自然语言指代交互(Deictic Interaction):利用「视觉上下文共享」原理,用户可使用「这个」、「那个」等代词配合口语指令完成跨应用任务,由 AI 自动完成从代词到具体像素区域的映射,大幅降低了提示词工程的门槛。

  • Googlebook 硬件与系统级集成:新一代 Googlebook 笔记本内置名为「Aluminum」的现代操作系统(Android 与 ChromeOS 融合),支持 Android 应用镜像无缝投射、跨设备文件自由流转,并通过机身集成的 Glowbar 发光条指示 AI 工作状态。


( @APPSO)



2、FrontierX 发布球形机器人 Aura:搭载 AuraOS 操作系统,支持端侧视觉模型与智能体架构

图片


FrontierX(跃界)推出物理 AI 原生硬件本体 Aura,通过自研 AuraOS 系统实现硬件底层与大模型能力的深度耦合。该设备定位于「物理 AI 操作端口」,旨在通过端侧部署的感知能力与移动能力,为开发者提供一个可高度自定义的具身智能实验平台。


  • AuraOS 操作系统与智能体架构:系统原生支持智能体架构,将感知、决策与执行逻辑封装。该架构支持「电子生命体」跨设备迁移,允许同一智能体逻辑在 Aura 机器人、车机或其他物理载体间同步状态。

  • 本地化端侧感知与算力部署:Aura 及其宠物版衍生品 Vex 均支持端侧部署视觉模型与空间感知算法。通过本地算力完成图像识别与环境建模,不依赖云端处理敏感数据,以实现低延迟响应并保障隐私安全。

  • 分级开发体系与 Vibe Coding 支持:提供 L0(普通用户)、L1(轻度开发)、L2(深度开发)三级接口。L1 层级支持 Vibe coding 工具,允许用户通过自然语言定义复杂的任务触发逻辑与多模态输入输出。

  • 安全优先的自主性定义权:不同于主流机器人预设的主动交互逻辑,Aura 将「自主性」定义权交还用户。系统默认采用被动响应模式(Safe-by-default),用户可根据需求自定义机器人在特定场景下的主动行为。

  • 全向球形本体设计:采用球形结构以适配家庭复杂环境的灵活移动。基于同一底层能力,公司已拓展出面向宠物场景的垂直版本 Vex,实现感知与移动算法的模块化复用。


(@新智独角兽)


03 有态度的观点


1、Scaling Law 没有到头,大多数「撞墙」是因为有 bug

图片


Google DeepMind 研究员姚顺宇表示,预训练的 Scaling Law 并没有到头。在被问及模型进步速度是否放缓时,他的回答是「完全没有」。


他解释称,用 Benchmark 分数涨幅来判断进展快慢,本身就是一个误导性框架 —— 任何 Benchmark 都有上限,越接近满分,数字增长自然越慢。


模型「学东西」的能力在持续增强,研究者如今更多的精力是在「把问题定义清楚、构建合适的数据」,其余的事情「好像很多时候是顺其自然的了」。


对于那些认为 Scaling Law 已触及天花板的观点,他归纳出三种来源:规律本身的适用范围有极限、关键条件(如数据)已耗尽。


他认为大多数「撞墙」,其实是研究工作本身存在 bug,但研究者自己没有发现。「修好一个 bug 带来的进展,远大于一些很神奇的技巧。」


而在谈及今年最大的期待,他用了一个自己常说的口号:


Train with finite context, use as infinite context.


用有限的上下文训练、却能在推理时支持近乎无限上下文的能力,他预计今年有望实现。一旦落地,这将解锁真正意义上的持续性个人助手 —— 模型在与用户长期交互中动态管理记忆,而不再受限于固定的上下文窗口


( @APPSO)


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    // 相关帖子
    Coming soon...
    • 0
    智谱 AI 将上线原生多模态模型:聚焦长程任务与自主演化丨日报RTRTE_Dev_Comm