OpenAI 创始人力推！语音智能体 HeyClicky：语音驱动+任务执行丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、AOMedia 发布下一代视频编码标准 AV2：压缩效率提升 30%，新增原生 AR/VR 与屏幕内容优化

开放媒体联盟（AOMedia）正式发布了 AV2 v1.0 码流与解码过程规范，并同步在 GitHub 释出了 AOM 视频模型（AVM）v1.0.0 首个参考软件版本。作为免版税开源编码标准 AV1 的继任者，AV2 旨在通过算法迭代降低约 30% 的带宽成本，并针对下一代超低延迟、高分辨率以及虚拟现实（VR）等场景提供底层架构支持。由于当前软硬件生态尚未建立，该版本目前主要作为开发者和芯片厂商进行技术验证的基准。

30% 压缩效率提升：相较于前代 AV1 编码标准，AV2 在维持同等图像质量的前提下，可降低约 30% 的码率与带宽占用，或在相同带宽下显著提升视频画面解析度。
AVM 1.0.0 参考软件发布：官方交付了首个 AOM Video Model (AVM) v1.0.0 源代码，该版本作为 AV2 编解码的基准实现，为开发者提供技术评估和算法验证的起点，但目前尚未进行针对性的运行效率优化。
原生 AR/VR 与屏幕内容优化：除传统视频编解码能力外，AV2 在设计阶段即引入了针对增强现实（AR）、虚拟现实（VR）、分屏传输以及屏幕内容（Screen Content）的特定编码工具，以应对高分辨率、超低延迟和非自然纹理的压缩需求。
启动 CPU 软解项目 dav2d：由于当前主流 GPU 和 SoC 均缺乏硬件解码支持，VideoLAN 开发者已正式启动基于 CPU 的开源软件解码器 dav2d 的开发，以解决早期生态中客户端播放的性能瓶颈。

官方文档：

https://av2.aomedia.org/

GitHub:

https://github.com/AOMediaCodec/av2-spec

（@AOMedia, Phoronix, OC3D, Linuxiac）

2、NVIDIA 等发布 Gamma-World：支持多智能体对称交互的世界模型，实现 24 FPS 实时多视角推演

由 NVIDIA、清华大学及多伦多大学联合提出的 Gamma-World 是一种新型生成式多智能体世界模型。该模型通过单纯形旋转编码与稀疏枢纽注意力机制，解决了视频生成在多视角一致性、排列对称性及计算扩展性上的难题，支持在共享虚拟或物理空间中进行高效的多智能体同步模拟。

单纯形旋转智能体编码（Simplex Rotary Agent Encoding）： 将智能体身份映射至高维旋转空间中的正单纯形顶点，确保任意两个智能体间的几何距离恒定相等。该设计实现了排列对称性（Permutation Symmetry），使模型在仅接受双人数据训练的情况下，具备零样本扩展至四人及以上场景的同步推演能力。
稀疏枢纽注意力机制（Sparse Hub Attention）： 引入枢纽词元（Hub Tokens）作为共享通信中转站，将跨智能体交互的计算复杂度降低。信息流通过「智能体-枢纽-智能体」的辐射路径传递，显著降低了多智能体并行的推理延迟。
三阶段蒸馏训练方案： 流程涵盖「双向教师模型学习高质量去噪」、「因果学生模型建立自回归连贯性」以及「条件自强迫蒸馏压缩」。最终模型支持 KV 缓存，并能以 24 FPS 的帧率实时响应动作输入并生成流式推演画面。
跨领域运动一致性验证： 模型不仅在《我的世界》等虚拟协作/建造场景中表现出色，亦成功应用于 RealOmin-Open 真实机器人数据集，实现了双臂协同任务下物理特性一致的多视角未来帧预测。

论文标题：

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

论文链接：

https://arxiv.org/pdf/2605.28816

（@机智流）

02 有亮点的产品

1、AI 导师智能体 Koji 正式发布：集成实时视觉空间标注，支持 Socratic 式引导教学

由 MIT 与哈佛大学教育专家参与训练的 AI 导师 Koji 正式发布。该产品通过实时计算机视觉技术监控学习过程，放弃直接给出答案的生成模式，转而采用引导式对话（Coaching）辅助学生完成数学与编程逻辑推理，旨在解决生成式 AI 导致的教育「作弊」与思维退化问题。

实时视觉追踪与多模态标注： Koji 集成视觉感知能力，可实时监测学生的书写与思考过程。不同于传统文字对话框，该系统支持在学习界面上直接进行指向、草图绘制和空间标注，模拟真人导师面对面指导的交互体验。
Socratic 引导式训练模型： 模型经过特定微调，其逻辑底层拒绝直接输出最终答案。系统通过拆解知识点、提出启发式问题引导学生自主推导，侧重于培养逻辑重构能力而非单纯的信息检索。
低延迟交互架构： 开发团队在模型选择上平衡了推理深度与响应速度，采用高性能推理模型以确保在视觉反馈与实时标注过程中的超低延迟，维持学习流程的连贯性。
高性价比订阅成本： 该产品的商业化定价策略低于每日 1 美元，通过优化推理成本，试图打破高水平 1 对 1 人工辅导的高价壁垒，推动规模化部署。

(@Suekhim@X)

2、OpenAI 创始人力推，HeyClicky 发布光标交互式 AI 智能体：语音驱动、实时生成任务智能体

开发者 Farza Majeed 团队推出了免配置、常驻系统光标旁的 AI 智能体交互界面 HeyClicky。该工具旨在提供极简的自然语言入口，用户通过语音指令即可调用模型并实时生成特定任务智能体。其已实现本地 macOS 应用开发以及 Notion、Gmail 和日历等多平台的工作流自动化。

免配置的随时光标悬浮交互：HeyClicky 常驻于用户系统光标旁，无需复杂的控制台或环境配置，支持纯语音指令（Voice-activated）交互，降低了多模态交互的调用路径。
多源第三方 API 原生集成：支持双向连接 Notion、Gmail 和 Google Calendar，智能体可直接跨平台读取、处理并写入用户数据。
本地环境 macOS 应用编译：具备本地代码生成与执行能力，允许用户通过自然语言在本地环境中直接构建并生成 macOS 原生应用程序。
场景化智能体动态生成：支持根据用户指令动态派生专用智能体，执行 Instagram 微红人定向检索、竞品分析及特定软件（如 After Effects、DaVinci Resolve）教学等任务。

目前产品已上线并开放免费试用。

https://www.heyclicky.com/

(@ycombinator)

3、VAST 获近 2 亿美元 A 轮系列融资，发布 Project Eden 世界模型：采用三层解耦架构实现环境长程持久

通用人工智能公司 VAST 宣布完成总计近 2 亿美元的 A+ 及 A++ 轮融资，由渶策资本、国寿长三角科创基金领投，荣耀产业基金等参投。同步推出的通用世界模型 Project Eden 放弃了传统的「像素生成」路径，通过原生解耦底层状态推演与视觉渲染，实现了支持多人并发交互、场景自由复用且逻辑一致的永续虚拟环境。

三层解耦式世界模型架构（Project Eden）：
- 结构化状态层（State Layer）： 统一维护 3D 几何、物体属性与事件逻辑，实现独立于相机的客观状态推演。
- 条件接口层（Interface Layer）： 将 3D 状态转化为语义及几何约束。
- 生成式渲染层（Rendering Layer）： 基于约束实时输出视觉画面。该架构解决了视频生成模型常见的物体消失与空间畸变问题。
原生 8K AI 贴图算法： 业内首个支持多通道同步生成的 8K 材质算法，将传统 3-5 天的手工制作周期压缩至 2 分钟以内，单张边际成本近乎为零，产出资产可直接接入 Unreal、Unity 及 Blender 管线。
Segmentation V2 部件拆分系统： 依托多模态 3D 结构理解模型，支持对 AI 生成的 3D 资产进行智能分件。提供低、中、高（15+ 部件）三档颗粒度控制，并引入 2D 预拆分预览机制，适配 3D 打印与游戏工业管线。
多人并发与具身智能支持： 由于状态与渲染解耦，Project Eden 支持大量真人用户与 AI 智能体在同一底层世界中进行非线性交互，为具身智能训练提供了高逻辑一致性的仿真底座。