OpenAI 创始人力推!语音智能体 HeyClicky:语音驱动+任务执行丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃


01 有话题的技术


1、AOMedia 发布下一代视频编码标准 AV2:压缩效率提升 30%,新增原生 AR/VR 与屏幕内容优化


开放媒体联盟(AOMedia)正式发布了 AV2 v1.0 码流与解码过程规范,并同步在 GitHub 释出了 AOM 视频模型(AVM)v1.0.0 首个参考软件版本。作为免版税开源编码标准 AV1 的继任者,AV2 旨在通过算法迭代降低约 30% 的带宽成本,并针对下一代超低延迟、高分辨率以及虚拟现实(VR)等场景提供底层架构支持。由于当前软硬件生态尚未建立,该版本目前主要作为开发者和芯片厂商进行技术验证的基准。


  • 30% 压缩效率提升:相较于前代 AV1 编码标准,AV2 在维持同等图像质量的前提下,可降低约 30% 的码率与带宽占用,或在相同带宽下显著提升视频画面解析度。

  • AVM 1.0.0 参考软件发布:官方交付了首个 AOM Video Model (AVM) v1.0.0 源代码,该版本作为 AV2 编解码的基准实现,为开发者提供技术评估和算法验证的起点,但目前尚未进行针对性的运行效率优化。

  • 原生 AR/VR 与屏幕内容优化:除传统视频编解码能力外,AV2 在设计阶段即引入了针对增强现实(AR)、虚拟现实(VR)、分屏传输以及屏幕内容(Screen Content)的特定编码工具,以应对高分辨率、超低延迟和非自然纹理的压缩需求。

  • 启动 CPU 软解项目 dav2d:由于当前主流 GPU 和 SoC 均缺乏硬件解码支持,VideoLAN 开发者已正式启动基于 CPU 的开源软件解码器 dav2d 的开发,以解决早期生态中客户端播放的性能瓶颈。


官方文档: 

https://av2.aomedia.org/ 


GitHub: 

https://github.com/AOMediaCodec/av2-spec


(@AOMedia, Phoronix, OC3D, Linuxiac)



2、NVIDIA 等发布 Gamma-World:支持多智能体对称交互的世界模型,实现 24 FPS 实时多视角推演

图片


由 NVIDIA、清华大学及多伦多大学联合提出的 Gamma-World 是一种新型生成式多智能体世界模型。该模型通过单纯形旋转编码与稀疏枢纽注意力机制,解决了视频生成在多视角一致性、排列对称性及计算扩展性上的难题,支持在共享虚拟或物理空间中进行高效的多智能体同步模拟


  • 单纯形旋转智能体编码(Simplex Rotary Agent Encoding): 将智能体身份映射至高维旋转空间中的正单纯形顶点,确保任意两个智能体间的几何距离恒定相等。该设计实现了排列对称性(Permutation Symmetry),使模型在仅接受双人数据训练的情况下,具备零样本扩展至四人及以上场景的同步推演能力。

  • 稀疏枢纽注意力机制(Sparse Hub Attention): 引入枢纽词元(Hub Tokens)作为共享通信中转站,将跨智能体交互的计算复杂度降低。信息流通过「智能体-枢纽-智能体」的辐射路径传递,显著降低了多智能体并行的推理延迟。

  • 三阶段蒸馏训练方案: 流程涵盖「双向教师模型学习高质量去噪」、「因果学生模型建立自回归连贯性」以及「条件自强迫蒸馏压缩」。最终模型支持 KV 缓存,并能以 24 FPS 的帧率实时响应动作输入并生成流式推演画面。

  • 跨领域运动一致性验证: 模型不仅在《我的世界》等虚拟协作/建造场景中表现出色,亦成功应用于 RealOmin-Open 真实机器人数据集,实现了双臂协同任务下物理特性一致的多视角未来帧预测。


图片


论文标题:

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players


论文链接:

https://arxiv.org/pdf/2605.28816


(@机智流)



02 有亮点的产品



1、AI 导师智能体 Koji 正式发布:集成实时视觉空间标注,支持 Socratic 式引导教学

由 MIT 与哈佛大学教育专家参与训练的 AI 导师 Koji 正式发布。该产品通过实时计算机视觉技术监控学习过程,放弃直接给出答案的生成模式,转而采用引导式对话(Coaching)辅助学生完成数学与编程逻辑推理,旨在解决生成式 AI 导致的教育「作弊」与思维退化问题


  • 实时视觉追踪与多模态标注: Koji 集成视觉感知能力,可实时监测学生的书写与思考过程。不同于传统文字对话框,该系统支持在学习界面上直接进行指向、草图绘制和空间标注,模拟真人导师面对面指导的交互体验

  • Socratic 引导式训练模型: 模型经过特定微调,其逻辑底层拒绝直接输出最终答案。系统通过拆解知识点、提出启发式问题引导学生自主推导,侧重于培养逻辑重构能力而非单纯的信息检索。

  • 低延迟交互架构: 开发团队在模型选择上平衡了推理深度与响应速度,采用高性能推理模型以确保在视觉反馈与实时标注过程中的超低延迟,维持学习流程的连贯性。

  • 高性价比订阅成本: 该产品的商业化定价策略低于每日 1 美元,通过优化推理成本,试图打破高水平 1 对 1 人工辅导的高价壁垒,推动规模化部署。


(@Suekhim@X)



2、OpenAI 创始人力推,HeyClicky 发布光标交互式 AI 智能体:语音驱动、实时生成任务智能体

图片


开发者 Farza Majeed 团队推出了免配置、常驻系统光标旁的 AI 智能体交互界面 HeyClicky。该工具旨在提供极简的自然语言入口,用户通过语音指令即可调用模型并实时生成特定任务智能体。其已实现本地 macOS 应用开发以及 Notion、Gmail 和日历等多平台的工作流自动化。


  • 免配置的随时光标悬浮交互:HeyClicky 常驻于用户系统光标旁,无需复杂的控制台或环境配置,支持纯语音指令(Voice-activated)交互,降低了多模态交互的调用路径。

  • 多源第三方 API 原生集成:支持双向连接 Notion、Gmail 和 Google Calendar,智能体可直接跨平台读取、处理并写入用户数据。

  • 本地环境 macOS 应用编译:具备本地代码生成与执行能力,允许用户通过自然语言在本地环境中直接构建并生成 macOS 原生应用程序。

  • 场景化智能体动态生成:支持根据用户指令动态派生专用智能体,执行 Instagram 微红人定向检索、竞品分析及特定软件(如 After Effects、DaVinci Resolve)教学等任务。


目前产品已上线并开放免费试用。


https://www.heyclicky.com/


(@ycombinator)



3、VAST 获近 2 亿美元 A 轮系列融资,发布 Project Eden 世界模型:采用三层解耦架构实现环境长程持久


通用人工智能公司 VAST 宣布完成总计近 2 亿美元的 A+ 及 A++ 轮融资,由渶策资本、国寿长三角科创基金领投,荣耀产业基金等参投。同步推出的通用世界模型 Project Eden 放弃了传统的「像素生成」路径,通过原生解耦底层状态推演与视觉渲染,实现了支持多人并发交互、场景自由复用且逻辑一致的永续虚拟环境


  • 三层解耦式世界模型架构(Project Eden):

    • 结构化状态层(State Layer): 统一维护 3D 几何、物体属性与事件逻辑,实现独立于相机的客观状态推演。

    • 条件接口层(Interface Layer): 将 3D 状态转化为语义及几何约束。

    • 生成式渲染层(Rendering Layer): 基于约束实时输出视觉画面。该架构解决了视频生成模型常见的物体消失与空间畸变问题。


  • 原生 8K AI 贴图算法: 业内首个支持多通道同步生成的 8K 材质算法,将传统 3-5 天的手工制作周期压缩至 2 分钟以内,单张边际成本近乎为零,产出资产可直接接入 Unreal、Unity 及 Blender 管线。

  • Segmentation V2 部件拆分系统: 依托多模态 3D 结构理解模型,支持对 AI 生成的 3D 资产进行智能分件。提供低、中、高(15+ 部件)三档颗粒度控制,并引入 2D 预拆分预览机制,适配 3D 打印与游戏工业管线。

  • 多人并发与具身智能支持: 由于状态与渲染解耦,Project Eden 支持大量真人用户与 AI 智能体在同一底层世界中进行非线性交互,为具身智能训练提供了高逻辑一致性的仿真底座。


(@VASTAI)



4、联想发布 AI 童伴机 V1:搭载 Jarvis AI 助手与 500W 翻转摄像头,定价 599 元

图片


图片


联想推出面向 3-12 岁儿童的 AI 拍学硬件「联想 AI 童伴机 V1」。该产品采用方块化设计,通过集成 Jarvis AI 助手与翻转镜头模组,实现了从传统通讯工具向多模态 AI 伴学终端的转型,主打识物百科与智能交互。


  • 多模态识物系统:配备 500W 像素可翻转摄像头,支持超 300 万种物种识别,提供基于视觉输入的实时百科解答。

  • 独立 AI 与安全物理按键:机身侧面设有专用 AI 键与 SOS 键,通过 Jarvis AI 助手支持语音对话,降低了低龄用户的交互门槛。

  • 硬件规格与系统能力:采用 2.0 英寸触控屏,支持下载学习类第三方 App,并集成 GPS 定位、零钱支付及家长端视频通话功能。

  • 细分品类切入:定位为「儿童方块机」,介于儿童手表与教育平板之间,利用摄像头翻转特性解决了移动场景下的桌面拍学需求。


(@多知)


03 有态度的观点

1、纽约联储主席:AI 正在改变工作,但经济学家岗位仍安全

图片


据彭博社报道,在冰岛雷克雅未克举行的经济学年会上,纽约联储主席约翰·威廉姆斯对 AI 冲击就业的担忧给出了明确回应,成为本次会议中立场最为乐观的联储官员


威廉姆斯以一句「宏观经济学家的需求依然旺盛」引发听众笑声,随即阐明他的核心判断:AI 带来的生产率提升不会导致长期结构性失业。


历史告诉我们,生产率可以不断提高、生活水平可以持续上升,而不会造成结构性失业。我不相信我们会面临长期的结构性失业。


他认为,AI 可以加速数据处理和初步分析,但经济学判断仍需要识别因果关系、理解制度背景,并把模型结论放进政策语境。他同时指出,劳动力市场的主要调整路径是再培训与技能升级,而非大规模裁员。


他特别提到,当前高校应届毕业生已普遍将 AI 工具融入日常工作,这一代劳动力在适应能力上已领先于前辈。


今天走出校园被录用的人,已经在每天使用 AI 工具了


( @APPSO)


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    OpenAI 创始人力推!语音智能体 HeyClicky:语音驱动+任务执行丨日报RTRTE_Dev_Comm