AI 牛马项圈公司新估值 20 亿美元,亚秒级实时监控;ProactiveVideoQA:首个视频多模态模型主动交互基准丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、钉钉开源 dws 跨平台命令行工具 面向 AI Agent 场景
钉钉现已开源了名为 DingTalk Workspace 的跨平台命令行工具,旨在将钉钉的全套产品能力统一打包,专为人类用户与 AI Agent 双重场景设计。该工具无需编写样板代码即可调用各项服务,所有响应默认为结构化 JSON 输出,并内置了 Agent Skills,使大语言模型(LLM)无需自定义工具即可开箱即用地管理钉钉工作台。
目前,该项目已在 GitHub 上采用 Apache-2.0 许可证发布,提供针对 macOS、Linux 和 Windows 的自动化一键安装脚本。
由于当前处于共创阶段,开发者在配置环境变量并创建钉钉企业内部应用后,还需加入官方共创群以完成白名单配置方可正常使用。
Github 链接:
https://github.com/DingTalk-Real-AI/dingtalk-workspace-cli
(@橘鸦 Juya)
2、北大团队发布 ProactiveVideoQA 基准测试 :通过 GRPO 强化学习与 PAUC 指标实现视频多模态模型原生主动交互
北京大学王选计算机研究所研究团队发布 MMDuet2 模型与 ProactiveVideoQA 基准测试,旨在解决视频多模态模型(Video MLLM)从「被动响应」向「主动交互」的范式转移。通过引入基于 PAUC 指标的强化学习训练框架,MMDuet2 实现了无需精确时间标注即可在视频流中自主决策回复时机,在保持通用理解能力的同时达到 SOTA 性能。
ProactiveVideoQA 是首个专门评估视频多模态模型主动交互能力的综合基准测试。它的核心特征有三个:
多轮开放式问答:不同于大多数视频问答基准使用选择题,ProactiveVideoQA 要求模型生成多轮、完全开放的文本回复,更接近真实对话场景。
多样化的任务和多模态输入:ProactiveVideoQA 涵盖网络视频、第一人称视角、电视剧、监控视频四大类任务,整合文本、视频、语音多种模态,共 1377 个视频、1427 个问题。Benchmark 的数据示例如下图所示,每条数据含有一个问题和一个以上的答案,每个答案对应一个时间片段:
提出和回复时间相关的评估指标 PAUC:提出 Proactive Area Under Curve(PAUC)指标,通过绘制 「时间 - 质量」 曲线并计算曲线下面积来评估模型回复的及时性和准确性,而非仅评估文本内容。
MMDuet2 是在 ProactiveVideoQA 基准上达到 SOTA 性能的支持主动交互的视频多模态模型。核心突破在于将「交互时机」转化为 RL 优化目标中的策略偏好,实现了回复内容与回复时机的端到端对齐。
两者共同构建了视频多模态模型主动交互的完整解决方案:
ProactiveVideoQA 提出了 PAUC 评估指标,提供了测试 benchmark
MMDuet2 通过无需精确时间标注的 RL 方法解决了训练问题,构建了训练数据,达到了 SOTA 性能。
Github 链接:
https://github.com/yellow-binary-tree/MMDuet2
(@机器之心)
02 有亮点的产品
1、Sentience 获 6.5M 美元融资:构建全加密个人数字孪生,实现跨平台上下文捕获与行为模拟
Sentience 获 650 万美元融资,旨在为个体构建专有的 AI 数字孪生模型。该平台通过在桌面及移动端采集全量数字足迹,实现高精度的个人知识检索与自动化决策模拟,试图解决通用大模型(One-size-fits-all)导致的个体思维同质化问题。
单人单模(Personalized LLM): 为每位用户生成唯一的数字孪生模型,不仅复刻历史上下文,还通过解析用户交互数据模拟其价值观、情感驱动力及决策目标。
全量数字记忆库(Digital Memory Bank): 支持桌面端与移动端同步采集,自动整合保存的链接、即时通讯消息及网页浏览历史,消除跨应用搜索和手动复制上下文的需求。
智能体行为模拟(Agentic Execution): 该模型可作为代理执行任务,根据用户历史风格起草邮件、安排日历及处理行政事务;支持模拟用户语气与逻辑进行团队协作。
细粒度权限与端到端加密: 强调模型与数据 100% 归用户所有,支持选择性共享特定知识模块,允许团队在受控范围内通过数字孪生进行 24/7 知识检索。
目前已上线官网并开启 Waitlist 预约,产品处于早期开发阶段,强调数据完全加密。
参考链接:
https://sentience.com
( @The Sentience Company)
2、谷歌发布 stitch2.0,用语音说出 UI,开启 vibe design 时代
谷歌将其定位为「从想法到界面的 AI 设计画布」,核心价值是在一个支持图片、代码、文本的统一画布里,让设计代理理解全局上下文,帮你生成、改版、对比多个方向,并保持风格统一。
目标用户是产品经理、设计师、初创团队以及不会设计但需要界面的开发者;他们的痛点是「从 0 起稿慢、改稿靠来回截图说不清、生成式工具容易风格跑偏」。Stitch 要解决的是「如何在一个 AI 画布里快速出稿、反复 vibe、还不丢设计系统」。
核心功能与差异化优势:
多模态生成 + 语音控制:在同一画布里用文字、语音、参考截图甚至代码生成 UI,AI 设计代理能「看见」你在操作什么,并用对话方式实时给改稿建议。
上下文感知设计代理 + Agent 管理:代理能理解整个项目历史和画布上下文,支持「给我再来 3 个菜单版本」「采访我再帮我出一版」的工作流,并用 Agent Manager 管理多个探索分支。
内置 DESIGN.md 设计系统:每套设计自动抽出一个 DESIGN.md,明确颜色、组件、间距和交互规则,不仅保证同一项目内视觉一致,还能把这个文件丢进代码侧,让 LLM 按同一设计系统去实现前端。
在用户体验上,它更像一个「坐在你旁边的 AI 首席设计师」:你用文字或语音说 vibe 和需求,它一边在无限画布上出高保真界面,一边帮你守住设计系统,从头脑风暴到能交给工程的稿子都在一处完成。
参考链接:
https://blog.google/innovation-and-ai/models-and-research/google-labs/stitch-ai-ui-design
( @Z Potentials)
3、支持眼动追踪,仅 47 克,全彩显示 AI 眼镜 Maverick AI 即将开售
一款名为 Maverick AI 的全彩智能眼镜,即将于 3 月 31 日在 Kickstarter 上开启众筹。这款产品由以色列公司 Everysight 推出,截至目前已累计收获 2000 多位关注者;该产品也曾在 2026 年 1 月在拉斯维加斯举行的 CES 国际消费电子展亮相过。
全彩显示的智能眼镜,应用场景更为丰富,UI 界面也更加复杂,对交互方式要求更高。今天介绍的 Maverick Pro 版本全彩显示智能眼镜,则选择采用眼动追踪作为其交互方式(Maverick 普通版本则不支持眼动追踪)。
Maverick 的 GazeIntent 眼动追踪系统可以追踪用户细微的眼球运动,并将其转化为眼镜上的输入信号用于交互。
如下图展示的,是用眼动追踪系统控制指针,查看不同时段的股价。
另外,眼动追踪还可以用于自动抓取视线聚焦的内容方便 AI 进行识别和解读,而不用对于视野内所有信息进行无差别识别,从而降低算力损耗。
产品支持丰富的应用场景,用户可以通过 AI 询问天气、查询股票或者进行对话,相应的回答会显示在眼镜画面的右侧。
产品预装了一系列自研的应用,支持导航、实时翻译、AI 识物购物、场景理解、运动(骑行、高尔夫、跑步)数据显示等应用场景。
( @XR Vision)
4、农业科技公司 Halter 估值升至 20 亿美元:Cowgorithm 智能项圈算法实现定义虚拟围栏
新西兰农业科技公司 Halter 近期完成新一轮融资,由 Peter Thiel 旗下的 Founders Fund 领投,投前估值由一年前的 10 亿美元翻倍至 20 亿美元。该公司核心产品为基于「Cowgorithm」算法的智能项圈,通过高频传感器数据监测与多级反馈调控,将物理牧场管理转变为软件定义的自动化流程,目前已覆盖全球超过 60 万头奶牛。
项圈与高频多模态传感器融合,内置传感器以每分钟 >1000 个数据点的频率采集位置、运动轨迹、反刍行为、发情周期及健康指标,实现对单头牲畜生理状态的亚秒级实时监控。采用「声音提示 - 振动控制 - 低能量电脉冲」的三级反馈逻辑。牧场主通过 App 划定虚拟边界,算法根据 GPS 坐标自动触发反馈,约 10 天训练周期即可实现无人值守的自动化轮牧。
根据实际应用数据显示,该系统每管理 400 头奶牛可节省 1 个全职人力(FTE)。在美国市场,Halter 已部署超过 11,000 英里的虚拟围栏,累计为牧场主节省约 2.2 亿美元的物理围栏建设与维护开支。
该产品采用订阅制 SaaS 模式,单头牛月费 5–8 美元,基站安装费约 4,500 美元。相较于传统一次性硬件销售,该模式通过积累 60 万头牛的行为数据库构建模型壁垒,提高用户迁移成本。
(@新智元)
03 有态度的观点
1、王兴兴:具身智能「GPT 时刻」大概还需两到三年
据央视新闻报道,宇树科技创始人兼 CEO 王兴兴昨天亮相 2026 中国网络媒体论坛,以《当机器人刷屏》为题发表演讲,就人形机器人的运动能力与具身智能的发展前景作出多项预测。
王兴兴表示,下月在北京亦庄举行的人形机器人半程马拉松比赛中,多家公司的机器人将「跑得比人快」,半马成绩有望跑进 1 小时以内。
此前,宇树科技已在去年 8 月举办的 2025 世界人形机器人运动会上斩获 1500 米、400 米、4 × 100 米接力及 100 米障碍赛多项冠军,其中 1500 米成绩已进入 6 分钟区间。
在行业前景方面,王兴兴谈到具身智能的「ChatGPT 时刻」:将一台机器人带入陌生场景,通过语音指令,机器人能完成 80% 至 90% 的任务。
他认为,这一拐点大约还需两到三年才能到来,但他也提到,一位从美国硅谷回国的朋友对此持更乐观的态度,认为 18 个月内即可实现。王兴兴同时强调,「今年或明年一定会有非常大的技术进步在等待着大家」。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考