AI 牛马项圈公司新估值 20 亿美元，亚秒级实时监控；ProactiveVideoQA：首个视频多模态模型主动交互基准丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、钉钉开源 dws 跨平台命令行工具面向 AI Agent 场景

钉钉现已开源了名为 DingTalk Workspace 的跨平台命令行工具，旨在将钉钉的全套产品能力统一打包，专为人类用户与 AI Agent 双重场景设计。该工具无需编写样板代码即可调用各项服务，所有响应默认为结构化 JSON 输出，并内置了 Agent Skills，使大语言模型（LLM）无需自定义工具即可开箱即用地管理钉钉工作台。

目前，该项目已在 GitHub 上采用 Apache-2.0 许可证发布，提供针对 macOS、Linux 和 Windows 的自动化一键安装脚本。

由于当前处于共创阶段，开发者在配置环境变量并创建钉钉企业内部应用后，还需加入官方共创群以完成白名单配置方可正常使用。

Github 链接：

https://github.com/DingTalk-Real-AI/dingtalk-workspace-cli

（@橘鸦 Juya）

2、北大团队发布 ProactiveVideoQA 基准测试：通过 GRPO 强化学习与 PAUC 指标实现视频多模态模型原生主动交互

北京大学王选计算机研究所研究团队发布 MMDuet2 模型与 ProactiveVideoQA 基准测试，旨在解决视频多模态模型（Video MLLM）从「被动响应」向「主动交互」的范式转移。通过引入基于 PAUC 指标的强化学习训练框架，MMDuet2 实现了无需精确时间标注即可在视频流中自主决策回复时机，在保持通用理解能力的同时达到 SOTA 性能。

ProactiveVideoQA 是首个专门评估视频多模态模型主动交互能力的综合基准测试。它的核心特征有三个：

多轮开放式问答：不同于大多数视频问答基准使用选择题，ProactiveVideoQA 要求模型生成多轮、完全开放的文本回复，更接近真实对话场景。
多样化的任务和多模态输入：ProactiveVideoQA 涵盖网络视频、第一人称视角、电视剧、监控视频四大类任务，整合文本、视频、语音多种模态，共 1377 个视频、1427 个问题。Benchmark 的数据示例如下图所示，每条数据含有一个问题和一个以上的答案，每个答案对应一个时间片段：

提出和回复时间相关的评估指标 PAUC：提出 Proactive Area Under Curve（PAUC）指标，通过绘制「时间 - 质量」曲线并计算曲线下面积来评估模型回复的及时性和准确性，而非仅评估文本内容。

MMDuet2 是在 ProactiveVideoQA 基准上达到 SOTA 性能的支持主动交互的视频多模态模型。核心突破在于将「交互时机」转化为 RL 优化目标中的策略偏好，实现了回复内容与回复时机的端到端对齐。

两者共同构建了视频多模态模型主动交互的完整解决方案：

ProactiveVideoQA 提出了 PAUC 评估指标，提供了测试 benchmark
MMDuet2 通过无需精确时间标注的 RL 方法解决了训练问题，构建了训练数据，达到了 SOTA 性能。

Github 链接：

https://github.com/yellow-binary-tree/MMDuet2

（@机器之心）

02 有亮点的产品

1、Sentience 获 6.5M 美元融资：构建全加密个人数字孪生，实现跨平台上下文捕获与行为模拟

Sentience 获 650 万美元融资，旨在为个体构建专有的 AI 数字孪生模型。该平台通过在桌面及移动端采集全量数字足迹，实现高精度的个人知识检索与自动化决策模拟，试图解决通用大模型（One-size-fits-all）导致的个体思维同质化问题。

单人单模（Personalized LLM）： 为每位用户生成唯一的数字孪生模型，不仅复刻历史上下文，还通过解析用户交互数据模拟其价值观、情感驱动力及决策目标。

全量数字记忆库（Digital Memory Bank）： 支持桌面端与移动端同步采集，自动整合保存的链接、即时通讯消息及网页浏览历史，消除跨应用搜索和手动复制上下文的需求。

智能体行为模拟（Agentic Execution）： 该模型可作为代理执行任务，根据用户历史风格起草邮件、安排日历及处理行政事务；支持模拟用户语气与逻辑进行团队协作。

细粒度权限与端到端加密： 强调模型与数据 100% 归用户所有，支持选择性共享特定知识模块，允许团队在受控范围内通过数字孪生进行 24/7 知识检索。

目前已上线官网并开启 Waitlist 预约，产品处于早期开发阶段，强调数据完全加密。

参考链接：

https://sentience.com

( @The Sentience Company)

2、谷歌发布 stitch2.0，用语音说出 UI，开启 vibe design 时代

谷歌将其定位为「从想法到界面的 AI 设计画布」，核心价值是在一个支持图片、代码、文本的统一画布里，让设计代理理解全局上下文，帮你生成、改版、对比多个方向，并保持风格统一。

目标用户是产品经理、设计师、初创团队以及不会设计但需要界面的开发者；他们的痛点是「从 0 起稿慢、改稿靠来回截图说不清、生成式工具容易风格跑偏」。Stitch 要解决的是「如何在一个 AI 画布里快速出稿、反复 vibe、还不丢设计系统」。

核心功能与差异化优势：

多模态生成 + 语音控制：在同一画布里用文字、语音、参考截图甚至代码生成 UI，AI 设计代理能「看见」你在操作什么，并用对话方式实时给改稿建议。
上下文感知设计代理 + Agent 管理：代理能理解整个项目历史和画布上下文，支持「给我再来 3 个菜单版本」「采访我再帮我出一版」的工作流，并用 Agent Manager 管理多个探索分支。
内置 DESIGN.md 设计系统：每套设计自动抽出一个 DESIGN.md，明确颜色、组件、间距和交互规则，不仅保证同一项目内视觉一致，还能把这个文件丢进代码侧，让 LLM 按同一设计系统去实现前端。

在用户体验上，它更像一个「坐在你旁边的 AI 首席设计师」：你用文字或语音说 vibe 和需求，它一边在无限画布上出高保真界面，一边帮你守住设计系统，从头脑风暴到能交给工程的稿子都在一处完成。

参考链接：

https://blog.google/innovation-and-ai/models-and-research/google-labs/stitch-ai-ui-design

( @Z Potentials)

3、支持眼动追踪，仅 47 克，全彩显示 AI 眼镜 Maverick AI 即将开售

一款名为 Maverick AI 的全彩智能眼镜，即将于 3 月 31 日在 Kickstarter 上开启众筹。这款产品由以色列公司 Everysight 推出，截至目前已累计收获 2000 多位关注者；该产品也曾在 2026 年 1 月在拉斯维加斯举行的 CES 国际消费电子展亮相过。

全彩显示的智能眼镜，应用场景更为丰富，UI 界面也更加复杂，对交互方式要求更高。今天介绍的 Maverick Pro 版本全彩显示智能眼镜，则选择采用眼动追踪作为其交互方式（Maverick 普通版本则不支持眼动追踪）。

Maverick 的 GazeIntent 眼动追踪系统可以追踪用户细微的眼球运动，并将其转化为眼镜上的输入信号用于交互。

如下图展示的，是用眼动追踪系统控制指针，查看不同时段的股价。

另外，眼动追踪还可以用于自动抓取视线聚焦的内容方便 AI 进行识别和解读，而不用对于视野内所有信息进行无差别识别，从而降低算力损耗。

产品支持丰富的应用场景，用户可以通过 AI 询问天气、查询股票或者进行对话，相应的回答会显示在眼镜画面的右侧。

产品预装了一系列自研的应用，支持导航、实时翻译、AI 识物购物、场景理解、运动（骑行、高尔夫、跑步）数据显示等应用场景。

( @XR Vision)

4、农业科技公司 Halter 估值升至 20 亿美元：Cowgorithm 智能项圈算法实现定义虚拟围栏

新西兰农业科技公司 Halter 近期完成新一轮融资，由 Peter Thiel 旗下的 Founders Fund 领投，投前估值由一年前的 10 亿美元翻倍至 20 亿美元。该公司核心产品为基于「Cowgorithm」算法的智能项圈，通过高频传感器数据监测与多级反馈调控，将物理牧场管理转变为软件定义的自动化流程，目前已覆盖全球超过 60 万头奶牛。

项圈与高频多模态传感器融合，内置传感器以每分钟 >1000 个数据点的频率采集位置、运动轨迹、反刍行为、发情周期及健康指标，实现对单头牲畜生理状态的亚秒级实时监控。采用「声音提示 - 振动控制 - 低能量电脉冲」的三级反馈逻辑。牧场主通过 App 划定虚拟边界，算法根据 GPS 坐标自动触发反馈，约 10 天训练周期即可实现无人值守的自动化轮牧。

根据实际应用数据显示，该系统每管理 400 头奶牛可节省 1 个全职人力（FTE）。在美国市场，Halter 已部署超过 11,000 英里的虚拟围栏，累计为牧场主节省约 2.2 亿美元的物理围栏建设与维护开支。

该产品采用订阅制 SaaS 模式，单头牛月费 5–8 美元，基站安装费约 4,500 美元。相较于传统一次性硬件销售，该模式通过积累 60 万头牛的行为数据库构建模型壁垒，提高用户迁移成本。

（@新智元）

03 有态度的观点

1、王兴兴：具身智能「GPT 时刻」大概还需两到三年

据央视新闻报道，宇树科技创始人兼 CEO 王兴兴昨天亮相 2026 中国网络媒体论坛，以《当机器人刷屏》为题发表演讲，就人形机器人的运动能力与具身智能的发展前景作出多项预测。

王兴兴表示，下月在北京亦庄举行的人形机器人半程马拉松比赛中，多家公司的机器人将「跑得比人快」，半马成绩有望跑进 1 小时以内。

此前，宇树科技已在去年 8 月举办的 2025 世界人形机器人运动会上斩获 1500 米、400 米、4 × 100 米接力及 100 米障碍赛多项冠军，其中 1500 米成绩已进入 6 分钟区间。

在行业前景方面，王兴兴谈到具身智能的「ChatGPT 时刻」：将一台机器人带入陌生场景，通过语音指令，机器人能完成 80% 至 90% 的任务。

他认为，这一拐点大约还需两到三年才能到来，但他也提到，一位从美国硅谷回国的朋友对此持更乐观的态度，认为 18 个月内即可实现。王兴兴同时强调，「今年或明年一定会有非常大的技术进步在等待着大家」。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示：个人观点，仅供参考