Switch 健身环也能语音输入!Vibe Ring 让编程锻炼两不误
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Hand2World:基于 3D 手部结构与射线嵌入,实现首个闭环交互式第一人称世界模型
南洋理工大学(NTU)MMLab 团队发布 Hand2World,这是首个支持自由手势驱动的第一人称交互世界模型。该模型允许用户通过空中手势实时操控虚拟场景并生成连续视频,解决了传统世界模型在主动物理交互及相机运动解耦方面的技术瓶颈。
3D 手部结构化控制信号:放弃传统的 2D Mask 方案,采用 3D 手部 mesh(MANO 模型)渲染的「填充轮廓 + 线框叠层」复合信号。该设计实现了遮挡无关的条件输入,解决了推理时完整手势与训练时残缺手部(受物体遮挡)之间的分布错配。
Plücker 射线嵌入解耦相机运动:引入逐像素的 Plücker 射线(Plücker Ray Embedding)显式编码相机运动,通过轻量级 adapter 注入扩散模型。该技术将手部关节运动与头部自运动(ego-motion)彻底解耦,使 FVD 指标从 815 优化至 218,有效抑制背景漂移。
因果自回归蒸馏实现 8.9 FPS 交互:将双向扩散教师模型蒸馏为支持 KV cache 的因果自回归生成器。在 A100 平台上可实现 8.9 FPS 的流式输出,支持用户边看边调的闭环持续交互。
全自动单目标注流水线:开发了一套无需多目相机或人工干预的自动化标注系统,可直接从普通单目视频中提取 3D 手部位姿与相机轨迹。相比 PlayerOne 等依赖同步采集的方案,显著提升了具身智能训练数据的可扩展性。
多项 SOTA 性能指标:在 ARCTIC、HOT3D、HOI4D 三个标准数据集上均取得最优结果。在 ARCTIC 测试中,相机轨迹误差降低 42%,深度一致性(Depth-ERR)从 22.51 降至 16.14。
(@新智元)
2、Snap 联合高通研发新款 Spectacles:搭载 Snapdragon XR 平台,支持端侧 AI 交互
Snap 旗下 AR 硬件子公司 Specs 与高通(Qualcomm)达成多年战略合作伙伴关系,确定下一代 Spectacles 智能眼镜将采用 Snapdragon XR 芯片平台。此次合作旨在通过底层算力升级,在今年年内推出具备端侧 AI 处理能力的消费级可穿戴设备。
Snapdragon XR 平台架构集成:新款 Spectacles 将搭载高通专为 AR/VR 设备设计的 Snapdragon XR 系列片上系统(SoC),用于处理高复杂的空间计算与图形渲染任务。
端侧 AI(On-device AI)处理能力:双方合作重点在于实现人工智能在硬件本体的实时运行,以降低交互延迟,并增强在离线状态下的多模态感知与语义理解能力。
高级多人数字体验支持:利用高通的通信与计算协同技术,开发支持多名用户在同一物理空间内实时交互的增强现实应用。
从开发者生态向消费端过渡:自 2024 年转向「仅限开发者」策略后,Specs 计划通过此次硬件升级,将积攒的开发者插件与应用库正式推向消费市场。
( @TechCrunch)
02 有亮点的产品
1、Mizzen Insight 完成近千万美元天使轮+融资,4 个月从 0 到 300+客户
AI 用户研究平台 Mizzen Insight 已完成天使+轮融资,融资金额近千万美元,由红杉中国种子基金领投,达晨创投、嘉程资本跟投,种子轮老股东 Creekstone 继续加码。本轮融资将主要用于模型能力优化、产品迭代及市场拓展。
全链路 Agent 自动化闭环:系统支持从输入调研目标开始,自动生成访谈提纲、筛选受访者、实时主持访谈并输出可视化结构化报告,实现调研全流程脱离人工干预。
语义级实时动态追问:访谈模型具备深度语义理解能力,能基于受访者的实时回答进行动态逻辑追问,而非执行固定脚本,模拟专业研究员的深访交互。
大规模定性研究吞吐量:上线 4 个月累计完成访谈逾 1 万小时,参与人数近 2 万人,验证了 AI 在高频、大规模并发访谈场景下的可扩展性。
基于人类偏好建模的技术栈:创始人孙克强博士背景涵盖清华及港中文 MMLab,专注人机交互与人类偏好建模,相关技术 Benchmark 此前已被 Google、DeepMind 等机构采纳。
( @Z Potentials)
2、AI 潮玩品牌 MOMOTOY 获数千万元融资:自研五大 AI 技术体系,支持端云协同与本地化数据处理
AI 潮玩品牌 MOMOTOY 完成数千万元融资(投后估值 2.5 亿元),由翼朴基金投资。该公司将 AI 技术与高奢材质(如 999 足金)引入潮玩硬件,试图通过自研情感计算模型实现从静态摆件向具身智能终端的转型。
五大 AI 核心技术体系: 构建以记忆分级、动态情绪、心理分析、端云协同、深度情感理解为核心的技术栈。支持双向对话、多语种实时交流及声音克隆,能够根据用户交互历史实现渐进式记忆增长。
端云协同与隐私安全架构: 建立个人数据空间,支持信息分级管理。关键交互数据直连本地智能体(agent),无需强制上传云端,通过端侧加密保护用户隐私。
全场景智能联动能力: 软件接口已打通车载系统与智能家居系统,实现「人-车-家」全生态场景的智能体接入,使潮玩具备跨终端的交互连续性。
(@36 氪未来消费)
03 Real-Time AI Demo
1、Vibe Ring 实现 Switch 健身环语音输入:挤压健身环 = 长按 Fn
来自 X 上的开发者 @wong2__:
沉迷 Vibe Coding 却疏于锻炼?快来试试 Vibe Ring!
把落灰的 Switch 健身环和 Mac 按键映射:
1. 挤压健身环 = 长按 Fn 语音输入
2. 向外拉健身环 = 回车发送
GitHub 链接:
https://github.com/wong2/vibe-ring/blob/main/README_CN.md
04 有态度的观点
1、别只敲键盘了!吴恩达最新研判:语音 AI 正引爆下一场交互革命
近日,人工智能先驱吴恩达(Andrew Ng)撰文指出,大众严重低估了语音用户界面(Voice UI)即将带来的颠覆性影响。他预言,语音交互将成为继「鼠标点击」和「屏幕触控」之后的下一次重大 UI 变革。
回顾科技史,每一次交互方式的跃迁都会催生出庞大的全新应用生态。吴恩达强调,读写是需要系统学习的技能,而「听和说」则是人类与生俱来的本能。由于开发者群体普遍具备较高的读写能力,人们很容易忽视「打字操作」对许多普通用户而言仍是一种摩擦力。随着语音识别准确率的飙升,语音 UI 将彻底打破这一门槛,让科幻电影中「对着计算机直接下达指令」的愿景成为现实。
过去,语音 AI 常常面临一个死结:要低延迟(反应快)就容易显得「智商低」,要高智能(经过大模型深思熟虑)就必然带来高延迟。对此,吴恩达分享了目前行业前沿的解法——「双智能体自定义架构」。即通过前台智能体(Foreground Agent)与用户保持低延迟的实时语音拉扯,同时让后台智能体(Background Agent)默默处理复杂的逻辑推理、工具调用和安全护栏。这种协同作战,完美兼顾了沟通的流畅度与 AI 的聪明才智。
吴恩达明确表示,语音并不会消灭键盘和鼠标,而是最强力的补充。纯语音交互存在局限,但「视觉+语音」的多模态结合将带来颠覆性体验。系统可以在听取用户指令的同时,实时动态更新屏幕上的画面和动画,形成视觉与听觉的双重闭环。
如今,构建语音 UI 的门槛已大幅降低。吴恩达透露,借助 AI 编程工具,他仅用不到一小时就为一款普通的数学应用加上了语音交互层。在全球范围内,真正下场开发语音应用的开发者仍是凤毛麟角。
正如吴恩达在信末的呼吁:这片蕴含着巨大创新的处女地已经敞开。在这个 AI 爆发的时代,是时候给你的应用装上「声带」,让它和世界真正对话了!
(@Deeplearning AI)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考