Mondo Robotics 推出全地形相机机器人 Beni；AudioHijack：通过人耳无法察觉音频劫持语音智能体丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Kwai-Keye 发布 Keye-VL-2.0-30B-A3B 多模态模型

快手 Kwai-Keye 团队发布了 300 亿 参数级别的旗舰多模态基础模型 Keye-VL-2.0-30B-A3B，并在 Hugging Face 与 GitHub 上完全开源。

该模型是首个在生产环境中落地 DSA（DeepSeek Sparse Attention）的视觉语言模型，能够在保持计算效率的同时，对长达一小时的视频进行精准理解。

并在 256K 超长上下文中实现近乎无损的推理。官方数据显示，在同级别模型中，其长视频理解能力表现最佳，并在多项精细时序感知基准上媲美或超越 Gemini 3 Flash 等顶级闭源模型。

作为 Keye 系列的首个 Agent-Ready 基础模型，它内置了系统级的编排机制，原生支持 Search、Tool 和 Code 场景。

https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B

https://github.com/Kwai-Keye/Keye

（@橘鸦 Juya）

2、OpenMOSS 团队发布 MOSS-TTS-v1.5 与音效生成模型 MOSS-SoundEffect-v2.0

OpenMOSS 团队发布了新一代语音合成模型 MOSS-TTS-v1.5 及文本到音效模型 MOSS-SoundEffect-v2.0。

MOSS-TTS-v1.5 保留了零样本克隆等基础能力，将多语种支持扩展至 31 种，在指定语言标签时合成质量高于前代，同时改进了长参考音频短文本克隆与标点韵律跟随，并支持内联标记控制停顿。

音效模型 MOSS-SoundEffect-v2.0 拥有 13 亿 参数，采用 DiT 架构与 Flow Matching 目标，支持根据中英文文本生成长达 30 秒 的 48 kHz 高保真音效。

两款模型均已在 Hugging Face 开源并提供推理代码。

https://huggingface.co/OpenMOSS-Team/MOSS-TTS-v1.5

https://huggingface.co/OpenMOSS-Team/MOSS-SoundEffect-v2.0

（@橘鸦 Juya）

3、AudioHijack：通过人耳无法察觉音频劫持语音智能体

浙江大学研究团队开发了一种名为「AudioHijack」的对抗性音频攻击技术，专门针对具备工具调用能力的大语音语言模型（LALM）。该技术通过在音频中嵌入人耳无法察觉的微观波形调整，使攻击者能够无需修改用户输入的指令，即可跨上下文劫持智能体（Agent）执行恶意工具调用、泄露数据或下载外源文件。

79%～96% 的跨模型攻击成功率：在对 13 款主流开源模型及共享相似架构的微软（Microsoft）、Mistral 商业语音服务的测试中，该攻击的平均成功率达 79%～96%。攻击信号的训练仅需 30 分钟，且具备上下文无关特性（Context-agnostic），一次训练即可重复用于不同场景。
突破离散 Token 化的近似梯度优化：生成式 LALM 将连续音频离散化为 Token 表征，这导致传统依赖细粒度反馈的对抗优化算法因反馈粗粒度化而失效。研究团队开发了一种模拟高精度反馈的方法，成功在 Token 化架构下实现了对原始音频波形的微调。
注意力机制劫持（Attention Hijacking）：该攻击在优化循环中引入了注意力权重评估指标，通过调整波形强制模型的注意力机制（Attention Mechanism）偏向对抗性音频，从而压制并覆盖用户正常的文本或语音指令。
自然混响伪装技术：不同于以往通过添加背景噪声来构造对抗样本的方法，AudioHijack 将波形修改伪装成自然的室内混响（Reverberation），在维持极高攻击成功率的同时，使人类听觉完全无法察觉。
常规语义安全防御失效：测试表明，向 LALM 提供对抗样本示例仅使攻击成功率降低 7%；允许模型进行自我反思（Self-reflection）也仅能拦截 28% 的攻击。目前唯一有效的防御手段是监控模型内部的注意力权重分配。

论文地址：https://arxiv.org/abs/2604.14604

(@IEEE Spectrum)

02 有亮点的产品

1、XREAL 发布首款子品牌 AR 眼镜 xbx a01：整机重 62g，搭载双层 Micro OLED 与 1600nits 峰值亮度，售价 1699 元起

AR 硬件厂商 XREAL 推出全新子品牌 xbx 及首款入门级 AR 眼镜 xbx a01，旨在通过低定价策略下沉年轻用户及入门级消费市场。该产品通过结构与材料重构将整机重量控制在 62g，并搭载双层 Micro OLED 方案以实现 1600nits 峰值亮度。在 XREAL 启动港股 IPO 进程的背景下，此举完成了其从入门级到高端空间计算领域的完整价格带布局。

惊鸿掠影光学引擎 5.0：显示屏采用国内供应链厂商视涯（SeeYA）提供的双层 Micro OLED 方案，并引入 Pixelworks 独立画质增强芯片，支持 10.7 亿色显示、HDR10 以及 AI SDR 转 HDR 技术。
物理减重与减薄设计：通过重构转轴、镜腿尾部并优化器件堆叠，整机重量压缩至 62g（相当于一个网球重量），镜片厚度降至 0.5mm。
1600nits 亮度与 14 档调节：提供最高 1600nits 峰值亮度显示，支持 14 档亮度调节及可调视角功能，用以平衡户外强光及室内不同环境下的画面可视性与舒适度。
超清空间防抖与定向音频：内置超清空间防抖算法，可在乘车等颠簸场景下实时补偿画面晃动以降低视觉眩晕；音频方面，官方称其通过算法优化，实现声音定向传输，使音频更集中传递至佩戴者耳部，同时减少漏音问题。

适配 Android XR 的 Project Aura 规划年内出货：XREAL 透露其基于谷歌 Android XR 生态打造的 Project Aura 眼镜预计在 2026 年年内正式出货，旨在通过谷歌平台推动 AR 行业系统与交互生态的整合。

（@智东西）

2、Mondo Robotics 推出全地形相机机器人 Beni：支持 17.9 mph 极速、10 英寸自主越障与 4K 随动拍摄

硬件初创公司 Mondo Robotics 宣布即将推出其首款全地形相机机器人 Beni。该设备结合了可跨越 10 英寸障碍的高机动性底盘与智能随动算法，旨在为宠物拍摄、户外运动以及家庭场景提供低角度、自主跟踪的 4K 视频摄制方案。

高动力全地形底盘与快拆轮系：最高行驶时速达 17.9 mph（约 28.8 km/h），具备最高 10 英寸（约 25.4 cm）的越障（跳跃）能力；提供快拆式双套轮系，分为静音轻量化的室内轮与高抓地力的厚胎纹户外越野轮。
多帧率 4K 相机与自主运镜追踪：搭载影像系统，支持 4K@30fps、3K@60fps 及 1080p@100fps 视频录制；内置自主追踪算法，支持后随、侧随、轨道环绕等电影级运镜拍摄，并具备自动识别高光片段并剪辑（Auto-Editing）的功能。
双模无线连接与 3.86 磅轻量化机身：整机重量 3.86 磅（1.75 kg），尺寸为 8.5×7.1×7.1 英寸；支持 Wi-Fi 6 与 Bluetooth 5.4 协议，内置 32GB 存储并预留 microSD 卡槽。
免手机运动控制器与可更换电池：配备专用 Motion Controller（运动控制器），无需连接智能手机即可实现手动遥控、越障及拍照触发；整机采用可拆卸电池设计，单块电池续航约为 1.5 小时，支持双座充电坞。

(@mondorobotics)

3、极米控股 AI 眼镜品牌 MemoMind 获 6000 万元融资，披露双目 MicroLED 与 28.9g 单目产品线

极米科技控股子公司、AI 眼镜品牌 MemoMind（运营主体为深圳市青睐创新智能技术有限公司）拟增资扩股，引入中金新兴基金等投资者合计 6000 万元资金。本轮融资设立了对赌条款，要求公司在 2034 年 12 月 31 日前完成合格上市，否则需按年化 6% 利率回购股份。该笔资金将用于加速其主动式 AI 系统及 MicroLED 光学眼镜的研发。

10 年期上市对赌与 6% 回购利率：本次 6000 万元融资协议规定，若深圳青睐未能在 2034 年 12 月 31 日前完成合格上市，投资方有权要求其以投资本金为基础、计入年化 6% 单利的价格回购全部或部分股权。
旗舰款 MemoMind One：采用 MicroLED 结合光波导的双目显示方案，搭载主动式 AI 系统，主打非侵入式任务承接。
超轻款 Memo Air Display：采用 MicroLED 单目显示方案，整机重量降至 28.9 克，针对高频轻度信息提示场景设计。
无显示 AI 语音音频眼镜：产品线第三款机型，去除显示模组，纯粹依赖语音进行智能体交互，以降低功耗并减轻整机重量。

（@AING 硬迹）

03 有态度的观点

1、黄仁勋：AI 时代学什么不重要，讲故事、创造力才重要

英伟达 CEO 黄仁勋近日在英国 Channel 4 播出的访谈中谈到 AI 时代的教育选择。他认为，今天最值得培养的是讲故事、创造力和判断力，而不是提前押注某一个具体学科。

无论你选择什么作为自己的热情所在，你唯一需要做的，就是问自己：人工智能如何能够提升我的学习、我的技艺、我的使命？

黄仁勋表示，过去人们很容易建议孩子学习物理、工程或计算机科学；但在 AI 可快速补足工具能力后，单一专业选择不再是唯一答案。

他的核心判断是，讲故事、创造力和判断力会继续保有价值。AI 可以像导师和教练一样帮助学生进入不同领域，学习者仍要提出好问题、组织信息、评估结果，并把复杂内容讲清楚。

黄仁勋把 AI 工具视为扩大教育反馈的方式：学生无论学习艺术、科学还是工程，都可以借助 AI 获得更快练习和解释。他没有替学生指定专业，而是把「如何用 AI 放大自己的判断」作为新的学习框架。

(@APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考