Mondo Robotics 推出全地形相机机器人 Beni;AudioHijack:通过人耳无法察觉音频劫持语音智能体丨日报


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。



本期编辑:@koki、@鲍勃



01 有话题的技术

1、Kwai-Keye 发布 Keye-VL-2.0-30B-A3B 多模态模型

快手 Kwai-Keye 团队发布了 300 亿 参数级别的旗舰多模态基础模型 Keye-VL-2.0-30B-A3B,并在 Hugging Face 与 GitHub 上完全开源。


该模型是首个在生产环境中落地 DSA(DeepSeek Sparse Attention) 的视觉语言模型,能够在保持计算效率的同时,对长达一小时的视频进行精准理解


并在 256K 超长上下文中实现近乎无损的推理。官方数据显示,在同级别模型中,其长视频理解能力表现最佳,并在多项精细时序感知基准上媲美或超越 Gemini 3 Flash 等顶级闭源模型。


作为 Keye 系列的首个 Agent-Ready 基础模型,它内置了系统级的编排机制,原生支持 Search、Tool 和 Code 场景。


图片


https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B


https://github.com/Kwai-Keye/Keye


(@橘鸦 Juya)



2、OpenMOSS 团队发布 MOSS-TTS-v1.5 与音效生成模型 MOSS-SoundEffect-v2.0

图片


OpenMOSS 团队发布了新一代语音合成模型 MOSS-TTS-v1.5 及文本到音效模型 MOSS-SoundEffect-v2.0。


MOSS-TTS-v1.5 保留了零样本克隆等基础能力,将多语种支持扩展至 31 种,在指定语言标签时合成质量高于前代,同时改进了长参考音频短文本克隆与标点韵律跟随,并支持内联标记控制停顿。


音效模型 MOSS-SoundEffect-v2.0 拥有 13 亿 参数,采用 DiT 架构与 Flow Matching 目标,支持根据中英文文本生成长达 30 秒 的 48 kHz 高保真音效。


两款模型均已在 Hugging Face 开源并提供推理代码。


https://huggingface.co/OpenMOSS-Team/MOSS-TTS-v1.5


https://huggingface.co/OpenMOSS-Team/MOSS-SoundEffect-v2.0


(@橘鸦 Juya)



3、AudioHijack:通过人耳无法察觉音频劫持语音智能体

图片


浙江大学研究团队开发了一种名为「AudioHijack」的对抗性音频攻击技术,专门针对具备工具调用能力的大语音语言模型(LALM)。该技术通过在音频中嵌入人耳无法察觉的微观波形调整,使攻击者能够无需修改用户输入的指令,即可跨上下文劫持智能体(Agent)执行恶意工具调用、泄露数据或下载外源文件


  • 79%~96% 的跨模型攻击成功率:在对 13 款主流开源模型及共享相似架构的微软(Microsoft)、Mistral 商业语音服务的测试中,该攻击的平均成功率达 79%~96%。攻击信号的训练仅需 30 分钟,且具备上下文无关特性(Context-agnostic),一次训练即可重复用于不同场景。

  • 突破离散 Token 化的近似梯度优化:生成式 LALM 将连续音频离散化为 Token 表征,这导致传统依赖细粒度反馈的对抗优化算法因反馈粗粒度化而失效。研究团队开发了一种模拟高精度反馈的方法,成功在 Token 化架构下实现了对原始音频波形的微调。

  • 注意力机制劫持(Attention Hijacking):该攻击在优化循环中引入了注意力权重评估指标,通过调整波形强制模型的注意力机制(Attention Mechanism)偏向对抗性音频,从而压制并覆盖用户正常的文本或语音指令。

  • 自然混响伪装技术:不同于以往通过添加背景噪声来构造对抗样本的方法,AudioHijack 将波形修改伪装成自然的室内混响(Reverberation),在维持极高攻击成功率的同时,使人类听觉完全无法察觉

  • 常规语义安全防御失效:测试表明,向 LALM 提供对抗样本示例仅使攻击成功率降低 7%;允许模型进行自我反思(Self-reflection)也仅能拦截 28% 的攻击。目前唯一有效的防御手段是监控模型内部的注意力权重分配


论文地址:https://arxiv.org/abs/2604.14604


(@IEEE Spectrum)



02 有亮点的产品


1、XREAL 发布首款子品牌 AR 眼镜 xbx a01:整机重 62g,搭载双层 Micro OLED 与 1600nits 峰值亮度,售价 1699 元起

图片


AR 硬件厂商 XREAL 推出全新子品牌 xbx 及首款入门级 AR 眼镜 xbx a01,旨在通过低定价策略下沉年轻用户及入门级消费市场。该产品通过结构与材料重构将整机重量控制在 62g,并搭载双层 Micro OLED 方案以实现 1600nits 峰值亮度。在 XREAL 启动港股 IPO 进程的背景下,此举完成了其从入门级到高端空间计算领域的完整价格带布局。


  • 惊鸿掠影光学引擎 5.0:显示屏采用国内供应链厂商视涯(SeeYA)提供的双层 Micro OLED 方案,并引入 Pixelworks 独立画质增强芯片,支持 10.7 亿色显示、HDR10 以及 AI SDR 转 HDR 技术。

  • 物理减重与减薄设计:通过重构转轴、镜腿尾部并优化器件堆叠,整机重量压缩至 62g(相当于一个网球重量),镜片厚度降至 0.5mm。

  • 1600nits 亮度与 14 档调节:提供最高 1600nits 峰值亮度显示,支持 14 档亮度调节及可调视角功能,用以平衡户外强光及室内不同环境下的画面可视性与舒适度。

  • 超清空间防抖与定向音频:内置超清空间防抖算法,可在乘车等颠簸场景下实时补偿画面晃动以降低视觉眩晕;音频方面,官方称其通过算法优化,实现声音定向传输,使音频更集中传递至佩戴者耳部,同时减少漏音问题


图片


  • 适配 Android XR 的 Project Aura 规划年内出货:XREAL 透露其基于谷歌 Android XR 生态打造的 Project Aura 眼镜预计在 2026 年年内正式出货,旨在通过谷歌平台推动 AR 行业系统与交互生态的整合。


(@智东西)



2、Mondo Robotics 推出全地形相机机器人 Beni:支持 17.9 mph 极速、10 英寸自主越障与 4K 随动拍摄


硬件初创公司 Mondo Robotics 宣布即将推出其首款全地形相机机器人 Beni。该设备结合了可跨越 10 英寸障碍的高机动性底盘与智能随动算法,旨在为宠物拍摄、户外运动以及家庭场景提供低角度、自主跟踪的 4K 视频摄制方案。


  • 高动力全地形底盘与快拆轮系:最高行驶时速达 17.9 mph(约 28.8 km/h),具备最高 10 英寸(约 25.4 cm)的越障(跳跃)能力;提供快拆式双套轮系,分为静音轻量化的室内轮与高抓地力的厚胎纹户外越野轮。

  • 多帧率 4K 相机与自主运镜追踪:搭载影像系统,支持 4K@30fps、3K@60fps 及 1080p@100fps 视频录制;内置自主追踪算法,支持后随、侧随、轨道环绕等电影级运镜拍摄,并具备自动识别高光片段并剪辑(Auto-Editing)的功能。

  • 双模无线连接与 3.86 磅轻量化机身:整机重量 3.86 磅(1.75 kg),尺寸为 8.5×7.1×7.1 英寸;支持 Wi-Fi 6 与 Bluetooth 5.4 协议,内置 32GB 存储并预留 microSD 卡槽。

  • 免手机运动控制器与可更换电池:配备专用 Motion Controller(运动控制器),无需连接智能手机即可实现手动遥控、越障及拍照触发;整机采用可拆卸电池设计,单块电池续航约为 1.5 小时,支持双座充电坞。


(@mondorobotics)



3、极米控股 AI 眼镜品牌 MemoMind 获 6000 万元融资,披露双目 MicroLED 与 28.9g 单目产品线

图片


极米科技控股子公司、AI 眼镜品牌 MemoMind(运营主体为深圳市青睐创新智能技术有限公司)拟增资扩股,引入中金新兴基金等投资者合计 6000 万元资金。本轮融资设立了对赌条款,要求公司在 2034 年 12 月 31 日前完成合格上市,否则需按年化 6% 利率回购股份。该笔资金将用于加速其主动式 AI 系统及 MicroLED 光学眼镜的研发


  • 10 年期上市对赌与 6% 回购利率:本次 6000 万元融资协议规定,若深圳青睐未能在 2034 年 12 月 31 日前完成合格上市,投资方有权要求其以投资本金为基础、计入年化 6% 单利的价格回购全部或部分股权。

  • 旗舰款 MemoMind One:采用 MicroLED 结合光波导的双目显示方案,搭载主动式 AI 系统,主打非侵入式任务承接。

  • 超轻款 Memo Air Display:采用 MicroLED 单目显示方案,整机重量降至 28.9 克,针对高频轻度信息提示场景设计。

  • 无显示 AI 语音音频眼镜:产品线第三款机型,去除显示模组,纯粹依赖语音进行智能体交互,以降低功耗并减轻整机重量。


(@AING 硬迹)





03 有态度的观点


1、黄仁勋:AI 时代学什么不重要,讲故事、创造力才重要

图片


英伟达 CEO 黄仁勋近日在英国 Channel 4 播出的访谈中谈到 AI 时代的教育选择。他认为,今天最值得培养的是讲故事、创造力和判断力而不是提前押注某一个具体学科


无论你选择什么作为自己的热情所在,你唯一需要做的,就是问自己:人工智能如何能够提升我的学习、我的技艺、我的使命?


黄仁勋表示,过去人们很容易建议孩子学习物理、工程或计算机科学;但在 AI 可快速补足工具能力后,单一专业选择不再是唯一答案。


他的核心判断是,讲故事、创造力和判断力会继续保有价值。AI 可以像导师和教练一样帮助学生进入不同领域,学习者仍要提出好问题、组织信息、评估结果,并把复杂内容讲清楚。


黄仁勋把 AI 工具视为扩大教育反馈的方式:学生无论学习艺术、科学还是工程,都可以借助 AI 获得更快练习和解释。他没有替学生指定专业,而是把「如何用 AI 放大自己的判断」作为新的学习框架


(@APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考


注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Mondo Robotics 推出全地形相机机器人 Beni;AudioHijack:通过人耳无法察觉音频劫持语音智能体丨日报RTRTE_Dev_Comm