字节版 NotebookLM 悄悄上线;乐鑫、涂鸦争相推出 AI 硬件交互方案;2025 AI 语音输入工具盘点丨日报

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、乐鑫携手 Bosch Sensortec(博世传感器)推出 AI 智能交互方案

乐鑫科技 (688018.SH) 宣布与 Bosch Sensortec(博世传感器)达成合作,共同推出基于动作感知与大模型能力的人机交互创新方案。


该方案旨在推动多模态感知与智能交互技术的深度融合,覆盖 AI 玩具、智能家居、运动健康、智慧办公等典型应用场景,实现从环境感知、行为理解到智能反馈的完整链路升级,为新一代智能终端提供更自然、更实时的交互体验。


在此次联合方案中,博世提供多类型高性能 MEMS 传感器及算法优化能力,用于精准获取微动作、姿态与环境变化等多维数据;乐鑫以双频 Wi-Fi 6 物联网芯片 ESP32-C5 作为核心主控,通过稳定的无线连接、实时的数据处理能力以及对 MCP 协议的原生支持,实现感知数据的本地解析与大模型联动,使系统在端侧具备即时理解与响应能力。


这一方案不仅融合了双方的核心技术能力,也在系统架构、数据链路与交互体验层面进行了深度协同。无论是动作识别、场景感知,还是智能响应,均经过体系化整合,使设备能够更准确地理解用户意图。同时,该方案提供标准化的软硬件基础能力,大幅降低开发与验证的复杂度,缩短创新产品的落地周期,助力开发者更高效地构建下一代智能应用。


(@乐鑫董办)


2、涂鸦智能发布 Hey Tuya:基于多设备协同的 AI 智能管家,全球响应延迟低于 86 毫秒

图片


涂鸦智能推出「超级 AI 助手」——Hey Tuya。它不再局限于手机 App,而是作为「物理 AI」的调度核心,通过接入各类智能硬件(智能体),实现跨设备、跨空间的自动服务与习惯学习。


  • 毫秒级实时交互: 依托全球边缘加速网络,Hey Tuya 实现了全球平均低于 86 毫秒的响应速度。支持「极速打断」,用户在 AI 说话时可随时插入新指令,交互体验接近真人。

  • 具备长期记忆能力: 区别于「聊完即忘」的普通 AI,该助手能学习用户的作息规律与环境偏好(如周五晚间自动调暗灯光)。通过长记忆技术,它能随使用时长增加而更精准地预测用户需求。

  • 从「对话」转向「执行」: 深度集成视觉与感知引擎。例如,通过摄像头自动识别食物热量、根据室内光线自动调整照明方案,或在监测到能耗异常时主动开关电器。

  • 全场景硬件覆盖: 智能体逻辑可原生运行于智能音箱、AI 玩具、中控屏、智能手表等硬件入口,打破了「必须打开 App」的操作限制。

  • 开发者快速接入: 提供模块化编排工具,厂商可以将语音、视觉、控制等功能像「搭积木」一样组合。最快可在 1 天内完成传统硬件到 AI 智能装备的升级。


该系统现已面向全球开发者与硬件厂商开放。厂商可根据自身产品形态(如家电、穿戴、骑行设备)集成对应的 AI 功能,现已支持 60 多种语言。


(@新智元)



3、腾讯混元开源 HY-MT1.5 翻译模型:1.8B 版仅需 1GB 内存,性能对标 Gemini-3.0-Pro

昨天下午,腾讯混元正式开源翻译模型 1.5 版本,发布 Tencent-HY-MT1.5-1.8B 和 7B 两个参数规模,涵盖 33 个语种及 5 种民汉/方言互译。该系列模型通过架构优化实现端云协同,其中 1.8B 版本在端侧表现出超越主流商用 API 的推理效率与翻译质量。


  • 端侧超低资源占用: 1.8B 模型支持量化部署,仅需 1GB 内存即可在手机等消费级设备实现离线实时翻译,适配 ARM、高通、Intel、沐曦等多种硬件平台。

  • 推理速度提升 2.2 倍: 在处理 50 tokens 的标准任务中,1.8B 模型平均耗时仅 0.18 秒,而主流商用翻译模型平均耗时约为 0.4 秒,显著降低了高吞吐场景的响应延迟。

  • On-Policy Distillation 蒸馏技术: 采用 7B 模型作为 Teacher 指导 1.8B Student 模型,通过纠正预测序列分布的偏移,使小模型能够从预测错误中学习,而非传统的「死记硬背」标准答案,大幅提升了小参数模型的泛化能力。

  • Flores-200 评分达闭源模型 90%: 在 WMT25 及中外互译测试中,1.8B 模型性能达到 Gemini-3.0-Pro 的 90 分位水平,并在质量评估中获得约 78% 的分数。

  • 原生支持复杂格式与术语控制: 模型具备自定义术语库(Terminology)导入能力,支持长对话上下文理解及带格式文本(如 HTML)翻译,有效解决了小模型常见的语种混杂及译文注释夹带问题。


模型已在 GitHub 及 HuggingFace 正式开源,支持 1.8B 与 7B 版本下载,腾讯混元官网已同步上线相关功能。


混元官网:

https://hunyuan.tencent.com/modelSquare/home/list


Github: 

https://github.com/Tencent-Hunyuan/HY-MT


HuggingFace: 

https://huggingface.co/collections/tencent/hy-mt15


(@腾讯混元)



4、阿里通义开源 MAI-UI 系列智能体:涵盖 2B-235B 四种规格,端云协同实现 33% 成功率增益

图片
图片


阿里通义实验室开源「MAI-UI」全套 GUI 智能体方案,包含从 2B 端侧小模型到 235B MoE 架构云端模型在内的四个版本。该系统通过引入 MCP(Model Context Protocol)工具调用和主动追问机制,解决了移动端 GUI 操作步骤冗余及指令模糊等痛点,并在多项行业 Benchmark 中刷新 SOTA 纪录。


  • 多尺度模型覆盖与 MoE 架构:发布 2B、32B、72B 及 235B(MAI-UI-235B-A22B)四个尺寸,满足从手机端侧部署到高性能云端推理的全场景需求。

  • 端云协同任务切换机制:系统内置监控模块,根据任务轨迹是否偏离意图及数据敏感度动态分配算力。实验数据显示,协同机制使 2B 模型的任务成功率提升 33%,并减少了 40% 以上的云端调用。

  • 原生集成 MCP 工具调用与主动交互:支持通过 MCP 协议直接调用外部 API(如高德、GitHub),绕过繁琐的 UI 界面操作;具备缺失信息检测能力,可在关键参数缺失时暂停并向用户索取反馈。

  • 强化学习与自演化管线:采用支持 500+ 并行环境、最长 50 步交互的在线强化学习框架,配合自演化数据管线生成交互与工具调用数据,提升了模型在动态、复杂 UI 环境下的鲁棒性。

  • 刷新多项 SOTA 指标:MAI-UI-235B 在 AndroidWorld 任务成功率达到 76.7%,超越 Gemini-1.5-Pro;MAI-UI-32B 在 ScreenSpot-Pro 上的元素定位准确率达 73.5%,优于 Gemini-1.0-Pro。


论文、代码及全系列模型权重已在 GitHub 开源,并提供详细的端云协作部署参考方案。


论文地址:

https://arxiv.org/abs/2512.22047


GitHub: 

https://github.com/Tongyi-MAI/MAI-UI


(@量子位)




02 有亮点的产品



1、2025 AI 听写工具技术盘点:本地化 LLM 推理、自定义 API 接入与开发流深度集成

2025 年 AI 听写领域完成从单纯「语音转文字 (STT)」向「LLM 语义重构」的技术转型。新一代工具通过本地部署、自定义 Prompt 引导以及对 IDE 的原生支持,解决了传统听写工具在专业术语识别及上下文格式化方面的瓶颈。


  • 本地化推理与隐私工程:以「Monologue」和「VoiceTypr」为代表的工具支持全本地模型运行,通过下载模型至客户端实现离线转录,从物理层面隔离敏感数据;「Willow」则通过 LLM 语义补全能力,支持从少量关键词生成长段落文本。

  • 模型异构支持与 API 接入:工具如「Superwhisper」允许用户根据精度需求切换模型,包括 Nvidia 的「Parakeet」语音识别模型;同时支持接入第三方云端或本地 AI API 密钥,解除 Token 使用上限。

  • 开发者工作流与「Vibe-coding」集成:针对编程场景,「Wispr Flow」实现了与「Cursor」等 IDE 的深度集成,支持语音识别代码变量、自动打标文件,并针对不同写作风格(正式/随意)提供预设的 Context 引导。

  • 低延迟与宏指令扩展:YC 孵化的「Aqua」重点优化了端到端延迟,并引入了基于短语触发的自动填充功能(如通过语音指令触发地址、代码片段填充),同时提供独立的「STT API」供开发者二次开发。

  • 开源生态与多平台兼容:开源项目「Handy」和「VoiceTypr」(提供 GitHub 仓库)补齐了跨平台短板,支持 Linux 系统及 99+ 种语言,采用一次性买断或完全免费模式挑战订阅制主流。


( @TechCrunch)



2、字节版 NotebookLM 悄悄上线,实测 AnyGen,不仅要终结对话框依赖,它甚至推倒了某些数据孤岛


字节跳动在海外上线 AI 生产力平台「AnyGen」,定位为集文档、智能体、演示文稿与数据分析于一体的协作空间。该产品通过前移输入入口至多模态记录,并强化输出端的「原生可编辑性」,旨在解决 AI 生成内容在办公场景中因格式崩坏、逻辑漂移导致的「高返工率」问题。


  • 多模态上下文聚合输入:支持长按录音实时转写,并允许同步投喂照片、网页链接、截图等碎片化素材,将非结构化信息统一转化为可加工的上下文环境。

  • 结构锁定与段落级局部迭代:采用「引导式提纲」生成逻辑,用户需先确认骨架再填充内容;支持段落与句子级别的局部重写(Local Rewrite),避免因全篇重生成导致的上下文逻辑冲突。

  • 原生 Slides 编辑器架构:输出结果非静态图片或 HTML 卡片,而是支持拖拽、对齐、网格调整的原生元素;支持上传 PPTX 模板并遵循主版式规范,图表对象支持直接修改数值。

  • 异步 Deep Research 与数据清洗:集成实时检索与 Agent 处理能力,可执行批量频道筛选、订阅数核对等复杂调研任务;生成的分析报告支持模块化拆解,规避了表格乱码及导出兼容性问题。


目前已在海外市场上线(anygen.io),提供文档、智能体、Slides、数据分析四大模块;支持 Google、Apple 及 Lark 账号登录。


( @Z Finance)





03 有态度的观点 



1、夸克揭晓 2025 十大搜索热词

图片


昨天,夸克发布了「2025 年度十大搜索热词」,通过对全年用户搜索关键词的脱敏加密数据进行统计分析,揭示了年轻用户在学习、生活、消费等多个维度的关注焦点。


入围的热词有「黄金」「救救」「入坑神作」「这道题」「热量」「小众旅行」「新年旺」「高清」「PPT」「一句话」,反映出用户在信息过载时代下的实用需求与情绪表达。


具体来看,「黄金」相关搜索频繁出现「黄金多少钱一克」「金价预测」等,体现出年轻人对资产保值的关注日益增强,倾向于「不求暴富,只求别跌」的稳健理财观。


「救救」则成为学习压力下的情绪出口,涵盖「四六级救命高频词」「期末急救题库」「开题方向救急」等高频场景。


内容消费方面,「入坑神作」「这道题」等热词显示出用户对优质内容与学习工具的强烈需求,搜索中频繁出现「爆款短剧」「深度解题」「英语真题范文」等关键词,夸克的悬浮窗搜题功能也因此受到青睐。


生活方式层面,「热量」「小众旅行」「高清」等热词揭示了用户对健康饮食、个性化出行与影像质量的关注。


「热量」相关搜索如「低脂食品」「这道菜多少卡」反映出用户对饮食控制的精细化管理;「小众旅行」则聚焦于「跨年烟花」「双人行程规划」等关键词,展现出逃离喧嚣、追求独特体验的趋势。


此外,「新年旺」「旺」等词汇则体现出用户对好运、财运、桃花等传统文化意象的持续热衷;而「PPT」「一句话」则折射出职场与学习场景中对效率工具与信息提炼能力的高度依赖。


夸克表示,通过年度热词的发布,夸克希望与用户共同回顾这一年在搜索中留下的痕迹,洞察时代情绪与趋势。


( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示:个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    分类
    关键词
    // 相关帖子
    Coming soon...
    • 0
    字节版 NotebookLM 悄悄上线;乐鑫、涂鸦争相推出 AI 硬件交互方案;2025 AI 语音输入工具盘点丨日报RTRTE_Dev_Comm