Android 系统将预装语音输入法丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、微软 Dynamics 365 推出「基于同意的录音」功能，强化客服合规与隐私保护

微软近日宣布，在 Dynamics 365 Contact Center 与 Microsoft Copilot Studio 中推出全新的「基于同意的录音」（Consent-Based Recording）功能。该功能旨在帮助全球企业在利用 AI 提升客户体验的同时，更轻松地应对日益严格的国际通话录音法律法规。

该功能允许组织通过 AI 语音代理在对话初期自动征求客户的录音许可，并将该决策贯穿于整个交互生命周期：

若客户同意系统将自动开启录音和转录，且当通话转接至人工客服（CSR）时，客服工作区中的录音控制按钮保持可用。
若客户拒绝： 通话将不被录制或转录。最关键的是，当通话转接至人工客服时，系统会自动禁用其录音/暂停控制功能，从系统层面杜绝违规录音的可能性。

其简化了在不同法律区域（如要求明确授权的国家）的运营流程，确保录音行为严格遵守客户意愿。并通过系统强制执行，消除了依赖人工检查或判断的风险，有效防止误操作导致的合规违约。客户的同意状态会随通话流转自动传递，人工客服无需重复询问，提升了客户体验的连贯性。

( @Microsoft.blog)

2、Inworld 发布统一网关 Realtime Router：动态实时调度 100 多个主流 LLM

Inworld 推出 Realtime 语音产品套件的新组件——Realtime Router。该工具作为一个统一端点，允许开发者根据用户特征、成本、延迟等元数据实时调度 100 多个主流 LLM，旨在优化 Conversational AI 管道的性能与支出。

CEL 表达式驱动的上下文感知路由：支持通过 Common Expression Language （CEL）对传入的元数据（如语言、国家、账户等级、用户情绪、会话深度）进行实时评估，实现动态模型匹配。
故障转移（Failover）与速率限制保护：内置自动容灾机制，当特定模型宕机或触发 Rate Limit 时，请求将自动重定向至备选模型，确保业务连续性。
低成本集成与 0% 加价：预览期间不收取中间件费用（0% Markup），预览结束后支持开发者「自带密钥（BYOK）」接入。代码侧仅需修改 OpenAI/Anthropic SDK 的 base_url 即可完成迁移。
原生 A/B 测试与粘性分配：支持在生产流量中进行模型性能测试，具备「粘性用户分配」功能，确保同一用户在不同会话中获得一致的模型体验，并实时监控 TTFT 和 CSAT 指标。
单次调用的文本-语音融合：通过在 Chat Completion 请求中添加 audio 参数，Realtime Router 可将选定 LLM 的输出直接管道化传输至 Inworld TTS-2，在单次响应中实现流式文本与音频的同步返回。

试用链接：

https://tinyurl.com/realtimerouter

( @inworld_ai@X)

3、Resemble AI 开源 DramaBox：基于 DiT 架构的指令驱动型语音引擎，支持 48kHz 高保真采样与原生水印

Resemble AI 推出开源语音引擎 DramaBox，旨在解决传统 TTS 缺乏表现力控制的问题。该模型通过特定 Prompt 结构实现对情感、停顿、呼吸等副语言特征的精确指令引导，将语音合成从「文本转语音」提升为「剧本表演」。

基于 DiT 的架构实现：DramaBox 是 LTX-2.3（Lightricks 开源视频 DiT 的音频分支）的 IC-LoRA 微调版本，将扩散转换器架构应用于语音生成，支持从文本描述直接生成特定音色。
结构化指令控制逻辑：采用「剧本式」Prompt 机制，双引号内为字面台词，双引号外为性能指令（如：sighs， pauses， voice cracking），模型仅执行指令而不读出指令词，解决副语言提示词被误读的痛点。
48 kHz 高保真输出与推理性能：支持 48 kHz 立体声输出。在温启动的 H100 服务器（峰值显存 24GB）上生成延迟约 2.5s；在冷启动 Gemma 环境（峰值显存 8GB）下约 30s。
原生 PerTh 神经水印：所有输出默认嵌入 PerTh 水印，在经历 MP3/AAC 有损压缩或常规编辑后，检测准确率仍接近 100%，确保生成内容的可追溯性。
零样本音色克隆与定制：支持通过 10 秒以上参考音频进行音色克隆（Timbre Cloning）；若无参考音频，模型可根据文本描述（年龄、口音、寄存器等）自主构建音色。

试用链接：

https://www.resemble.ai/learn/models/dramabox

( @resemble.ai)

02 有亮点的产品

1、心忆科技发布「康康」陪伴机器人：自研 BSLA 四层心理模型，端侧隐私加密，首发价 6999 元

心忆科技正式发布面向老年人及儿童市场的 AI 情感陪伴机器人「心忆·康康」。该产品通过自研 BSLA 心理模型实现多模态情感计算与主动交互，凭借中国供应链优势将同类产品成本压缩至海外竞品的 1/9，试图填补 C 端高频陪伴机器人的市场空白。

自研 BSLA 心理模型架构：模型由 Behavior（行为监测，如久坐识别）、Sentiment（微表情/语气情绪感知）、Language（方言及语义理解）和 Action（主动反馈）四层能力组成，支持长期记忆与家庭成员习惯学习。
融合导航与感知硬件方案：配备激光雷达（LiDAR）与视觉导航系统，支持室内自动建图与回充；底盘宽度 25cm；搭载 6 麦克风阵列（5 米拾音）及 1080p 隐蔽式 RGB 摄像头。
端侧脱敏与联邦学习机制：所有对话及健康数据仅在本地加密芯片存储处理；模型更新时仅上传加密梯度，原始影像与语音数据不出设备，确保隐私安全性。
「AI + 真人管家」闭环服务：AI 承担 90% 日常交互及用药提醒，真人管家介入 10% 高风险场景（如跌倒检测、危险关键词触发），提供 7×24 小时远程安抚与紧急救助介入。
阶梯化配置与订阅模式：提供悦享版（64GB/3-5h 续航）与守护版（128GB/5-7h 续航/红外夜视）；采取「硬件+订阅制」模式，次年起月费为 199 元至 399 元不等。

（@新智独角兽）

2、前清华创协副主席、韶音工程师创业拿下千万级融资，首款产品：AI 运动头带

北京脑回录科技有限公司（Nanoloop）宣布完成由南山战新投领投的千万级种子+轮融资。公司核心产品为 Nuromova N1 脑机接口智能运动头带，旨在通过 AI + BCI 技术实现真实运动场景下的脑电数据监测，为运动员提供实时心智状态反馈与疲劳管理建议。

非侵入式前额脑电采集：基于多传感数据融合方案，实现在高频、动态的运动场景下稳定采集前额 EEG（脑电图）信号，解决传统 BCI 设备对运动伪迹敏感、难以在真实训练中部署的痛点。
运动状态感知系统（AI 大脑）：采用 AI 模型将复杂的脑电信号转化为可解释的运动状态指标，覆盖心智准备度、心理负荷及恢复分数等传统运动穿戴设备（如心率表）无法监测的维度。
AI Coach 闭环反馈：系统集成 AI Coach 模块，通过 App 将底层神经信号转化为面向个人运动者和教练的训练线索，支持赛前状态调优与长期训练复盘。
真实运动场景脑电数据库：本轮资金将专项用于构建真实运动场景下的脑电资产库，用于迭代信号处理算法与运动科学模型的系统级协同。

（@AING 硬迹）

3、MIT 团队新装置艺术：用 12 个 labubu 的头缝制球形怪物机器人

MIT 团队用 12 个 labubu 缝制而成了一个球形机器人 labububot，它是一个被刻意设计成「怪物」的机器人，意在致敬「弗兰肯斯坦」。

团队认为：目前大部分社交机器人都在努力让人舒服、信任、放松，但 labububot 的存在不是为了安抚你，而是要让你产生矛盾的情绪，那种可爱又吓人的困惑感，就是它存在的全部意义。

（@in 机器人）

4、谷歌发布系统级预装级语音输入法 Gboard Rambler：基于 Gemini 实现语义级中途纠错与跨语言切换

谷歌在 Android Show: I/O Edition 2026 上推出了集成于 Gboard 的 AI 语音输入功能 Rambler。该功能基于 Gemini 多语言模型，实现了对口头填充词的自动过滤、实时语义纠错以及无缝的跨语言切换，旨在通过系统级预装优势直接竞争 Wispr Flow 等第三方 AI 语音输入智能体。

Gemini 多语言模型驱动的语码转换（Code Switching）： Rambler 支持在单句对话中实时切换语种（如从英语切换至印地语），模型可在不丢失上下文的情况下完成精准转录，解决了多数西方语音应用对多语言混合输入支持不足的问题。
实时语义修正与填充词过滤： 自动识别并剔除「um」、「ah」等口头禅；具备语义理解能力，可处理中途更正逻辑（例如语音输入「周三 3 点……哦不，2 点」，系统将自动输出修正后的最终时间）。
端云协同处理架构： 采用端侧（On-device）与云端结合的混合处理模式，以平衡响应延迟与长文本处理精度。谷歌强调该功能不存储语音录音，仅利用音频进行实时转录。
系统级全局分发优势： 作为 Gboard 的内置功能，Rambler 无需额外下载或通过辅助功能权限接入，可在所有 Android 应用程序中调用，对初创公司的第三方单体应用形成分发压制。

(@TechCrunch)

03 有态度的观点

1、李彦宏提出「日活智能体数（DAA）」概念：未来全球 DAA 可能超过 100 亿

在 Create2026 百度 AI 开发者大会上，百度创始人李彦宏提出 AI 时代的新「度量衡」—— DAA（Daily Active Agents，日活智能体数），并预测未来全球 DAA 可能超过 100 亿。

李彦宏认为，Token 衡量的是投入与成本，并不代表产出与收益，不一定代表终局；而 DAA 大致对应移动互联网时代通用的 DAU（日活用户数）。

衡量一个平台和生态的繁荣，更应该看的是 DAA 这个指标，关注有多少 Agent 在给人类干活，并交付结果。这比无谓的 Token 消耗，更接近价值，也更接近本质。

李彦宏判断，智能体出圈代表着 AI 的发展正从模型阶段走向应用阶段，「第一次，AI 的主角不是模型，而是应用」。他将 Chatbot 与 Agent 视为两类入口：

以 ChatGPT 为代表的 Chatbot 主要解决「信息获取」问题，而 Agent 解决的是「任务完成」问题，任务越复杂、价值越高，Agent 的价值天花板高于 Chatbot。

(@APPSO)

阅读更多 Voice Agent 学习笔记：了解最懂 AI 语音的头脑都在思考什么

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考