Android 系统将预装语音输入法丨日报

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@koki、@鲍勃


01 有话题的技术


1、微软 Dynamics 365 推出「基于同意的录音」功能,强化客服合规与隐私保护

图片


微软近日宣布,在 Dynamics 365 Contact Center 与 Microsoft Copilot Studio 中推出全新的「基于同意的录音」(Consent-Based Recording)功能。该功能旨在帮助全球企业在利用 AI 提升客户体验的同时,更轻松地应对日益严格的国际通话录音法律法规


该功能允许组织通过 AI 语音代理在对话初期自动征求客户的录音许可,并将该决策贯穿于整个交互生命周期:


  • 若客户同意系统将自动开启录音和转录,且当通话转接至人工客服(CSR)时,客服工作区中的录音控制按钮保持可用。

  • 若客户拒绝: 通话将不被录制或转录。最关键的是,当通话转接至人工客服时,系统会自动禁用其录音/暂停控制功能,从系统层面杜绝违规录音的可能性


其简化了在不同法律区域(如要求明确授权的国家)的运营流程,确保录音行为严格遵守客户意愿。并通过系统强制执行,消除了依赖人工检查或判断的风险,有效防止误操作导致的合规违约。客户的同意状态会随通话流转自动传递,人工客服无需重复询问,提升了客户体验的连贯性


( @Microsoft.blog)



2、Inworld 发布统一网关 Realtime Router:动态实时调度 100 多个主流 LLM

图片


Inworld 推出 Realtime 语音产品套件的新组件——Realtime Router。该工具作为一个统一端点,允许开发者根据用户特征、成本、延迟等元数据实时调度 100 多个主流 LLM,旨在优化 Conversational AI 管道的性能与支出。


  • CEL 表达式驱动的上下文感知路由:支持通过 Common Expression Language (CEL) 对传入的元数据(如语言、国家、账户等级、用户情绪、会话深度)进行实时评估,实现动态模型匹配。

  • 故障转移(Failover)与速率限制保护:内置自动容灾机制,当特定模型宕机或触发 Rate Limit 时,请求将自动重定向至备选模型,确保业务连续性。

  • 低成本集成与 0% 加价:预览期间不收取中间件费用(0% Markup),预览结束后支持开发者「自带密钥(BYOK)」接入。代码侧仅需修改 OpenAI/Anthropic SDK 的 base_url 即可完成迁移。

  • 原生 A/B 测试与粘性分配:支持在生产流量中进行模型性能测试,具备「粘性用户分配」功能,确保同一用户在不同会话中获得一致的模型体验,并实时监控 TTFT 和 CSAT 指标。

  • 单次调用的文本-语音融合:通过在 Chat Completion 请求中添加 audio 参数,Realtime Router 可将选定 LLM 的输出直接管道化传输至 Inworld TTS-2,在单次响应中实现流式文本与音频的同步返回。


试用链接:

https://tinyurl.com/realtimerouter


( @inworld_ai@X)



3、Resemble AI 开源 DramaBox:基于 DiT 架构的指令驱动型语音引擎,支持 48kHz 高保真采样与原生水印

Resemble AI 推出开源语音引擎 DramaBox,旨在解决传统 TTS 缺乏表现力控制的问题。该模型通过特定 Prompt 结构实现对情感、停顿、呼吸等副语言特征的精确指令引导,将语音合成从「文本转语音」提升为「剧本表演」


  • 基于 DiT 的架构实现:DramaBox 是 LTX-2.3(Lightricks 开源视频 DiT 的音频分支)的 IC-LoRA 微调版本,将扩散转换器架构应用于语音生成,支持从文本描述直接生成特定音色。

  • 结构化指令控制逻辑:采用「剧本式」Prompt 机制,双引号内为字面台词,双引号外为性能指令(如:sighs, pauses, voice cracking),模型仅执行指令而不读出指令词,解决副语言提示词被误读的痛点。

  • 48 kHz 高保真输出与推理性能:支持 48 kHz 立体声输出。在温启动的 H100 服务器(峰值显存 24GB)上生成延迟约 2.5s;在冷启动 Gemma 环境(峰值显存 8GB)下约 30s。

  • 原生 PerTh 神经水印:所有输出默认嵌入 PerTh 水印,在经历 MP3/AAC 有损压缩或常规编辑后,检测准确率仍接近 100%,确保生成内容的可追溯性

  • 零样本音色克隆与定制:支持通过 10 秒以上参考音频进行音色克隆(Timbre Cloning);若无参考音频,模型可根据文本描述(年龄、口音、寄存器等)自主构建音色。


试用链接:

https://www.resemble.ai/learn/models/dramabox


( @resemble.ai)



02 有亮点的产品


1、心忆科技发布「康康」陪伴机器人:自研 BSLA 四层心理模型,端侧隐私加密,首发价 6999 元

图片


图片


心忆科技正式发布面向老年人及儿童市场的 AI 情感陪伴机器人「心忆·康康」。该产品通过自研 BSLA 心理模型实现多模态情感计算与主动交互,凭借中国供应链优势将同类产品成本压缩至海外竞品的 1/9,试图填补 C 端高频陪伴机器人的市场空白。


  • 自研 BSLA 心理模型架构:模型由 Behavior(行为监测,如久坐识别)、Sentiment(微表情/语气情绪感知)、Language(方言及语义理解)和 Action(主动反馈)四层能力组成,支持长期记忆与家庭成员习惯学习。

  • 融合导航与感知硬件方案:配备激光雷达(LiDAR)与视觉导航系统,支持室内自动建图与回充;底盘宽度 25cm;搭载 6 麦克风阵列(5 米拾音)及 1080p 隐蔽式 RGB 摄像头。

  • 端侧脱敏与联邦学习机制:所有对话及健康数据仅在本地加密芯片存储处理;模型更新时仅上传加密梯度,原始影像与语音数据不出设备,确保隐私安全性。

  • 「AI + 真人管家」闭环服务:AI 承担 90% 日常交互及用药提醒,真人管家介入 10% 高风险场景(如跌倒检测、危险关键词触发),提供 7×24 小时远程安抚与紧急救助介入

  • 阶梯化配置与订阅模式:提供悦享版(64GB/3-5h 续航)与守护版(128GB/5-7h 续航/红外夜视);采取「硬件+订阅制」模式,次年起月费为 199 元至 399 元不等。


(@新智独角兽)



2、前清华创协副主席、韶音工程师创业拿下千万级融资,首款产品:AI 运动头带

图片


图片


北京脑回录科技有限公司(Nanoloop)宣布完成由南山战新投领投的千万级种子+轮融资。公司核心产品为 Nuromova N1 脑机接口智能运动头带,旨在通过 AI + BCI 技术实现真实运动场景下的脑电数据监测,为运动员提供实时心智状态反馈与疲劳管理建议


  • 非侵入式前额脑电采集:基于多传感数据融合方案,实现在高频、动态的运动场景下稳定采集前额 EEG(脑电图)信号,解决传统 BCI 设备对运动伪迹敏感、难以在真实训练中部署的痛点。

  • 运动状态感知系统(AI 大脑):采用 AI 模型将复杂的脑电信号转化为可解释的运动状态指标,覆盖心智准备度、心理负荷及恢复分数等传统运动穿戴设备(如心率表)无法监测的维度。

  • AI Coach 闭环反馈:系统集成 AI Coach 模块,通过 App 将底层神经信号转化为面向个人运动者和教练的训练线索,支持赛前状态调优与长期训练复盘。

  • 真实运动场景脑电数据库:本轮资金将专项用于构建真实运动场景下的脑电资产库,用于迭代信号处理算法与运动科学模型的系统级协同。


(@AING 硬迹)



3、MIT 团队新装置艺术:用 12 个 labubu 的头缝制球形怪物机器人

MIT 团队用 12 个 labubu 缝制而成了一个球形机器人 labububot,它是一个被刻意设计成「怪物」的机器人,意在致敬「弗兰肯斯坦」。


团队认为:目前大部分社交机器人都在努力让人舒服、信任、放松,但 labububot 的存在不是为了安抚你,而是要让你产生矛盾的情绪,那种可爱又吓人的困惑感,就是它存在的全部意义。


(@in 机器人)



4、谷歌发布系统级预装级语音输入法 Gboard Rambler:基于 Gemini 实现语义级中途纠错与跨语言切换

图片


谷歌在 Android Show: I/O Edition 2026 上推出了集成于 Gboard 的 AI 语音输入功能 Rambler。该功能基于 Gemini 多语言模型,实现了对口头填充词的自动过滤、实时语义纠错以及无缝的跨语言切换,旨在通过系统级预装优势直接竞争 Wispr Flow 等第三方 AI 语音输入智能体。


  • Gemini 多语言模型驱动的语码转换(Code Switching): Rambler 支持在单句对话中实时切换语种(如从英语切换至印地语),模型可在不丢失上下文的情况下完成精准转录,解决了多数西方语音应用对多语言混合输入支持不足的问题。

  • 实时语义修正与填充词过滤: 自动识别并剔除「um」、「ah」等口头禅;具备语义理解能力,可处理中途更正逻辑(例如语音输入「周三 3 点……哦不,2 点」,系统将自动输出修正后的最终时间)。

  • 端云协同处理架构: 采用端侧(On-device)与云端结合的混合处理模式,以平衡响应延迟与长文本处理精度。谷歌强调该功能不存储语音录音,仅利用音频进行实时转录。

  • 系统级全局分发优势: 作为 Gboard 的内置功能,Rambler 无需额外下载或通过辅助功能权限接入,可在所有 Android 应用程序中调用,对初创公司的第三方单体应用形成分发压制。


(@TechCrunch)



03 有态度的观点


1、李彦宏提出「日活智能体数 (DAA)」概念:未来全球 DAA 可能超过 100 亿

图片


在 Create2026 百度 AI 开发者大会上,百度创始人李彦宏提出 AI 时代的新「度量衡」—— DAA(Daily Active Agents,日活智能体数),并预测未来全球 DAA 可能超过 100 亿


李彦宏认为,Token 衡量的是投入与成本,并不代表产出与收益,不一定代表终局;而 DAA 大致对应移动互联网时代通用的 DAU(日活用户数)。


衡量一个平台和生态的繁荣,更应该看的是 DAA 这个指标,关注有多少 Agent 在给人类干活,并交付结果。这比无谓的 Token 消耗,更接近价值,也更接近本质。


李彦宏判断,智能体出圈代表着 AI 的发展正从模型阶段走向应用阶段,「第一次,AI 的主角不是模型,而是应用」。他将 Chatbot 与 Agent 视为两类入口:

以 ChatGPT 为代表的 Chatbot 主要解决「信息获取」问题,而 Agent 解决的是「任务完成」问题,任务越复杂、价值越高,Agent 的价值天花板高于 Chatbot。


(@APPSO)


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Android 系统将预装语音输入法丨日报RTRTE_Dev_Comm