独立开发者郭宇发布电话智能体服务：支持双向实时翻译和智能体接入；谷歌发布语音听写应用：端侧模型+Gmail 词库同步丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、ElevenLabs Scribe v2 升级，新增实体脱敏及关键词提示扩容

ElevenLabs 对其语音转文本模型 Scribe v2 进行了架构级功能更新，引入了原生 PII 实体脱敏和非逐字稿模式。此次升级重点解决了多语言混合转录的规范性问题，并大幅放宽了领域专用术语的引导限制。

内置 PII 实体脱敏（Entity Redaction）： 支持在转录流中自动识别姓名、信用卡号、社保号等敏感信息。提供三种处理模式：全量脱敏（[REDACTED]）、分类脱敏（[CREDIT_CARD]）及编号分类脱敏（[CREDIT_CARD_1]），确保敏感数据不进入下游存储系统。
印欧语系语料混合转录（Code-switching）优化： 针对印地语、泰卢固语、卡纳达语等语言与英语混用的场景，模型可自动识别并将英文部分保持为拉丁字符输出，无需预设语言代码或手动配置。
新增「非逐字稿」（No Verbatim）模式： 该模式可在转录过程中自动剔除语气词（如「um」、「uh」）、重复词和口吃内容，直接输出标准化的书面文本，减少后期处理开销。
关键术语提示（Keyterm Prompting）上限提升至 1000 个： 单词转录支持的专业词汇或品牌名数量从 100 提升至 1000 个，适配医疗、法律等高密度垂直行业术语需求。

参考链接：

https://elevenlabs.io/blog/scribe-v2-just-got-an-upgrade

(@elevenlabs)

2、OpenBMB 发布 VoxCPM 2：采用扩散-自回归混合架构，支持 48kHz 高采样率与 30+ 语言

开源 TTS 模型 VoxCPM 2 正式发布，由 V1（零样本克隆）到 V1.5（长文本+微调）。该版本引入 Diffusion-Autoregressive 混合架构，支持 48kHz 高保真音频合成与 30 余种语言，实现了基于文本描述的零样本（zero-shot）语音风格设计。

扩散-自回归（Diffusion-Autoregressive）混合架构：不同于 Qwen3-TTS 等纯 Token 序列模型，该架构通过扩散模型补偿声学细节，在语音克隆时能更完整地保留情感特征与环境音色。
48kHz 采样率原生输出：支持录音室级高保真音频合成，解决了传统 TTS 模型在高频段细节丢失的问题，提升了声音的厚度与真实感。
基于 Prompt 的语音设计（Infinite Voice Design）：支持通过文本描述直接定义音色风格（如 whisper 细语、booming cinematic 电影感），实现对生成音频表现力的细粒度控制。
多语言统一建模：在单一模型内集成 30+ 语言支持，具备全球语种的 zero-shot 克隆能力，无需针对特定语种切换模型。

GitHub 链接：

https://github.com/OpenBMB/VoxCPM/

( @OpenBMB)

02 有亮点的产品

1、Google 发布语音听写应用 AI Edge Eloquent：基于 Gemma 的端侧离线语音转文字

Google 在 iOS 平台推出实验性听写应用 Google AI Edge Eloquent。该应用采用 Gemma 模型实现端侧 ASR（自动语音识别），支持全离线运行，具备自动过滤口头禅、语境修饰及 Gmail 词库同步功能。

Gemma 端侧 ASR 模型：应用核心语音识别能力基于 Gemma 模型构建，支持模型包下载后实现 100% 离线运行，降低转录延迟并提升隐私安全性。
混合处理架构（Cloud Mode）：提供可选的云端模式，开启后利用云端 Gemini 模型对原始转录文本进行深度润色与重构，处理复杂语义逻辑。
语义级自动编辑：实时识别并自动滤除「um」、「ah」等无意义填充词，并支持对转录结果进行一键转换（如提取要点、转为正式文体、长短缩写等）。
个性化词库同步：支持从用户的 Gmail 账户导入特定关键词、人名和专业术语，并允许用户手动添加自定义词条以提升特定场景下的识别准确率。
系统级集成：虽然目前仅限 iOS，但官方文档确认 Android 版本将支持设为「系统默认键盘」以及类似 Wispr Flow 的浮动按钮，实现跨应用的全局语音录入。

( @TechCrunch)

2、独立开发者郭宇发布电话 Agent 服务 tuwa.ai：支持多语种双向实时翻译和外部智能体接入

独立开发者郭宇推出 AI 电话网络服务 tuwa。该服务在传统公共交换电话网络（PSTN）之上封装了 AI 语音翻译与智能体接管能力，使得用户无需安装任何应用，即可与全球任意固话或手机实现跨语言双向语音通话。

0.3s 延迟与动态语种切换：系统提供低至 0.3s 的实时双向语音翻译延迟，支持 100 多种语言，并允许用户在通话过程中随时切换源语言或目标语言。
零客户端依赖的 PSTN 接入：主叫方通过拨打统一免费热线（如 +1 888 886 2968）并语音报出目标号码即可发起呼叫，被叫方通过标准电话网络接听，无需任何软硬件适配。
外接智能体接管通话：提供 Web 接口支持接入外部智能体（如 openclaw、codex / claude code），允许开发者配置专属智能体执行自主呼入与外呼任务（如自动完成餐厅预订），并提供通话内容的完整记录与翻译。
动态语音克隆：系统基于实时通话音频抓取特征，在跨语言翻译后保留主叫方的原始音色与语气，随通话次数增加持续优化拟合度（该功能限 Pro 与 Ultra 套餐）。

服务已正式上线，提供每月 5 分钟免绑卡免费额度，进阶功能依赖 Pro/Ultra 套餐及按量付费。

官网：https://tuwa.ai/

（@turingou@X）

3、原小米硬件高管徐睿将成为 Meta 新组建 AI 硬件团队负责人

原小米、字节跳动硬件业务高管徐睿，将成为 Meta 旗下的 MSL（超级智能实验室）新组建的 AI 硬件团队的负责人。

据了解，由 Alexandr Wang 领导的 MSL 将成立一个全新的 AI 硬件团队，徐睿将参与该新部门的组建和领导工作。

据悉，徐睿曾经在小米、字节跳动、英特尔、亚马逊、联想等互联网科技公司担任硬件业务专家和负责人。

2015 年 -2017 年期间，徐睿在小米工作，曾管理小米电视全球团队，负责分析全球智能电视和机顶盒市场，制定了小米电视全球产品路线图，是早期的小米电视/盒子团队的核心成员之一，全程经历了小米从单一手机厂商向米家/AIoT 生态链转型的关键阶段。

在加入 Meta 前，徐睿曾任硅谷人形机器人创业公司 K-Scale Labs 的 COO；2025 年底，K-Scale 因资金问题关闭。随后，徐睿加盟由自己的老同事、前小米副总裁 Hugo Barra 创办的 AI 硬件公司 Dreamer，并担任产品经理。今年 3 月，Dreamer 以「Acqui-hire」（人才收购）的方式被 Meta 收购。

（@极客公园）

4、九维声瞳发布智能音频眼镜 SparkRider：搭载 150° 旋转音腔与 aptX 编解码，实现 80% 抗风噪及 99% 漏音控制

新锐创业公司九维声瞳（Nine Dimension Acoustic Vision）发布专为运动骑行设计的智能音频眼镜 SparkRider。该产品通过定制旋转声学结构与高通音频芯片方案，解决了骑行高风噪环境下的音质损耗与通话质量问题。

150° 旋转音腔物理调节系统：采用 7 级可调节旋转结构以适配不同头型，确保出音口直接指向耳道，从物理结构层面减少声能损耗并提升佩戴舒适度。
定制超磁低音 Box 喇叭与降噪芯片：集成高通滤波及专业降噪芯片，配合 Box 结构喇叭，官方数据显示可实现 80% 抗风噪效果，漏音减少 99%，中低音频表现提升 100%。
支持高通 aptX 音频编解码：作为首款支持 aptX 协议的智能眼镜，利用其专有编解码技术提升蓝牙带宽下的传输质量，降低端到端延迟，解决传统 SBC 编码音质差、延迟高的问题。
跨地域实时语音对讲：集成多人实时对讲功能，突破传统蓝牙对讲的距离限制，支持不限距离的组队语音通讯。
多摄像头硬件架构演进：除已发布的音频版外，公司同步在研单摄、双摄及全球首创的三摄像头版本，目标锁定第一视角高清运动拍摄场景。

( @AI Vision)

03 有态度的观点

1、罗福莉谈 Anthropic 封杀「龙虾」：情有可原，OpenClaw 上下文管理「糟透了」

昨天，小米 MiMo 团队负责人罗福莉（@\_LuoFuli）在 X 发文，对 Anthropic 近日切断第三方工具框架（harness）对 Claude 订阅服务的访问权限一事进行评价。

据悉，此举直接影响了「龙虾」OpenClaw 等依赖 Claude 订阅接口的 AI 智能体开发工具。

罗福莉指出，Claude Code 的订阅机制本身是一套「经过精心设计的算力均衡分配系统」，但在第三方框架接入后，这套系统承受了远超预期的压力。

她以 OpenClaw 为例，详细说明了其上下文管理存在的严重缺陷：

在处理单个用户请求时，OpenClaw 会触发多轮低价值的工具调用，每次调用均携带超过 10 万 Token 的长上下文窗口，即便命中缓存也存在大量浪费，极端情况下还会拉高其他请求的缓存未命中率。实际请求次数是 Claude Code 原生框架的数倍，换算成 API 定价，真实成本可能是订阅价格的数十倍。

对于此次封禁措施，罗福莉认为短期阵痛反而是正向压力。第三方框架被迫转向 API 付费后，成本骤增数十倍的压力将倒逼开发者改善上下文管理、提升 prompt 缓存命中率、削减无效 Token 消耗，「痛苦最终会转化为工程纪律」。

她同时向其他大模型厂商发出警示，呼吁在尚未厘清编程订阅计划定价模型之前，不要盲目跟进价格战。

低价出售 Token 的同时对第三方框架大开门户，看似对用户友好，实则是个陷阱——Anthropic 刚刚从这个坑里爬出来。

她还指出，若用户长期使用低质量的 AI 智能体框架、不稳定的推理服务和为控制成本而降级的模型，最终仍无法完成实际任务，这对用户体验和留存都是恶性循环。

(@APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考