独立开发者郭宇发布电话智能体服务:支持双向实时翻译和智能体接入;谷歌发布语音听写应用:端侧模型+Gmail 词库同步丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、ElevenLabs Scribe v2 升级,新增实体脱敏及关键词提示扩容
ElevenLabs 对其语音转文本模型 Scribe v2 进行了架构级功能更新,引入了原生 PII 实体脱敏和非逐字稿模式。此次升级重点解决了多语言混合转录的规范性问题,并大幅放宽了领域专用术语的引导限制。
内置 PII 实体脱敏(Entity Redaction): 支持在转录流中自动识别姓名、信用卡号、社保号等敏感信息。提供三种处理模式:全量脱敏([REDACTED])、分类脱敏([CREDIT_CARD])及编号分类脱敏([CREDIT_CARD_1]),确保敏感数据不进入下游存储系统。
印欧语系语料混合转录(Code-switching)优化: 针对印地语、泰卢固语、卡纳达语等语言与英语混用的场景,模型可自动识别并将英文部分保持为拉丁字符输出,无需预设语言代码或手动配置。
新增「非逐字稿」(No Verbatim)模式: 该模式可在转录过程中自动剔除语气词(如 「um」、「uh」)、重复词和口吃内容,直接输出标准化的书面文本,减少后期处理开销。
关键术语提示(Keyterm Prompting)上限提升至 1000 个: 单词转录支持的专业词汇或品牌名数量从 100 提升至 1000 个,适配医疗、法律等高密度垂直行业术语需求。
参考链接:
https://elevenlabs.io/blog/scribe-v2-just-got-an-upgrade
(@elevenlabs)
2、OpenBMB 发布 VoxCPM 2:采用扩散-自回归混合架构,支持 48kHz 高采样率与 30+ 语言
开源 TTS 模型 VoxCPM 2 正式发布,由 V1(零样本克隆)到 V1.5(长文本+微调)。该版本引入 Diffusion-Autoregressive 混合架构,支持 48kHz 高保真音频合成与 30 余种语言,实现了基于文本描述的零样本(zero-shot)语音风格设计。
扩散-自回归(Diffusion-Autoregressive)混合架构:不同于 Qwen3-TTS 等纯 Token 序列模型,该架构通过扩散模型补偿声学细节,在语音克隆时能更完整地保留情感特征与环境音色。
48kHz 采样率原生输出:支持录音室级高保真音频合成,解决了传统 TTS 模型在高频段细节丢失的问题,提升了声音的厚度与真实感。
基于 Prompt 的语音设计(Infinite Voice Design):支持通过文本描述直接定义音色风格(如 whisper 细语、booming cinematic 电影感),实现对生成音频表现力的细粒度控制。
多语言统一建模:在单一模型内集成 30+ 语言支持,具备全球语种的 zero-shot 克隆能力,无需针对特定语种切换模型。
GitHub 链接:
https://github.com/OpenBMB/VoxCPM/
( @OpenBMB)
02 有亮点的产品
1、Google 发布语音听写应用 AI Edge Eloquent:基于 Gemma 的端侧离线语音转文字
Google 在 iOS 平台推出实验性听写应用 Google AI Edge Eloquent。该应用采用 Gemma 模型实现端侧 ASR(自动语音识别),支持全离线运行,具备自动过滤口头禅、语境修饰及 Gmail 词库同步功能。
Gemma 端侧 ASR 模型:应用核心语音识别能力基于 Gemma 模型构建,支持模型包下载后实现 100% 离线运行,降低转录延迟并提升隐私安全性。
混合处理架构(Cloud Mode):提供可选的云端模式,开启后利用云端 Gemini 模型对原始转录文本进行深度润色与重构,处理复杂语义逻辑。
语义级自动编辑:实时识别并自动滤除「um」、「ah」等无意义填充词,并支持对转录结果进行一键转换(如提取要点、转为正式文体、长短缩写等)。
个性化词库同步:支持从用户的 Gmail 账户导入特定关键词、人名和专业术语,并允许用户手动添加自定义词条以提升特定场景下的识别准确率。
系统级集成:虽然目前仅限 iOS,但官方文档确认 Android 版本将支持设为「系统默认键盘」以及类似 Wispr Flow 的浮动按钮,实现跨应用的全局语音录入。
( @TechCrunch)
2、独立开发者郭宇发布电话 Agent 服务 tuwa.ai:支持多语种双向实时翻译和外部智能体接入
独立开发者郭宇推出 AI 电话网络服务 tuwa。该服务在传统公共交换电话网络(PSTN)之上封装了 AI 语音翻译与智能体接管能力,使得用户无需安装任何应用,即可与全球任意固话或手机实现跨语言双向语音通话。
0.3s 延迟与动态语种切换:系统提供低至 0.3s 的实时双向语音翻译延迟,支持 100 多种语言,并允许用户在通话过程中随时切换源语言或目标语言。
零客户端依赖的 PSTN 接入:主叫方通过拨打统一免费热线(如 +1 888 886 2968)并语音报出目标号码即可发起呼叫,被叫方通过标准电话网络接听,无需任何软硬件适配。
外接智能体接管通话:提供 Web 接口支持接入外部智能体(如 openclaw、codex / claude code),允许开发者配置专属智能体执行自主呼入与外呼任务(如自动完成餐厅预订),并提供通话内容的完整记录与翻译。
动态语音克隆:系统基于实时通话音频抓取特征,在跨语言翻译后保留主叫方的原始音色与语气,随通话次数增加持续优化拟合度(该功能限 Pro 与 Ultra 套餐)。
服务已正式上线,提供每月 5 分钟免绑卡免费额度,进阶功能依赖 Pro/Ultra 套餐及按量付费。
官网:https://tuwa.ai/
(@turingou@X)
3、原小米硬件高管徐睿将成为 Meta 新组建 AI 硬件团队负责人
原小米、字节跳动硬件业务高管徐睿,将成为 Meta 旗下的 MSL(超级智能实验室) 新组建的 AI 硬件团队的负责人。
据了解,由 Alexandr Wang 领导的 MSL 将成立一个全新的 AI 硬件团队,徐睿将参与该新部门的组建和领导工作。
据悉,徐睿曾经在小米、字节跳动、英特尔、亚马逊、联想等互联网科技公司担任硬件业务专家和负责人。
2015 年 -2017 年期间,徐睿在小米工作,曾管理小米电视全球团队,负责分析全球智能电视和机顶盒市场,制定了小米电视全球产品路线图,是早期的小米电视/盒子团队的核心成员之一,全程经历了小米从单一手机厂商向米家/AIoT 生态链转型的关键阶段。
在加入 Meta 前,徐睿曾任硅谷人形机器人创业公司 K-Scale Labs 的 COO;2025 年底,K-Scale 因资金问题关闭。随后,徐睿加盟由自己的老同事、前小米副总裁 Hugo Barra 创办的 AI 硬件公司 Dreamer,并担任产品经理。今年 3 月,Dreamer 以「Acqui-hire」(人才收购) 的方式被 Meta 收购。
(@极客公园)
4、九维声瞳发布智能音频眼镜 SparkRider:搭载 150° 旋转音腔与 aptX 编解码,实现 80% 抗风噪及 99% 漏音控制
新锐创业公司九维声瞳(Nine Dimension Acoustic Vision)发布专为运动骑行设计的智能音频眼镜 SparkRider。该产品通过定制旋转声学结构与高通音频芯片方案,解决了骑行高风噪环境下的音质损耗与通话质量问题。
150° 旋转音腔物理调节系统:采用 7 级可调节旋转结构以适配不同头型,确保出音口直接指向耳道,从物理结构层面减少声能损耗并提升佩戴舒适度。
定制超磁低音 Box 喇叭与降噪芯片:集成高通滤波及专业降噪芯片,配合 Box 结构喇叭,官方数据显示可实现 80% 抗风噪效果,漏音减少 99%,中低音频表现提升 100%。
支持高通 aptX 音频编解码:作为首款支持 aptX 协议的智能眼镜,利用其专有编解码技术提升蓝牙带宽下的传输质量,降低端到端延迟,解决传统 SBC 编码音质差、延迟高的问题。
跨地域实时语音对讲:集成多人实时对讲功能,突破传统蓝牙对讲的距离限制,支持不限距离的组队语音通讯。
多摄像头硬件架构演进:除已发布的音频版外,公司同步在研单摄、双摄及全球首创的三摄像头版本,目标锁定第一视角高清运动拍摄场景。
( @AI Vision)
03 有态度的观点
1、罗福莉谈 Anthropic 封杀「龙虾」:情有可原,OpenClaw 上下文管理「糟透了」
昨天,小米 MiMo 团队负责人罗福莉(@\_LuoFuli)在 X 发文,对 Anthropic 近日切断第三方工具框架(harness)对 Claude 订阅服务的访问权限一事进行评价。
据悉,此举直接影响了「龙虾」OpenClaw 等依赖 Claude 订阅接口的 AI 智能体开发工具。
罗福莉指出,Claude Code 的订阅机制本身是一套「经过精心设计的算力均衡分配系统」,但在第三方框架接入后,这套系统承受了远超预期的压力。
她以 OpenClaw 为例,详细说明了其上下文管理存在的严重缺陷:
在处理单个用户请求时,OpenClaw 会触发多轮低价值的工具调用,每次调用均携带超过 10 万 Token 的长上下文窗口,即便命中缓存也存在大量浪费,极端情况下还会拉高其他请求的缓存未命中率。实际请求次数是 Claude Code 原生框架的数倍,换算成 API 定价,真实成本可能是订阅价格的数十倍。
对于此次封禁措施,罗福莉认为短期阵痛反而是正向压力。第三方框架被迫转向 API 付费后,成本骤增数十倍的压力将倒逼开发者改善上下文管理、提升 prompt 缓存命中率、削减无效 Token 消耗,「痛苦最终会转化为工程纪律」。
她同时向其他大模型厂商发出警示,呼吁在尚未厘清编程订阅计划定价模型之前,不要盲目跟进价格战。
低价出售 Token 的同时对第三方框架大开门户,看似对用户友好,实则是个陷阱——Anthropic 刚刚从这个坑里爬出来。
她还指出,若用户长期使用低质量的 AI 智能体框架、不稳定的推理服务和为控制成本而降级的模型,最终仍无法完成实际任务,这对用户体验和留存都是恶性循环。
(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考