a16z:「全量记录」时代已来,语音重塑企业记录系统丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Kyutai 推出全双工语音模型后训练对齐方法:引入 GRPO 优化四大交互维度,Moshi 轮替成功率提升至 95.8%
法国 AI 实验室 Kyutai 针对全双工(Full-Duplex)语音模型在实时交互中存在的静音、抢话及缺乏反馈(Backchanneling)等问题,提出了一种基于 GRPO(Group Relative Policy Optimization)的后训练(Post-training)对齐方法。该方法通过引入特定维度的奖励函数与 LLM 裁判,在保留语义质量的同时,显著改善了 Moshi 和 PersonaPlex 模型的实时对话自然度。
解决 Token 级损失对序列级行为的建模局限性:传统监督学习采用 Token 级损失(如预测每 80ms 的音频块)难以学习非确定性时机的序列级行为(如反馈词的随机插入),导致模型倾向于在用户说话时保持沉默;本研究首次将强化学习引入全双工语音模型的后训练阶段以解决该瓶颈。
基于四大交互维度的 GRPO 联合优化:利用语音活动检测(VAD)从 4,000 小时的人类对话语料 Seamless Interaction 中自动提取停顿处理(Pause handling)、轮替(Turn-taking)、反馈(Backchanneling)和用户打断(User interruption)数据,利用 GRPO 算法针对各维度专属奖励函数进行优化。
集成 LLM Judge 语义保护机制:为解决单维度交互优化导致模型回复语义质量退化的问题,训练流程中引入了基于 LLM Judge 的生成文本语义评估分数作为奖励分值,实现交互性能与语义质量的协同提升。
动静态多维度基准指标全面改善:在静态评估 Full-Duplex-Bench v1 中,Moshi 轮替成功率(TOR)由 73.9% 提升至 95.8%,打断后回复的 GPT-4o 评分由 3.44 提升至 3.63;在 Full-Duplex-Bench v2 动态实时对话中,PersonaPlex 轮替流畅度评分(由 Gemini 2.5 Flash 评估,总分 5 分)由 3.68 提升至 4.42。
(@kyutai)
2、Gradium 升级 TTS 模型:针对电话场景优化 8kHz 音频,法语及英文复杂发音准确率超越 ElevenLabs
语音 AI 厂商 Gradium 宣布升级其底层 Gradium TTS 模型,专门解决生产级语音智能体(Voice Agent)在电话交互中遭遇的边缘 case 发音失败问题。新模型在不改变 API 接入方式的前提下,大幅提升了字母拼读、缩写展开、电话号码及邮箱等复杂文本的发音准确率。由于目标应用主要为电话智能体,该模型输出的音频采样率统一为 8 kHz。
高难发音多语种提升:新模型针对拼写、缩写、数字、符号等维度进行了优化。其中,西班牙语常用表达(邮箱、电话、验证码等)准确率提升 11.1 个百分点;法语拼写与缩写准确率提升 8.5 个百分点;德语数字与符号准确率提升 4.2 个百分点。
英文发音指标:在英文测试中,新模型邮箱地址读法准确率达到 97% 居行业首位;时间表达式处理准确率达 86%,大幅领先 ElevenLabs 两个测试版本(51%–61%)。
法语硬核场景测试:在原生发言人评测的法语复杂发音(含邮箱、电话、序数、缩写)综合测试中,Gradium TTS 准确率达到 63.2%,位列行业第一(Cartesia Sonic 3.5 为 59.1%,ElevenLabs Multilingual v2 为 43.4%)。其中,法语序数和电话号码准确率分别达到 95% 和 93%;法语邮箱准确率达 62%,为第二名竞品的两倍以上。
API 无缝替代:新模型已成为 Gradium TTS API 的默认配置。原有用户的既有集成配置、已创建声音及自定义克隆声音(Custom Voices)均自动迁移至新模型,无需进行接口重构或重新克隆声音。
(@gradium.ai)
02 有亮点的产品
1、字节豆包手机硬件负责人林夕离职
据多方信源确认,字节跳动 AI 硬件团队 Ocean 核心成员、豆包手机硬件产品负责人林夕已于近期离职。这是字节自 2024 年启动 AI 手机项目以来,首位出走的核心硬件负责人。
根据 Linkedin 信息,林夕此前长期任职于华为终端,是 Pura X 阔折叠手机硬件产品负责人。2025 年 3 月,华为发布全球首款阔折叠手机 Pura X,其 16:10 的"阔型屏"比例、玄武水滴铰链与复合超韧叠层结构等硬件设计,背后均有林夕所在团队的深度参与。
根据公开信息,Pura X 的市场表现远超外界预期。首销 48 小时预定量突破 120 万台,首周激活量接近 10 万台,上市 21 天激活量约 22 万台,日均销量破万。截至 2025 年底,Pura X 累计销量突破 110 万台,上市一年出货量更是突破 150 万台,单款产品超过其后三位厂商旗舰折叠机型总和。
华为借此在中国折叠屏市场份额突破 71.8%。一位接近华为供应链的人士评价,Pura X 在折叠屏可靠性上的突破,"那批硬件工程师功不可没"。
2026 年,随着字节 AI 手机项目加速,林夕从华为转入字节 Ocean 团队,直接向 Kayden(刘成城)汇报。Kayden 是字节 AI 硬件团队 Ocean 的负责人,前 36 氪创始人,2022 年随其创办的鲸鲮科技被字节收购后进入公司,目前向 Flow 负责人朱骏汇报。在字节内部,Flow 团队与抖音团队平级,Ocean 作为 Flow 下属的硬件团队,承担着字节"AI+硬件"战略的核心落地任务。
豆包手机由中兴担任 ODM,首批以努比亚 M153 工程机的形式亮相,主打"豆包手机助手"的系统级 AI 能力——支持跨应用操作、屏幕感知与全局记忆。字节将此视为终端 AI 布局的"三位一体"——将大模型能力、超级 App 与硬件终端结合。
(@Z Finance)
2、Google 搜索服务将默认保存 Lens 图片与语音交互用于 AI 训练
据官方帮助文档,Google 正在逐步推出新的搜索服务隐私设置,将用户的 Lens 图片、语音搜索及 Translate 音频等交互媒体纳入「Search Services History」进行保存并用于模型训练,用户可手动关闭此功能。
Google 正在更新其搜索服务的隐私设置,引入「Search Services History」和「Personalized Recommendations」两项新控制选项,并在未来几个月内逐步推出。
官方称,新的历史记录设置将扩展保存范围,涵盖 Google Lens 拍摄的图片、Search Live 录音以及 Translate 语音交互等媒体文件。
这些数据将被用于提供个性化体验及训练生成式 AI 模型。
用户可通过账号设置随时关闭历史记录或单独禁用「Save Media」选项。
原有的 Web & App Activity 偏好设置将被自动迁移。
(@橘鸦 Juya)
3、韩国查获首例 AI 智能眼镜考试作弊案
据新华社、韩联社等报道,韩国 TOEIC 考试主办方近期首次确认考生利用 AI 智能眼镜作弊。两名考生分别在 5 月 10 日和 5 月 31 日举行的 TOEIC 考试中被认定违规,成绩已被取消,并被禁止未来四年参加 TOEIC 考试。
考试机构称,监考人员在考试开始后不久发现考生行为异常,并注意到其佩戴眼镜疑似具备智能功能。为避免影响其他考生,监考人员没有立即中断考试,而是在考试结束后通过复核程序确认作弊事实。
韩国 TOEIC 委员会已开始对监考人员进行专项培训,重点识别 AI 智能眼镜和其他新型电子设备,并加强考场电子设备管理、身份核验和考后数据分析。韩国教育部也在研究针对今年 11 月大学修学能力考试的更明确管理措施,可能把 AI 智能眼镜单独列入禁带物品清单。
( @APPSO)
03 有态度的观点
1、a16z 合伙人:职场「全量记录」时代已来,语音将重塑企业核心记录系统
a16z 合伙人最近发文表示:「全量记录」时代已来。
万物皆已被记录,职场默认规则即将彻底翻转:AI 正在让所有工作讨论默认进入录音录像时代。尽管这引发了员工隐私的恐慌,但由于它能为基层员工提供自下而上的「生产力杠杆放大」,并为高管提供自上而下「防范对齐偏差」的全局掌控力,这种双重复利导致该趋势不可逆。未来的默认假设将从「不录音」变为「除非特殊指定,否则你说的每一句话都在被记录」。
训练 AI 的最佳方式不是喂文档,而是带它去开会:就像新员工无法仅靠死磕 Wiki 融入公司一样,AI 同样需要通过开会「耳濡目染」来吸收文化、预期管理和边缘案例的处理。OpenAI 目前已接近全量记录会议,并用 AI 顶替高级管理层列席。一个吞噬了公司两年内部对话的模型,其作为助理的效果远超只读过规章制度的机器,隐藏在对话中的「实时上下文」正是支撑 AI Agent 跨部门执行复杂任务的核心。
语音将取代文本,成为新一代企业级软件的兵家必争之地:过去企业的核心记录系统(System of Record)依赖结构化的 CRM、文档和工单,但最高价值的上下文其实消散在客户电话的微妙语气和评审会的激烈争论中。大语言模型最擅长将非结构化的语音转化为可搜索、可查询的资产。这使得 Shopify、OpenAI 等传统的「口头文化公司」得以打破知识随风而逝的瓶颈,首次实现上下文的「规模化复利」,催生出围绕语音展开的巨大企业级软件新赛道。
(@a16z.news)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考