微软升级 STT 模型 MAI-Transcribe-1.5：15 秒完成小时级音频转录丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、微软发布 STT 模型 MAI-Transcribe-1.5：15 秒完成小时级音频转录，WER 降低至 2.4%

Microsoft 发布多语言语音转文本（STT）模型 MAI-Transcribe-1.5，将支持语言扩展至 43 种。该模型通过优化推理架构，在长音频转录速度上达到竞品的 5 倍，并在保持 SOTA 级准确率的同时大幅降低了企业级部署成本。

推理效率实现 5 倍跨越：该模型可在 15 秒内完成 1 小时音频的转录。在处理长音频任务时，其吞吐性能是 Gemini 3.1、Scribe v2 及 GPT-4o-Transcribe 的 5 倍。
WER 降低至 2.4% 并登顶 FLEURS 榜单：在 FLEURS 多语言基准测试中，该模型在 43 种语言上的词错误率（WER）均处于行业领先地位；在 Artificial Analysis 综合评测中，其 WER 仅为 2.4%。
引入上下文感知的关键词偏置（Keyword Biasing）：支持用户输入特定领域的术语表（如专有人名、医学术语）。模型不再盲目强制匹配，而是结合上下文语义决定是否应用偏置，该功能使 FLEURS 测试中的 WER 进一步降低 30%。

So, um, for the next phase, Sean will, uh, take care of the documentation. Oif, right, uh, she’ll handle the user testing sessions. Societal is, um, leading the workflow design. Soren will, uh, set up the analytics, and Niamh is going to coordinate the deployment timeline.

针对噪声环境与 B 端集成优化：模型针对高背景噪声等现实生产场景进行了针对性训练。目前已完成对 Copilot、Teams、GitHub 及 Dynamics 365 的集成。
Foundry 平台最低部署成本：在 Foundry 云平台上，该模型被标记为目前所有超大规模服务商（Hyper-scaler）中成本最低、效率最高的转录方案。

参考链接：

https://microsoft.ai/news/mai-transcribe-1-5more-accurate-context-aware-and-built-for-production/

( @microsoft.ai)

2、微软发布 MAI-Voice-2：支持 15 国语言零样本语音克隆，单次参考音频仅需 5-60s

Microsoft 推出新一代文本转语音（TTS）模型 MAI-Voice-2，旨在提升商业级语音交互的自然度与情感表现力。该模型实现了从单语种到 15 种语言的原生支持，并显著增强了长文本场景下的说话者一致性，直接降低了企业构建定制化品牌语音的技术门槛与成本。

5-60 秒零样本语音克隆（Zero-shot Prompting）：开发者无需针对特定人声进行微调（Fine-tuning）或重训练，仅需 5 至 60 秒的参考音频即可在 Azure Foundry 中生成匹配说话者特征的高保真语音。
原生支持 15 种语言及跨语言混输（Code-switching）：覆盖中、英、韩、德、法等 15 种主要语言。针对印地语-英语、西班牙语-英语等特定组合优化了语种切换算法，支持句中流畅转译且不损失韵律自然度。

细粒度情感控制与「人机难辨」性能：引入 emotion tags（如尴尬、低语、兴奋等），支持开发者精确调节输出语气；在 2,222 份对比测试中，45.5% 的听众倾向于 AI 合成音，超过了人类录音 44% 的偏好度。
长文本说话者身份稳定性（Speaker Consistency）：针对有声书、播客和讲座等长篇幅音频，优化了身份特征在数小时输出过程中的一致性算法，解决了以往长文本生成易出现的音色漂移问题。
系统级许可强制机制：克隆功能在系统层实施严格管控，仅允许合成经过授权的许可语音。该功能不开放无限制克隆，开发者需提交申请并获得权限方可访问。

参考链接：

https://microsoft.ai/news/mai-voice-2expressive-speech-in-10-languages/

( @microsoft.ai)

02 有亮点的产品

1、OpenAI 现场演示无 APP 手机：所有界面实时生成，推理甩给云端 GPT

据媒体报道，在 OpenAI Voice Hack Night 活动上，一支团队现场展示了一款为手机打造的「Agentic 操作系统」原型。演示中的所有界面均为「即时生成」，无需调用任何传统 App。

其核心设计理念被概括为「UI 即系统」：手机上不再安装常规应用，界面由端侧本地模型实时生成（on the fly），重推理任务则交由云端 GPT 处理。开发者全程通过语音指令完成了一系列操作，包括预订机票、删除日历日程、查找 AI 新闻、发送邮件以及列出待办事项。

此前有消息称，OpenAI 正在加速推进其 AI 智能体手机项目，最新计划是在 2027 年上半年实现量产，这一时间表比外界普遍预期更早。

OpenAI 首席执行官山姆·奥特曼曾多次暗示公司正在研发手机项目，并表示「现在是认真重新思考操作系统和用户界面设计的合适时机」。

（@极客公园）

2、Google 为 Android 推出 AI 伪造通话检测：基于 RCS 的硬件级「数字握手」验证

Google 在 Android 系统（Phone by Google 应用）中上线 AI 伪造通话检测功能，旨在对抗利用深度伪造（Deepfake）音频进行的号码欺诈。该功能通过建立设备间的验证机制，实时拦截冒充联系人、家人或权威机构的冒名电话。

RCS 驱动的「数字握手」协议： 验证过程基于 Rich Communication Services （RCS）协议。当拨打方发起通话时，其设备会向接收方发送静默确认信号以验证合法性。
双向状态校验机制： 若接收端未收到初始确认信号（判定为欺诈冒用），系统会自动向被冒充联系人的真实硬件发起状态查询；若真实硬件反馈当前未处于拨号状态，接收端将立即触发挂断警告。
底层默认开启： 该功能在系统底层默认激活，无需用户干预即可在后台自动运行。
跨平台扩展性： Google 已将该技术框架构建于 RCS 之上，并向第三方应用和硬件厂商开放接口，支持更广泛的生态接入。兼容 Android 12 及更高版本的系统，首批推送涵盖 Pixel 系列设备。

( @TechCrunch)

03 有态度的观点

1、山姆 · 奥特曼承认错误：拥抱 AI 最积极的公司仍在招聘

OpenAI CEO Sam Altman 昨日在 CNBC 采访中指出，在他所接触的大型企业样本中，AI 采用程度最深的公司，反而正在大规模招聘；而那些以 AI 为由宣布裁员的公司，往往是 AI 落地最慢的一批。

Altman 表示，AI 可以成为企业解释裁员的「便利借口」，但这与技术实际应用情况并不相符。他同时承认，自己对 AI 影响就业的判断正在变得更为乐观，原因是观察到企业在使用 OpenAI 编程工具 Codex 等产品后，并未出现预期中的岗位萎缩。

他将这一现象归因于大模型自身的局限性——

这些模型在某些事情上表现极好，但在长期、复杂任务的监督执行上完全力不从心。

Altman 还就 OpenAI 此前的公关表述表示遗憾。他指出，去年 12 月一份有关 GPT-5.2 的新闻稿声称该模型「在 44 个职业中超越专业人士」，措辞过于笼统，引发了不必要的公众焦虑。

我们应该说，它在 44 个职业的细分任务上超越专业人士，这才是更准确的说法。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考