Pika推数字人视频Skill：让任意智能体实现视频交互；Kaldi推TTS模型OmniVoice，支持600+语种丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Microsoft 发布 MAI-Transcribe-1：支持 25 种语言，成本降至 0.36 美元/小时

微软推出多语言语音转文本（ASR）模型 MAI-Transcribe-1，主打高精度与高吞吐效率。该模型针对噪声环境及多口音场景优化，已在 Copilot 与 Teams 中分阶段部署，旨在为开发者提供构建全球化语音智能体的底层技术支撑。

SOTA 精度表现：在 FLEURS（25 种语言）基准测试中，其 WER（词错误率）低于 Scribe v2、Whisper-large-V3 以及 Gemini 3.1 Flash-Lite。
推理性能提升：批处理转录速度较现有的 Microsoft Azure Fast 方案提升 2.5 倍，具备支撑低延迟实时任务（如会议实时字幕、语音听写）的能力。
高鲁棒性噪声处理：专门针对会议室、电话通话、街道等非洁净音频场景优化，可可靠处理背景噪音、低质量录音及重叠语音（Overlapping speech）。
极具竞争力的定价：转录成本定为 0.36 美元/小时音频，在主流大型云服务商中设定了较高的性能价格比基准。
语音全栈集成：该模型可与 MAI-Voice-1（TTS）及 LLM 组合，形成从语音识别到意图理解再到语音合成的完整智能体技术栈。

(@MicrosoftAI@X)

2、新一代 Kaldi 团队发布零样本多语言 TTS 模型 OmniVoice：基于扩散语言模型架构，支持 600+ 语种

OmniVoice 是一种支持 600 多种语言的零样本多语言 TTS 模型，处于技术前沿。基于一种新颖的扩散语言模型架构，它能够生成高质量语音，并具有卓越的推理速度，支持语音克隆和语音设计。

支持 600 多种语言：在零样本 TTS 模型中实现了目前行业领先的语种覆盖范围，无需针对特定小众语种进行二次微调。
语音克隆：具有最先进的语音克隆质量。
语音设计：通过分配的说话人属性（性别、年龄、音调、方言/口音、耳语等）控制语音。
快速推理：RTF 低至 0.025（比实时速度快 40 倍）。适用于高并发及低延迟场景。
扩散语言模型架构：采用兼具 Diffusion 生成质量与 Transformer 扩展性的新颖架构，在提升生成语音自然度的同时，精简了推理端的计算逻辑。

GitHub 链接：

https://github.com/k2-fsa/OmniVoice

3、Willow 发布 STT 模型 Atlas 1：生产环境词错误率（WER）降至 2.1%

Willow 推出新一代语音转文本模型 Atlas 1。该模型依托于大规模人工辅助转录基础设施，在真实生产环境下的词错误率（WER）表现大幅优于 OpenAI 和 Deepgram 等竞品，旨在解决实时听写中的精度衰减难题。

在纯净音频测试中，Atlas 1 的 WER 仅为 1.2%，显著低于行业通用模型 5-7% 的平均水平。在真实生产（Production）场景中，该模型将错误率控制在 2.1%，而同类竞品在相同条件下通常会衰减至 10-15%。官方表示在嘈杂环境下的性能差距较竞品进一步拉大，维持了高精度的转录稳定性。

不同于纯合成数据或弱监督学习，Atlas 1 基于一套可扩展的人工辅助标注体系构建，专门针对实时听写场景的边界案例进行优化。

( @WillowVoiceAI@X)

4、Skywork AI 开源 Matrix-Game 3.0 交互式世界模型

Skywork AI 团队日前开源了交互式世界模型 Matrix-Game 3.0 的代码、模型权重及技术报告。该模型专为 720p 分辨率下的实时长视频流式生成而设计，基于其升级的工业级数据引擎进行训练。

5B 参数实现 720p@40FPS 推理：通过少步采样（Few-step sampling）、模型量化与剪枝技术，显著提升了 DiT 架构的推理能效比，满足实时流式生成需求。
分钟级长程一致性（Long-Horizon Memory）：引入记忆增强型 DiT 与误差缓冲（Error Buffer）机制，有效缓解了长视频生成中的漂移问题，确保分钟级时长的逻辑连贯。
动作与相机姿态监督训练：模型基于 Unreal Engine、AAA 级游戏及真实世界数据混合训练，支持配对的 Action 与 Camera-pose 监督信号，实现精准的交互控制。
28B MoE 架构扩展能力：框架支持扩展至 28B 参数的混合专家模型（MoE）规模，以进一步增强环境动力学模拟精度与跨场景泛化能力。

GitHub 链接：

https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3

( @Skywork_ai)

02 有亮点的产品

1、Pika 发布 PikaStream 1.0：支持智能体实时视频通话与 Google Meet 任务执行

Pika 发布实时视频生成模型 PikaStream 1.0 及其配套的视频聊天 Skill。该更新允许开发者为任何智能体集成实时视频交互能力，并支持在通话过程中执行具体的自动化任务。

由 PikaStream 1.0作为底层驱动模型，将视频通话功能以「Skill」形式封装，开发者可通过 GitHub 接入，将其集成至任何第三方智能体框架中。

智能体在视频交互过程中可保留既定的个性设置（Personality）与上下文记忆（Memory）。配合 Pika AI Self，智能体不仅能进行视觉输出，还能在通话期间同步执行任务（如：自主加入 Google Meet 会议并参与协作）。

https://github.com/Pika-Labs/Pika-Skills

( @pika_labs@X)

2、Palabra 发布会议翻译智能体：原生集成 Zoom/Meet，实现 60+ 语言、1s 内低延迟翻译

Palabra 推出一款可直接加入 Zoom、Google Meet 等主流视频会议平台的 AI 翻译智能体。该工具无需复杂配置，通过实时语音处理技术为跨语言会议提供低延迟的同声传译与字幕生成服务。

智能体以「会议参与者」身份加入视频通话，无需第三方平台 API 对接或会议发起人安装本地插件。具有两种模式，提供针对多人实时互动的「对话模式（Conversation Mode）」及针对单向演讲的「演示模式（Presentation Mode）」，后者支持同步输出译文音频与实时字幕。

支持在发言过程中进行流式翻译（Mid-sentence translation），其合成音频可保留原讲述者的语气、语调及语速节奏。

覆盖 60 余种语言，端到端翻译响应延迟低于 1 秒，确保多方会谈的实时性。

( @PalabraAI)

03 有态度的观点

1、摩根大通 CEO 戴蒙：AI 将带来三天半工作制，人类寿命有望达 100 岁

摩根大通 CEO 杰米·戴蒙（Jamie Dimon）近日在接受采访时表示，人工智能将从根本上改变人类的生活与工作方式。他预言，30 年后，AI 有望将工作周压缩至三天半，并帮助人类将寿命延长至 100 岁。

我相信 30 年后，你们的孩子可能一周只工作三天半，寿命可能达到 100 岁，而许多困扰我们这一代人的疾病将不再存在。生活会变得更好。

他进一步列举了 AI 在具体领域的潜力：「AI 将治愈癌症，会开发出更好的材料，还会减少大量交通事故。」

不过，戴蒙也坦承了 AI 带来的潜在风险。他指出，AI 驱动的生产力提升可能对就业市场造成冲击，尤其是变革速度过快时。

世界正在变得更加高效，而 AI 会推动这一进程。风险在于，这一变化可能来得太快。对于长期影响，戴蒙认为，AI 最终将创造出比消灭更多的就业岗位。他强调，关键在于企业和政府提前做好准备，通过大规模的再培训与岗位转移帮助劳动者适应变化。

我们会告诉员工，还有其他工作。我们会培训你、帮助你转岗。而且这种方式是有效的，只是需要更大规模地推进。

从长远来看，AI 将为社会带来巨大好处。如果短期内带来问题，就必须提前做好准备。

(@APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

Pika推数字人视频Skill：让任意智能体实现视频交互；Kaldi推TTS模型OmniVoice，支持600+语种丨日报

01 有话题的技术

1、Microsoft 发布 MAI-Transcribe-1：支持 25 种语言，成本降至 0.36 美元/小时

2、新一代 Kaldi 团队发布零样本多语言 TTS 模型 OmniVoice：基于扩散语言模型架构，支持 600+ 语种

3、Willow 发布 STT 模型 Atlas 1：生产环境词错误率（WER）降至 2.1%

Willow 推出新一代语音转文本模型 Atlas 1。该模型依托于大规模人工辅助转录基础设施，在真实生产环境下的词错误率（WER）表现大幅优于 OpenAI 和 Deepgram 等竞品，旨在解决实时听写中的精度衰减难题。

4、Skywork AI 开源 Matrix-Game 3.0 交互式世界模型

Skywork AI 团队日前开源了交互式世界模型 Matrix-Game 3.0 的代码、模型权重及技术报告。该模型专为 720p 分辨率下的实时长视频流式生成而设计，基于其升级的工业级数据引擎进行训练。

02 有亮点的产品

1、Pika 发布 PikaStream 1.0：支持智能体实时视频通话与 Google Meet 任务执行

Pika 发布实时视频生成模型 PikaStream 1.0 及其配套的视频聊天 Skill。该更新允许开发者为任何智能体集成实时视频交互能力，并支持在通话过程中执行具体的自动化任务。

2、Palabra 发布会议翻译智能体：原生集成 Zoom/Meet，实现 60+ 语言、1s 内低延迟翻译

Palabra 推出一款可直接加入 Zoom、Google Meet 等主流视频会议平台的 AI 翻译智能体。该工具无需复杂配置，通过实时语音处理技术为跨语言会议提供低延迟的同声传译与字幕生成服务。

03 有态度的观点

1、摩根大通 CEO 戴蒙：AI 将带来三天半工作制，人类寿命有望达 100 岁

分类

关键词

Pika推数字人视频Skill：让任意智能体实现视频交互；Kaldi推TTS模型OmniVoice，支持600+语种丨日报

01 有话题的技术

1、Microsoft 发布 MAI-Transcribe-1：支持 25 种语言，成本降至 0.36 美元/小时

2、新一代 Kaldi 团队发布零样本多语言 TTS 模型 OmniVoice：基于扩散语言模型架构，支持 600+ 语种

3、Willow 发布 STT 模型 Atlas 1：生产环境词错误率（WER）降至 2.1%

Willow 推出新一代语音转文本模型 Atlas 1。该模型依托于大规模人工辅助转录基础设施，在真实生产环境下的词错误率（WER）表现大幅优于 OpenAI 和 Deepgram 等竞品，旨在解决实时听写中的精度衰减难题。

4、Skywork AI 开源 Matrix-Game 3.0 交互式世界模型

Skywork AI 团队日前开源了交互式世界模型 Matrix-Game 3.0 的代码、模型权重及技术报告。该模型专为 720p 分辨率下的实时长视频流式生成而设计，基于其升级的工业级数据引擎进行训练。

02 有亮点的产品

1、Pika 发布 PikaStream 1.0：支持智能体实时视频通话与 Google Meet 任务执行

Pika 发布实时视频生成模型 PikaStream 1.0 及其配套的视频聊天 Skill。该更新允许开发者为任何智能体集成实时视频交互能力，并支持在通话过程中执行具体的自动化任务。

2、Palabra 发布会议翻译智能体：原生集成 Zoom/Meet，实现 60+ 语言、1s 内低延迟翻译

Palabra 推出一款可直接加入 Zoom、Google Meet 等主流视频会议平台的 AI 翻译智能体。该工具无需复杂配置，通过实时语音处理技术为跨语言会议提供低延迟的同声传译与字幕生成服务。

03 有态度的观点

1、 摩根大通 CEO 戴蒙：AI 将带来三天半工作制，人类寿命有望达 100 岁

分类

关键词

1、摩根大通 CEO 戴蒙：AI 将带来三天半工作制，人类寿命有望达 100 岁