持续挖掘语音人才,Meta 完成收购 PlayAI;B 站推出语音模型 IndexTTS2,精确控制语音时长丨日报

开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、月之暗面开源 Kimi K2:320 亿参数 MoE 模型登顶 HF 榜首

月之暗面推出 Kimi K2 是一款混合专家模型,拥有 320 亿激活参数和 1 万亿总参数的规模。
这款模型在特定任务领域表现卓越,特别是在前沿知识、数学和编程方面,性能不仅超越了 DeepSeekV3,甚至能与 Claude Opus 相媲美。
目前 Kimi K2 已经登顶 HF 榜首,其前端编程能力优秀,现可以尝试替换到 Claude Code 中使用。
本次开源包含两个版本:
1.Kimi-K2-Base:基础模型,为研究人员和开发者提供微调和定制解决方案的起点;
2.Kimi-K2-Instruct:经过后训练的优化版本,可直接用于通用聊天和代理体验。
Kimi-K2 项目主页:
https://moonshotai.github.io/Kimi-K2/O(@三花 AI)
2、清华等发布视频换脸技术 CanonSwap:拓展额外测度量化唇部运动与音频的匹配程度
CanonSwap 是一项创新的视频换脸技术,目前已经发布了详细的技术论文和研究报告。
本文的方法概念为给定输入视频,首先将其从原始空间变形(warp)至规范空间(canonical space)。在规范空间中,人脸仅保留外观信息,并固定为一致的姿态。随后,在该规范空间内执行换脸,并将结果变形回原始空间。得益于运动与外观的解耦,CanonSwap 可在视频帧间实现高度一致且稳定的换脸结果。
规范交换空间(Canonical Swap Space):描述如何构建消除运动信息的规范换脸空间,并如何将换脸结果一致地映射回原始空间。
局部身份调制(Partial Identity Modulation, PIM):精准高效地将源身份信息转换为目标外观特征,实现在规范空间内的换脸。
同时在常规指标基础上扩展了针对眼部与唇部区域的额外测量:
眼部:除常用的视线估计外,引入眼部纵横比(EAR) 以更精准评估眨眼模式;
唇部:采用说话头合成任务中的唇同步误差-距离(LSE-D)和唇同步误差-置信度(LSE-C),量化唇部运动与音频的匹配程度。LSE-D 计算唇部关键点与真实值的平均偏差,LSE-C 衡量唇部同步预测的置信度。
为支持全面评估,本文提出新基准 VFS(视频换脸基准),包含从 VFHQ 数据集随机采样的 100 对源-目标视频。每个目标视频含前 100 帧及 4 秒对应音频,用于综合评估视觉保真度与唇音同步性。
文章链接:
https://arxiv.org/pdf/2507.02691
项目链接:
https://luoxyhappy.github.io/CanonSwap/ (@AI 生成未来、@三花 AI)
3、B 站推出语音模型 IndexTTS2,精确控制语音时长
为了解决早期版本的 IndexTTS 在情感表达的细腻度与时长控制的精准性方面的问题,并进一步推动零样本语音合成在实际场景中的落地能力,B 站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
IndexTTS2 引入了音色与情感解耦建模机制,除了支持单音频参考以外,额外支持分别指定音色参考与情感参考,实现更加灵活、细腻的语音合成控制。同时,模型还具备基于文本描述的情感控制能力,可通过自然语言描述、使用场景描述、上下文线索等进行精准调节合成语音的情绪色彩。
IndexTTS2 在灵活性与可控性之间实现了更优平衡,不仅支持高质量的零样本语音合成,还显著提升了语音在情感表达维度的真实感与表现力。其合成语音情绪自然饱满,贴近真人,广泛适用于 AI 配音、有声读物、动态漫、视频翻译、语音对话、播客创作等场景,是推动零样本 TTS 走向实用化的重要里程碑。

IndexTTS2 中,开发团队提出了一种通用于 AR 系统的「时间编码」机制,首次解决了传统 AR 模型难以精确控制语音时长的问题。这一设计在保留 AR 架构在韵律自然性、风格迁移能力、多模态扩展性等方面优势的同时,也具备了合成定长语音的能力。该模型融合 BigVGAN2 解码器提升音质至 24kHz 带宽,在虚拟主播实时直播中端到端延迟稳定在 200ms 内。此技术已率先应用于 B 站「原声视频翻译」功能,目前正在内测,部分用户已可体验。
GitHub:
https://github.com/index-tts/index-tts
arXiv:
https://arxiv.org/abs/2506.21619 (@哔哩哔哩技术、@AI 智前沿)
4、英伟达&MIT 等推出 Long-RL,长视频训练速度翻倍
英伟达近日联合 MIT、香港大学、UC Berkeley 推出 Long-RL,其能提升 RL 训练数据长度上限,让训练速度翻倍。Long-RL 是一个真正面向长序列推理和多模态强化学习的全栈训练框架。支持小时级长视频 RL:单机可稳定训练 3600 帧(256k tokens)。
Long-RL 的核心是 MR-SP 并行框架。MR-SP 的全称是 Multi-modal Reinforcement Sequence Parallelism,即多模态强化序列并行,可在不同帧数下显著降低长视频推理的训练耗时和显存:启用 MR-SP 后,训练速度提升可达 2.1×,而传统方案会因显存不足直接 OOM。
具体来说,MR-SP 分为两个阶段。
其中,第 1 阶段是使用并行编码的 Rollout。为了高效地支持长视频强化学习,该团队在视频编码阶段采用了序列并行 (SP) 机制。输入视频帧首先会被均匀地分配到多台 GPU(例如,GPU 1 至 GPU 3)上,每台 GPU 都配备了各自的视觉塔(vision tower)。每台 GPU 独立处理视频的一部分,并且仅对其中一部分帧进行编码。然后,生成的视频嵌入将通过 all-gather 操作与文本嵌入进行聚合。
第 2 阶段则是使用序列并行进行预填充。对于每次 rollout,参考模型和策略模型都需要在强化学习中对长视频进行计算密集型预填充。通过复用第 1 阶段收集到的嵌入,可使用序列并行在各个设备之间并行化推理阶段。
该团队也将 Long-RL 打造成了一个完整的多模态 RL 工具箱,能适配:
多模型:除了 VILA 系列、Qwen/Qwen-VL 系列这些 LLMs/VLMs,也支持 Stable Diffusion、Wan 等生成模型;
多算法:GRPO、DAPO、Reinforce,一行切换;
多模态:不仅支持文本,也支持视频、音频等多模态。
论文:
Scaling RL to Long Videos
GitHub:
https://github.com/NVlabs/Long-RL
论文链接:
https://arxiv.org/abs/2507.07966(@机器之心)
02 有亮点的产品
1、Higgsfield Soul ID 现支持 10 秒重塑用户的数字形象
最近,Higgsfield 推出了一款名为 Soul ID 的新工具,立即在全球范围内引起轰动。用户只需上传 20—25 张人像照片,系统就能生成一个「专属身份」,并将其套用到 60 多种高端时尚的风格模板中,自动保持角色在不同画面和效果下的连贯形象。
从 X 和 Instagram 的官方宣传来看,Soul ID 不仅画质出色,还能在视频内容中展现平滑的动作,让角色显得「有血有肉,不再僵硬」。其主要面向希望制作个人品牌形象、虚拟时尚造型,或者打造高品质社交媒体内容的创作者。
Higgsfield 的官网已将 Soul 设置为核心功能之一,结合他们成熟的图像、视频和动画技术(如 Canvas、Inpaint、Speak、VFX 控制等),为创作者提供一整套从静态到动态、从照片到视频的视觉输出解决方案,部分功能免费,高级计划起价 9 美元/月。(@AI 星球视界)
2、Meta 完成收购 PlayAI,与 Meta AI、虚拟角色和可穿戴设备等产品高度契合

据 Bloomberg 最新报道,Meta 已完成对位于加州的语音 AI 初创公司 Play AI 的收购。
Meta 在内部备忘录中表示,PlayAI 的语音技术「与 Meta AI、AI 虚拟角色和可穿戴设备等产品路线图高度契合」。当前,Meta 已允许社交平台创作者定制个人聊天机器人,并为 Meta AI 系统集成了视频编辑功能。
据悉,「PlayAI 整个团队」将于下周正式加入 Meta,并归属于前 Google 语音 AI 负责人 Johan Schalkwyk 所领导的新部门,他本人也刚从另一家语音 AI 初创公司跳槽至 Meta。
尽管 Meta 并未披露本次交易金额,但根据公开信息,Play AI 在 2024 年 5 月完成一轮 430 万美元融资后,估值约为 7000 万美元,随后于 11 月追加融资 2100 万美元,总融资额提升至 2350 万美元,因此其在被收购前的整体估值可能已接近 1 亿美元,此次交易很可能属于中型规模的战略性并购。
Play AI 主要产品包括:
文本转语音(TTS)API:支持 30 多种语言、200 多种声音角色,延迟低至 300 毫秒,适用于实时交互与大规模生成内容;
语音克隆工具:支持即时克隆和高保真克隆两种模式,用户可上传短音频样本快速生成数字化语音;
PlayDialog 对话模型:支持多轮上下文语境理解与情感表达,在盲测中三分之二用户更倾向于其生成结果;
PlayNote 应用及 Agent 平台:支持将文本、视频、PDF 等转化为语音内容,并构建执行类语音代理。
该平台的核心优势在于其对多语言、多情境、多情绪的处理能力,实时性能、情感还原度、开发便捷性和安全合规机制均处于行业前沿。目前已吸引包括亚马逊、IBM、沃尔格林、空客、福特、红牛等企业客户。
相关链接:
https://www.bloomberg.com/news/articles/2025-07-11/meta-acquires-voice-ai-startup-playai-continuing-to-add-talent?srnd=phx-technology(@有新 Newin、@机器之心)
03 有态度的观点
1、比尔・盖茨:即使 100 年后,AI 也无法完全取代人类进行编程工作
7 月 9 日,在接受法国广播电台 France Inter 采访时,比尔・盖茨坦言:「我也会感到害怕。」他同时指出,尽管 AI 可能带来巨大变革,但其潜力同样不可忽视。
盖茨认为,如果运用得当,人工智能可以大幅提高生产力,AI 将「为我们腾出大量自由时间」,让人们从重复性劳动中解放出来,专注于更具创造性和战略性的任务。在众多职业中,盖茨特别强调了编程的独特性,难以实现完全自动化。他认为,编程的价值源自创造力和判断力等人类独有的特质,而这些是机器无法企及的。
盖茨还指出,AI 对不同职业的影响并不均衡。例如,能源和生物科技等领域同样依赖高度专业化的人类知识,短期内难以被 AI 完全取代。相比之下,行政助理、平面设计师等岗位则面临更大的自动化风险。生成式 AI 工具的普及,使得许多日常任务变得更快捷、更廉价,迫使从业者重新思考自身的职业定位。(@极客公园)
2、格莱美主席:AI 已重塑音乐创作,人类艺术家不可被取代
格莱美奖主办方——美国录音学院(Recording Academy)CEO 哈维·梅森(Harvey Mason Jr。)在接受《华尔街日报》专访时表示,人工智能正在深刻改变音乐产业的创作流程、版权规则以及听众的参与方式,但他坚信,人类创作者在音乐表达中仍拥有不可取代的价值。
作为一位曾与碧昂丝和贾斯汀·比伯等顶级艺人合作过的资深制作人,梅森认为,AI 并非洪水猛兽,而是一种强大的工具,可以生成鼓点、和弦,甚至完整的歌词与旋律。
他指出,AI 的出现将颠覆传统的音乐创作流程,但也为艺术家打开了全新的表达空间,比如让无法再演唱的歌手通过 AI 「复活」嗓音,继续创作与演出。
面对 AI 音乐创作日渐普及的现实,梅森提出几个核心担忧:首先是音乐版权归属不清,艺术家如何在 AI 再创作中获得应有的署名和报酬;其次是,AI 若主要基于对过去音乐数据的模仿生成,是否会削弱原创性,导致音乐审美「平均化」。
他表示,「我们必须确保 AI 创作内容是可被保护、可被盈利、可被识别的,否则最具创造力的音乐人将可能被边缘化。」
在他看来,AI 不仅会加速歌曲创作和推荐系统的发展,还可能重塑「粉丝」与「创作者」的关系。未来的粉丝可能不再只是被动聆听,而是能主动参与创作——修改歌词、变换伴奏、甚至让偶像的 AI 分身为母亲唱生日歌。
梅森最后表示,AI 时代确实正在改变创作者与听众的比例,但「懂风格、懂情感、懂打动人心」的人类创作者,永远会在舞台上占据核心位置。(@APPSO)
3、三星高管透露 AI 穿戴设备计划
日前,三星 MX(移动体验)事业部首席运营官 Woo-joon Choi 接受 CNN 采访时表示,AI 将推动新一代设备的发展,使用户能够更快地完成需要的任务,并且无需掏出手机。
Woo-joon Choi 透露,三星认为新的 AI 设备应该是可穿戴形态,用户无需携带的东西。其进一步解释,这些产品有可能是用户所佩戴的任何东西,如眼镜、耳环、手表、戒指,甚至是项链。
报道指出,不只是三星向更便携的 AI 设备下「赌注」,OpenAI、Meta 等互联网 AI 企业都在向这一领域进行投资:
Meta 联合雷朋推出了畅销的 Ray-Ban Meta AI 眼镜;
OpenAI 联合苹果前首席设计官 Jony Ive 打造「io」的 AI 硬件品牌,并计划明年推出首款产品。
据悉,是一款「手机、电脑」以外的第三设备。此前市面上也曾出现过不少有别于手机形态的 AI 硬件,如 Ai Pin、Rabbit R1、Friend 的 AI 项链。(@APPSO)

更多 Voice Agent 学习笔记:
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?
视频丨Google 最新 AI 眼镜原型曝光:轻量 XR+情境感知 AI 打造下一代计算平台
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻