腾讯投资 AI 陪伴项目 Born 融资 1500 万美元,主打社交化 AI 陪伴;朱啸虎:AI 语音与视频应用爆发在即丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01 有话题的技术
1、小米新一代 Kaldi 团队发布 ZipVoice:高效零样本语音合成模型
近日,小米集团 AI 实验室新一代 Kaldi 团队发布了基于 Flow Matching 架构的 ZipVoice 系列语音合成(TTS)模型——ZipVoice(零样本单说话人语音合成模型)与 ZipVoice-Dialog(零样本对话语音合成模型)。
作为 zipformer 在语音生成任务上的应用和探索,ZipVoice 解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破。ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈,实现了又快又稳又自然的语音对话合成。
1.基于 Zipformer 的高效建模
ZipVoice 首次将原本为自动语音识别(ASR)设计的 Zipformer 架构引入 TTS 任务作为模型的骨干网络,Zipformer 中的三大设计:基于 U-Net 的多尺度高效率结构、卷积与注意力机制的协同处理、以及注意力权重的多次复用都高度适配语音合成任务,从而实现了语音合成模型的高效建模。
得益于这一设计,相比基于 DiT 的语音合成模型,在性能相似的情况下,ZipVoice 的参数量减少了约 63%。
2.平均上采样:简洁且稳定的语音-文本对齐策略
传统非自回归 TTS 模型需显式预测每一文本 token(音素、字符等)的时长,最近的非自回归 TTS 模型通过将文本 token 添加 padding 后直接输入语音预测模型的方式,实现了对时长预测的隐式建模和端到端优化。但这一方式容易导致对齐混乱与收敛缓慢的问题。
为解决这一问题,ZipVoice 提出平均上采样策略,假设每个文本 token 具有相同的时长,对文本 token 进行平均上采样后送入语音预测模型。这种简化的时长假设为模型提供了稳定的初始对齐线索,显著提升了对齐稳定性和收敛速度,有效提升了语音可懂度。
3.Flow Distillation:通过减少推理步数实现加速
Flow Matching 模型通常需要较多采样步数才能保证语音质量,且其常用的 Classifier-free guidance (CFG)策略会使推理开销增加近一倍。
ZipVoice 中采用了 Flow Distillation 方法解决这些问题:利用预训练 ZipVoice 模型结合 CFG 技术,通过两步 ODE 求解得到教师预测,学生模型则通过无 CFG 的一步推理逼近教师预测,减少了推理步数要求的同时避免了 CFG 带来的额外推理开销。
此外,引入 EMA(指数滑动平均)模型作为第二阶段教师模型,在蒸馏中动态提升教师模型性能。最终,蒸馏后的模型 ZipVoice-Distill 仅通过 4 步推理即可得到高质量语音,在 CPU 单线程使用 PyTorch 代码推理时即可达到接近实时的速度(RTF≈1)。
ZipVoice 系列的模型文件、训练代码和推理代码以及 6.8k 小时的语音对话数据集 OpenDialog 已全部开源:https://github.com/k2-fsa/ZipVoice
Zipvoice 论文已被 ASRU2025 接收:
https://arxiv.org/pdf/2506.13053
样例体验请访问:
https://zipvoice.github.io
(@小米技术)
2、MiniMax Music 1.5 上线,4 分钟时长、强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰
Music 1.5 开启了「一人即乐队」的新时代,生成时长升至 4 分钟,并具备四大新突破:强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰。
亮点 1:歌曲强控制力
Music 1.5 支持长达 4 分钟的音乐创作,出品即成品,不再仅是 demo 小样,并可对歌曲的风格、情绪和场景进行自定义和强控制。
亮点 2:人声自然饱满
模型对人声唱腔发音技巧进行建模,可以生成不同声线、唱腔的音色。
亮点 3:编曲层次丰富
模型对乐器进行细粒度建模,使得编曲丰富、乐器层次清晰、演奏技巧富于变化。值得一提的是,它还支持中国小众及民族乐器的生成。
亮点 4:歌曲结构清晰
结构,即一首歌的前奏 Intro、主歌 Verse、副歌 Chorus、尾奏 Outro 和桥段 Bridge 等,好的结构能让一首歌的情感表达层层递进、动人心湃。
(@MiniMax 稀宇科技)
02 有亮点的产品
1、Daymi AI 克隆伴侣:定制语音与文本交流,打造您的数字分身
Daymi 是一款面向个人用户的 AI 克隆伴侣,完美集成于 iMessage 和 WhatsApp 等主流消息平台,能模拟用户的声音、语气和文字风格,实现高度个性化的对话体验。
产品核心价值在于通过智能记忆用户的生活点滴,支持情感宣泄、日常反思、决策辅导和目标推进,成为一个既有趣又有用的数字化自我,帮助用户更好地理解自己和管理情绪。
目标用户为寻求情感支持、自我反思和高效沟通工具的忙碌个体,尤其是希望通过自然对话形式记录生活、处理情绪和获取建议的年轻职场人士和创意工作者。他们面临传统聊天机器人缺乏个性化和深度交互的痛点。
产品差异化优势在于深度个性化和情感支持双重结合,且支持文本与通话互动。
功能亮点:
克隆用户的沟通方式和语音,提供真实感极强的聊天体验。
主动关怀,每日推送定制化反思问题,引导用户情感整理。
自动生成每日对话日志,帮助回顾情绪与思考轨迹。
网站链接:https://daymi.ai
(@ producthunt)
2、April 语音 AI:解放双手,智能「打理」邮件与日程
April 是一款面向忙碌专业人士的语音 AI 执行助理,专注于无障碍管理邮件和日历,通过自然语音指令帮助用户实现高效办公。
产品核心价值在于解放双手和屏幕时间,让用户可在开车、散步等场景下,通过语音快速整理邮箱(重要邮件摘要、删除垃圾邮件、回复邮件)和管理日程(调整会议、RSVP 事件),实现 Inbox Zero,提升时间利用率。
目标用户画像为需要高效邮件和日历管理的职场精英、创业者及忙碌专业人士,特别适合那些无法聘请私人助理但需要类似服务的用户。解决了传统邮件日历管理碎片化、反应迟缓且占用大量时间的痛点。
功能亮点:
基于 AI 的邮件智能摘要及语音回复。
深度集成 Google Gmail 和日历,实现日程管理和会议提醒。
自动识别并删除推广及垃圾邮件,保持邮箱整洁。
网站链接:https://tryapril.com/
( @producthunt)
3、腾讯投资 AI 陪伴项目 Born 融资 1500 万美元,用户共同抚养虚拟宠物加强现实关系
柏林 AI 游戏初创公司 Born(前身为 Slay)近日完成 1500 万美元 Series A 轮融资,总融资达 2500 万美元。该公司旨在通过其「Pengu」虚拟宠物应用和即将推出的新产品,重塑 AI 伴侣市场,强调通过 AI 促进共享体验和现实世界关系,而非加剧用户的孤立感。
关键亮点
新 AI 伴侣理念: Born 的 CEO Fabian Kamberi 认为,当前市场上的 AI 伴侣设计过于强调一对一交互,可能加剧用户孤立。Born 致力于让 AI 成为促进共享体验和加强现实世界人际关系的工具。
旗舰产品「Pengu」: 一款生成式 AI 驱动的虚拟宠物应用。用户可以与朋友或伴侣共同抚养和玩耍可爱的虚拟宠物「Pengu」,将其变为一个共享项目,从而在数字互动中加强现实生活中的关系。该应用已在全球拥有超过 1500 万用户。
战略融资与投资者: Born 已从 Accel、腾讯(Tencent)和 Laton Ventures 等知名投资者处筹集 1500 万美元 Series A 轮融资,使总融资达到 2500 万美元。
未来产品路线图: 公司计划在「Pengu」应用中推出新的数字伴侣角色(其中一个将兼具学习功能),并正筹备推出另一款专为 16-21 岁青少年设计的社交 AI 产品。该产品将专注于文化相关性,并有望通过用户分享其创作产生网络效应。
技术与团队扩张: Born 主要依赖 OpenAI 的生成式 AI 模型,并在此基础上构建额外的安全层。公司计划在今年晚些时候在纽约设立办事处,专注于市场营销和 AI 研究,旨在改进其角色引擎,使其能形成一致的个性、记忆互动并与用户共同成长。
详细链接:
https://techcrunch.com/2025/09/10/born-maker-of-virtual-pet-pengu-raises-15m-to-launch-a-new-wave-of-social-ai-companions/
( @TechCrunch)
03 有态度的观点
1、朱啸虎:AI 语音与视频应用爆发在即
在 2025 Inclusion 外滩大会上,朱啸虎再一次给出了自己的思考:AI 的能力边界其实已经显现,而真正的机会,恰恰在模型之外。「明年应用肯定会大爆发,所以下一个字节,下一个快手,下个小红书,今年应该已经成立了」。
他还表示,今年,一个明显的趋势是语音类 AI 应用开始爆发。现在的语音模型已经非常成熟,用户几乎听不出 AI 和真人声音的差别。朱啸虎举例说,如果用户听出是 AI 打来的电话,80%的用户会立刻挂掉,而听不出是 AI 的挂断率只有 25%,这个差别非常显著。
他甚至预测,今年下半年或明年,基于视频的各种 AI 应用也会爆发。未来两三年内,当生成视频或语音的延迟降低到 1 秒左右,几乎可以忽略不计时,这类产品将有巨大潜力,甚至会颠覆所有的内容生成方式。
(@出海研究院)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
素材来源官方媒体/网络新闻