腾讯投资 AI 陪伴项目 Born 融资 1500 万美元，主打社交化 AI 陪伴；朱啸虎：AI 语音与视频应用爆发在即丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01 有话题的技术

1、小米新一代 Kaldi 团队发布 ZipVoice：高效零样本语音合成模型

近日，小米集团 AI 实验室新一代 Kaldi 团队发布了基于 Flow Matching 架构的 ZipVoice 系列语音合成（TTS）模型——ZipVoice（零样本单说话人语音合成模型）与 ZipVoice-Dialog（零样本对话语音合成模型）。

作为 zipformer 在语音生成任务上的应用和探索，ZipVoice 解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点，在轻量化建模和推理加速上取得了重要突破。ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈，实现了又快又稳又自然的语音对话合成。

1.基于 Zipformer 的高效建模

ZipVoice 首次将原本为自动语音识别（ASR）设计的 Zipformer 架构引入 TTS 任务作为模型的骨干网络，Zipformer 中的三大设计：基于 U-Net 的多尺度高效率结构、卷积与注意力机制的协同处理、以及注意力权重的多次复用都高度适配语音合成任务，从而实现了语音合成模型的高效建模。

得益于这一设计，相比基于 DiT 的语音合成模型，在性能相似的情况下，ZipVoice 的参数量减少了约 63%。

2.平均上采样：简洁且稳定的语音-文本对齐策略

传统非自回归 TTS 模型需显式预测每一文本 token（音素、字符等）的时长，最近的非自回归 TTS 模型通过将文本 token 添加 padding 后直接输入语音预测模型的方式，实现了对时长预测的隐式建模和端到端优化。但这一方式容易导致对齐混乱与收敛缓慢的问题。

为解决这一问题，ZipVoice 提出平均上采样策略，假设每个文本 token 具有相同的时长，对文本 token 进行平均上采样后送入语音预测模型。这种简化的时长假设为模型提供了稳定的初始对齐线索，显著提升了对齐稳定性和收敛速度，有效提升了语音可懂度。

3.Flow Distillation：通过减少推理步数实现加速

Flow Matching 模型通常需要较多采样步数才能保证语音质量，且其常用的 Classifier-free guidance （CFG）策略会使推理开销增加近一倍。

ZipVoice 中采用了 Flow Distillation 方法解决这些问题：利用预训练 ZipVoice 模型结合 CFG 技术，通过两步 ODE 求解得到教师预测，学生模型则通过无 CFG 的一步推理逼近教师预测，减少了推理步数要求的同时避免了 CFG 带来的额外推理开销。

此外，引入 EMA（指数滑动平均）模型作为第二阶段教师模型，在蒸馏中动态提升教师模型性能。最终，蒸馏后的模型 ZipVoice-Distill 仅通过 4 步推理即可得到高质量语音，在 CPU 单线程使用 PyTorch 代码推理时即可达到接近实时的速度（RTF≈1）。

ZipVoice 系列的模型文件、训练代码和推理代码以及 6.8k 小时的语音对话数据集 OpenDialog 已全部开源：https://github.com/k2-fsa/ZipVoice

Zipvoice 论文已被 ASRU2025 接收：

https://arxiv.org/pdf/2506.13053

样例体验请访问：

https://zipvoice.github.io

（@小米技术）

2、MiniMax Music 1.5 上线，4 分钟时长、强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰

Music 1.5 开启了「一人即乐队」的新时代，生成时长升至 4 分钟，并具备四大新突破：强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰。

亮点 1：歌曲强控制力

Music 1.5 支持长达 4 分钟的音乐创作，出品即成品，不再仅是 demo 小样，并可对歌曲的风格、情绪和场景进行自定义和强控制。

亮点 2：人声自然饱满

模型对人声唱腔发音技巧进行建模，可以生成不同声线、唱腔的音色。

亮点 3：编曲层次丰富

模型对乐器进行细粒度建模，使得编曲丰富、乐器层次清晰、演奏技巧富于变化。值得一提的是，它还支持中国小众及民族乐器的生成。

亮点 4：歌曲结构清晰

结构，即一首歌的前奏 Intro、主歌 Verse、副歌 Chorus、尾奏 Outro 和桥段 Bridge 等，好的结构能让一首歌的情感表达层层递进、动人心湃。

（@MiniMax 稀宇科技）

02 有亮点的产品

1、Daymi AI 克隆伴侣：定制语音与文本交流，打造您的数字分身

Daymi 是一款面向个人用户的 AI 克隆伴侣，完美集成于 iMessage 和 WhatsApp 等主流消息平台，能模拟用户的声音、语气和文字风格，实现高度个性化的对话体验。

产品核心价值在于通过智能记忆用户的生活点滴，支持情感宣泄、日常反思、决策辅导和目标推进，成为一个既有趣又有用的数字化自我，帮助用户更好地理解自己和管理情绪。

目标用户为寻求情感支持、自我反思和高效沟通工具的忙碌个体，尤其是希望通过自然对话形式记录生活、处理情绪和获取建议的年轻职场人士和创意工作者。他们面临传统聊天机器人缺乏个性化和深度交互的痛点。

产品差异化优势在于深度个性化和情感支持双重结合，且支持文本与通话互动。

功能亮点：

克隆用户的沟通方式和语音，提供真实感极强的聊天体验。
主动关怀，每日推送定制化反思问题，引导用户情感整理。
自动生成每日对话日志，帮助回顾情绪与思考轨迹。

网站链接：https://daymi.ai

(@ producthunt)

2、April 语音 AI：解放双手，智能「打理」邮件与日程

April 是一款面向忙碌专业人士的语音 AI 执行助理，专注于无障碍管理邮件和日历，通过自然语音指令帮助用户实现高效办公。

产品核心价值在于解放双手和屏幕时间，让用户可在开车、散步等场景下，通过语音快速整理邮箱（重要邮件摘要、删除垃圾邮件、回复邮件）和管理日程（调整会议、RSVP 事件），实现 Inbox Zero，提升时间利用率。

目标用户画像为需要高效邮件和日历管理的职场精英、创业者及忙碌专业人士，特别适合那些无法聘请私人助理但需要类似服务的用户。解决了传统邮件日历管理碎片化、反应迟缓且占用大量时间的痛点。

功能亮点：

基于 AI 的邮件智能摘要及语音回复。
深度集成 Google Gmail 和日历，实现日程管理和会议提醒。
自动识别并删除推广及垃圾邮件，保持邮箱整洁。

网站链接：https://tryapril.com/

( @producthunt)

3、腾讯投资 AI 陪伴项目 Born 融资 1500 万美元，用户共同抚养虚拟宠物加强现实关系

柏林 AI 游戏初创公司 Born（前身为 Slay）近日完成 1500 万美元 Series A 轮融资，总融资达 2500 万美元。该公司旨在通过其「Pengu」虚拟宠物应用和即将推出的新产品，重塑 AI 伴侣市场，强调通过 AI 促进共享体验和现实世界关系，而非加剧用户的孤立感。

关键亮点

新 AI 伴侣理念： Born 的 CEO Fabian Kamberi 认为，当前市场上的 AI 伴侣设计过于强调一对一交互，可能加剧用户孤立。Born 致力于让 AI 成为促进共享体验和加强现实世界人际关系的工具。

旗舰产品「Pengu」： 一款生成式 AI 驱动的虚拟宠物应用。用户可以与朋友或伴侣共同抚养和玩耍可爱的虚拟宠物「Pengu」，将其变为一个共享项目，从而在数字互动中加强现实生活中的关系。该应用已在全球拥有超过 1500 万用户。

战略融资与投资者： Born 已从 Accel、腾讯（Tencent）和 Laton Ventures 等知名投资者处筹集 1500 万美元 Series A 轮融资，使总融资达到 2500 万美元。

未来产品路线图： 公司计划在「Pengu」应用中推出新的数字伴侣角色（其中一个将兼具学习功能），并正筹备推出另一款专为 16-21 岁青少年设计的社交 AI 产品。该产品将专注于文化相关性，并有望通过用户分享其创作产生网络效应。

技术与团队扩张： Born 主要依赖 OpenAI 的生成式 AI 模型，并在此基础上构建额外的安全层。公司计划在今年晚些时候在纽约设立办事处，专注于市场营销和 AI 研究，旨在改进其角色引擎，使其能形成一致的个性、记忆互动并与用户共同成长。

详细链接：

https://techcrunch.com/2025/09/10/born-maker-of-virtual-pet-pengu-raises-15m-to-launch-a-new-wave-of-social-ai-companions/

( @TechCrunch)

03 有态度的观点

1、朱啸虎：AI 语音与视频应用爆发在即

在 2025 Inclusion 外滩大会上，朱啸虎再一次给出了自己的思考：AI 的能力边界其实已经显现，而真正的机会，恰恰在模型之外。「明年应用肯定会大爆发，所以下一个字节，下一个快手，下个小红书，今年应该已经成立了」。

他还表示，今年，一个明显的趋势是语音类 AI 应用开始爆发。现在的语音模型已经非常成熟，用户几乎听不出 AI 和真人声音的差别。朱啸虎举例说，如果用户听出是 AI 打来的电话，80%的用户会立刻挂掉，而听不出是 AI 的挂断率只有 25%，这个差别非常显著。

他甚至预测，今年下半年或明年，基于视频的各种 AI 应用也会爆发。未来两三年内，当生成视频或语音的延迟降低到 1 秒左右，几乎可以忽略不计时，这类产品将有巨大潜力，甚至会颠覆所有的内容生成方式。

（@出海研究院）

素材来源官方媒体/网络新闻