腾讯投资 AI 陪伴项目 Born 融资 1500 万美元,主打社交化 AI 陪伴;朱啸虎:AI 语音与视频应用爆发在即丨日报

开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01  有话题的技术

1、小米新一代 Kaldi 团队发布 ZipVoice:高效零样本语音合成模型

近日,小米集团 AI 实验室新一代 Kaldi 团队发布了基于 Flow Matching 架构的 ZipVoice 系列语音合成(TTS)模型——ZipVoice(零样本单说话人语音合成模型)与 ZipVoice-Dialog(零样本对话语音合成模型)。

作为 zipformer 在语音生成任务上的应用和探索,ZipVoice 解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破。ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈,实现了又快又稳又自然的语音对话合成。

1.基于 Zipformer 的高效建模

ZipVoice 首次将原本为自动语音识别(ASR)设计的 Zipformer 架构引入 TTS 任务作为模型的骨干网络,Zipformer 中的三大设计:基于 U-Net 的多尺度高效率结构、卷积与注意力机制的协同处理、以及注意力权重的多次复用都高度适配语音合成任务,从而实现了语音合成模型的高效建模。

得益于这一设计,相比基于 DiT 的语音合成模型,在性能相似的情况下,ZipVoice 的参数量减少了约 63%。

2.平均上采样:简洁且稳定的语音-文本对齐策略

传统非自回归 TTS 模型需显式预测每一文本 token(音素、字符等)的时长,最近的非自回归 TTS 模型通过将文本 token 添加 padding 后直接输入语音预测模型的方式,实现了对时长预测的隐式建模和端到端优化。但这一方式容易导致对齐混乱与收敛缓慢的问题。

为解决这一问题,ZipVoice 提出平均上采样策略,假设每个文本 token 具有相同的时长,对文本 token 进行平均上采样后送入语音预测模型。这种简化的时长假设为模型提供了稳定的初始对齐线索,显著提升了对齐稳定性和收敛速度,有效提升了语音可懂度。

3.Flow Distillation:通过减少推理步数实现加速

Flow Matching 模型通常需要较多采样步数才能保证语音质量,且其常用的 Classifier-free guidance (CFG)策略会使推理开销增加近一倍。

ZipVoice 中采用了 Flow Distillation 方法解决这些问题:利用预训练 ZipVoice 模型结合 CFG 技术,通过两步 ODE 求解得到教师预测,学生模型则通过无 CFG 的一步推理逼近教师预测,减少了推理步数要求的同时避免了 CFG 带来的额外推理开销。

此外,引入 EMA(指数滑动平均)模型作为第二阶段教师模型,在蒸馏中动态提升教师模型性能。最终,蒸馏后的模型 ZipVoice-Distill 仅通过 4 步推理即可得到高质量语音,在 CPU 单线程使用 PyTorch 代码推理时即可达到接近实时的速度(RTF≈1)。

ZipVoice 系列的模型文件、训练代码和推理代码以及 6.8k 小时的语音对话数据集 OpenDialog 已全部开源:https://github.com/k2-fsa/ZipVoice


Zipvoice 论文已被 ASRU2025 接收:

https://arxiv.org/pdf/2506.13053


样例体验请访问:

https://zipvoice.github.io

(@小米技术



2、MiniMax Music 1.5 上线,4 分钟时长、强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰

Music 1.5 开启了「一人即乐队」的新时代,生成时长升至 4 分钟,并具备四大新突破:强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰。

亮点 1:歌曲强控制力

Music 1.5 支持长达 4 分钟的音乐创作,出品即成品,不再仅是 demo 小样,并可对歌曲的风格、情绪和场景进行自定义和强控制

亮点 2:人声自然饱满

模型对人声唱腔发音技巧进行建模,可以生成不同声线、唱腔的音色。

亮点 3:编曲层次丰富

模型对乐器进行细粒度建模,使得编曲丰富、乐器层次清晰、演奏技巧富于变化。值得一提的是,它还支持中国小众及民族乐器的生成。

亮点 4:歌曲结构清晰

结构,即一首歌的前奏 Intro、主歌 Verse、副歌 Chorus、尾奏 Outro 和桥段 Bridge 等,好的结构能让一首歌的情感表达层层递进、动人心湃。

(@MiniMax 稀宇科技)



02 有亮点的产品

1、Daymi AI 克隆伴侣:定制语音与文本交流,打造您的数字分身

Daymi 是一款面向个人用户的 AI 克隆伴侣,完美集成于 iMessage 和 WhatsApp 等主流消息平台,能模拟用户的声音、语气和文字风格,实现高度个性化的对话体验。

产品核心价值在于通过智能记忆用户的生活点滴,支持情感宣泄、日常反思、决策辅导和目标推进,成为一个既有趣又有用的数字化自我,帮助用户更好地理解自己和管理情绪。

目标用户为寻求情感支持、自我反思和高效沟通工具的忙碌个体,尤其是希望通过自然对话形式记录生活、处理情绪和获取建议的年轻职场人士和创意工作者。他们面临传统聊天机器人缺乏个性化和深度交互的痛点。

产品差异化优势在于深度个性化和情感支持双重结合,且支持文本与通话互动。

功能亮点:

  1. 克隆用户的沟通方式和语音,提供真实感极强的聊天体验。

  2. 主动关怀,每日推送定制化反思问题,引导用户情感整理。

  3. 自动生成每日对话日志,帮助回顾情绪与思考轨迹。

网站链接:https://daymi.ai

(@ producthunt)



2、April 语音 AI:解放双手,智能「打理」邮件与日程

April 是一款面向忙碌专业人士的语音 AI 执行助理,专注于无障碍管理邮件和日历,通过自然语音指令帮助用户实现高效办公。

产品核心价值在于解放双手和屏幕时间,让用户可在开车、散步等场景下,通过语音快速整理邮箱(重要邮件摘要、删除垃圾邮件、回复邮件)和管理日程(调整会议、RSVP 事件),实现 Inbox Zero,提升时间利用率。

目标用户画像为需要高效邮件和日历管理的职场精英、创业者及忙碌专业人士,特别适合那些无法聘请私人助理但需要类似服务的用户。解决了传统邮件日历管理碎片化、反应迟缓且占用大量时间的痛点。

功能亮点:

  1. 基于 AI 的邮件智能摘要及语音回复。

  2. 深度集成 Google Gmail 和日历,实现日程管理和会议提醒。

  3. 自动识别并删除推广及垃圾邮件,保持邮箱整洁。

网站链接:https://tryapril.com/

( @producthunt)



3、腾讯投资 AI 陪伴项目 Born 融资 1500 万美元,用户共同抚养虚拟宠物加强现实关系

柏林 AI 游戏初创公司 Born(前身为 Slay)近日完成 1500 万美元 Series A 轮融资,总融资达 2500 万美元。该公司旨在通过其「Pengu」虚拟宠物应用和即将推出的新产品,重塑 AI 伴侣市场,强调通过 AI 促进共享体验和现实世界关系,而非加剧用户的孤立感。

关键亮点

新 AI 伴侣理念: Born 的 CEO Fabian Kamberi 认为,当前市场上的 AI 伴侣设计过于强调一对一交互,可能加剧用户孤立。Born 致力于让 AI 成为促进共享体验和加强现实世界人际关系的工具。

旗舰产品「Pengu」: 一款生成式 AI 驱动的虚拟宠物应用。用户可以与朋友或伴侣共同抚养和玩耍可爱的虚拟宠物「Pengu」,将其变为一个共享项目,从而在数字互动中加强现实生活中的关系。该应用已在全球拥有超过 1500 万用户。

战略融资与投资者: Born 已从 Accel、腾讯(Tencent)和 Laton Ventures 等知名投资者处筹集 1500 万美元 Series A 轮融资,使总融资达到 2500 万美元。

未来产品路线图: 公司计划在「Pengu」应用中推出新的数字伴侣角色(其中一个将兼具学习功能),并正筹备推出另一款专为 16-21 岁青少年设计的社交 AI 产品。该产品将专注于文化相关性,并有望通过用户分享其创作产生网络效应。

技术与团队扩张: Born 主要依赖 OpenAI 的生成式 AI 模型,并在此基础上构建额外的安全层。公司计划在今年晚些时候在纽约设立办事处,专注于市场营销和 AI 研究,旨在改进其角色引擎,使其能形成一致的个性、记忆互动并与用户共同成长。

详细链接:

https://techcrunch.com/2025/09/10/born-maker-of-virtual-pet-pengu-raises-15m-to-launch-a-new-wave-of-social-ai-companions/

( @TechCrunch)




03 有态度的观点 

1、朱啸虎:AI 语音与视频应用爆发在即


在 2025 Inclusion 外滩大会上,朱啸虎再一次给出了自己的思考:AI 的能力边界其实已经显现,而真正的机会,恰恰在模型之外。「明年应用肯定会大爆发,所以下一个字节,下一个快手,下个小红书,今年应该已经成立了」

他还表示,今年,一个明显的趋势是语音类 AI 应用开始爆发。现在的语音模型已经非常成熟,用户几乎听不出 AI 和真人声音的差别。朱啸虎举例说,如果用户听出是 AI 打来的电话,80%的用户会立刻挂掉,而听不出是 AI 的挂断率只有 25%,这个差别非常显著。

他甚至预测,今年下半年或明年,基于视频的各种 AI 应用也会爆发。未来两三年内,当生成视频或语音的延迟降低到 1 秒左右,几乎可以忽略不计时,这类产品将有巨大潜力,甚至会颠覆所有的内容生成方式。

(@出海研究院)

图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

图片


素材来源官方媒体/网络新闻


注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    腾讯投资 AI 陪伴项目 Born 融资 1500 万美元,主打社交化 AI 陪伴;朱啸虎:AI 语音与视频应用爆发在即丨日报RTRTE_Dev_Comm