不到 25MB!端侧 TTS 模型 KittenTTS 开源;Aqua Voice 发布 ASR 模型,专为人机对话设计丨日报

开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、百度发布「蒸汽机」视频模型 2.0,可生成音画同步、口型精准的情感中文对话视频
8 月 21 日,百度发布中文音视频一体化生成的 I2V 模型「百度蒸汽机 2.0」,能够一步到位地生成音画同步、口型精准、情感自然的中文对话视频。
据悉,本次百度蒸汽机 2.0 实现全系模型开放 —— Turbo 版、Lite 版、Pro 版,及有声版全部开放体验。
官方介绍,作为行业首个中文音视频一体化生成的 I2V 模型,百度蒸汽机不仅支持环境音效,更支持多角色语音的一体化生成,能实现语音与唇形、表情、动作的毫秒级精准对齐。
有声版可以生成 5s 或者 10s 的视频,而 Turbo 等三个版本是 5s,像素方面除了 Pro 版本支持 1080p,其他三个版本都是 720p 高清画质。
在发布会上,百度特别提到,模型是「音视频一体化」的底层生成逻辑,声音和画面是同步构思的,而非后期匹配,在训练时就把画面和声音放在一个模型里同步学习。
同时,百度蒸汽机首创多模态潜在空间规划技术(Latent Multi-Modal Planner), 在该技术支持下,蒸汽机能够自主协调多角色身份、情感与互动逻辑,保障叙事连贯性。
语言表达上,百度蒸汽机做到深度中文场景适配。基于海量中文语料深度训练,蒸汽机能以超 98% 的还原度精准呈现中文语音细节与情感表达。
体验链接:
https://huixiang.baidu.com/(@APPSO)
2、Mirage 2:支持在线游玩的实时通用领域生成式世界引擎
8 月 21 日,Dynamics Lab 发布新一代实时生成式世界引擎 Mirage 2。
Mirage 2 是一个可在线游玩的实时通用领域生成式世界引擎。用户上传任意图像,无论是照片、概念艺术、经典绘画还是儿童画作,并立即将它们转化为可实时探索、互动的游戏世界。此外,用户还可以通过简单的文字提示(prompt)来改变世界内容,创造出各种超现实的场景和事件。生成的游戏世界可以通过链接分享。
功能亮点:
图片到世界的实时转化: 用户只需上传任何图片,无论是照片、概念画作、经典名画还是儿童涂鸦,Mirage 2 都能基于其生成一个可以自由探索的、实时的互动世界;
文本提示驱动世界演变: 用户可以通过简单的文本提示(prompt),在生成的游戏世界中创造出各种超现实的场景和事件,比如在儿童的画作中添加树木、建造游乐场;
即时分享与多人游戏: 用户可以生成一个专属的游戏链接,他人无需下载,点击即可加入,实时体验和互动;
技术与性能的显著提升: 相比 Mirage 1,Mirage 2 实现了多项关键优化,包括: 能够处理更多样化的图像类型和生成多种主题风格,画面质量大幅提升以及游戏体验更流畅,响应更迅速。
体验链接:
https://dynamicslab.ai(@DynamicsLab_AI@X)
3、超微型的语音模型 KittenTTS:大小不到 25MB
Stellon Labs 是一家专注于微型前沿模型(tiny frontier models)的 AI 研究实验室,由 YC 孵化。
他们发布的首个模型是 KittenTTS,一款超小型的开源文本转语音(TTS)模型,其大小不到 25MB。该模型在发布后短短三周内便获得了巨大的关注,在 GitHub 上斩获 8000 多个星标,模型下载量超过 4.5 万次。
功能亮点:
超轻量级: 模型大小不到 25MB;
CPU 优化: 无需 GPU,可在任何设备上运行;
高质量音色: 提供多种优质语音选项;
快速推理: 专为实时语音合成而优化。
Stellon Labs 的目标是构建覆盖语音、语言和视频智能领域的微型前沿模型,最终让 AI 技术能够在每一个设备上运行。
Github:https://github.com/KittenML/KittenTTS
相关链接:https://stellonlabs.com/
Y Combinator:https://www.ycombinator.com/launches/OEv-stellon-labs-building-tiny-ai-models-for-edge-devices
(@Y Combinator、@stellon-admin@Github、@ycombinator@X)
4、Plastic Labs 推出 Neuromancer XR 模型,专为 AI 原生记忆与社交认知设计

Plastic Labs 推出了其核心系列产品 Honcho 的关键模型——Neuromancer XR 模型。该模型专为 AI 原生记忆与社交认知设计,将 AI 的「记忆」能力从简单的信息存储提升为一种推理任务,能够从用户与智能体之间的对话中精准提取出确定的、原子化的结论,并已投入使用。
在技术层面,Neuromancer XR 的卓越性能源于一项关键的训练策略:通过在约 1 万条人工整理的结论推导轨迹上对 Qwen3-8B 模型进行微调,它能够生成自包含且便于检索的结论,从而有效地进行上下文综合。基于该模型,Honcho 在 LoCoMo 评估中取得了 86.9% 的最先进准确率。

本次发布还透露了未来的产品规划。即将推出的 Neuromancer MR 将是一个专注于预测性推理的元推理模型。Plastic Labs 表示,这一系列模型将帮助其实现核心使命——超越传统的静态记忆。
Blog:https://blog.plasticlabs.ai/research/Introducing-Neuromancer-XR
相关链接:https://plasticlabs.ai/neuromancer
平台链接:https://honcho.dev/(@plastic_labs@X)
5、Runway Game Worlds Beta 世界模型,实现游戏剧情实时生成与动态演变
8 月 22 日,Runway 推出 Runway Game Worlds Beta 世界模型。其旨在开创一个全新的游戏品类:通用世界模型(General World Models),该模型可将游戏中的角色、故事和世界从预先设定的脚本和模型中解放出来,实现实时生成与动态演变。
技术亮点:
Game Worlds 的核心技术在于其对 AI 的创新应用,特别是在非线性叙事体验上的突破。它能够利用 AI 在玩家每一次游玩时,实时生成个性化的故事、角色和多模态媒体内容,从而确保每一场游戏体验都是独一无二的。
Runway 指出,这不仅关乎像素的生成,更重要的是探索新的交互机制。玩家的选择将直接影响世界的演变和故事的走向。
目前,Game Worlds Beta 提供两种主要体验模式:
预设游戏:玩家可以体验三款旨在展示不同 AI 玩法机制的预设游戏:
a.《The Last Score》:一款在严苛限制下完成任务的抢劫题材游戏;
b.《Athena Springs》:一款需要玩家在世界中寻找答案的紧张悬疑游戏;
c.《The Gallic Storm》:一款通过游戏化叙事学习真实历史的互动历史游戏。
自定义游戏:玩家可以利用 AI 创建属于自己的游戏世界,探索任何想象中的故事、角色或概念。这些自定义游戏默认为私有,但也可以选择公开分享。
体验链接:https://play.runwayml.com/login
官方链接:https://runwayml.com/careers(@runwayml@X)
6、Aqua Voice 发布 ASR 新模型 Avalon,专为 AI 交互场景打造
核心亮点速览:

模型简介: Aqua Voice 公司发布了全新的语音识别模型 Avalon,该模型专为人机交互场景优化,尤其在软件开发和编程等专业领域表现出色。
性能卓越: 在 OpenASR 基准测试中,Avalon 在 8 个标准测试集里有 7 个超越了 Whisper Large v3,并在 6 个测试集上优于 ElevenLabs Scribe。
创新基准: 团队专门为 Avalon 创建了 AISpeak 基准测试,该数据集包含大量来自 Twitch 直播和 YouTube 视频中的 AI 术语和行业专有名词,例如「Claude Code」和「MCP」。
实战优势: 在 AISpeak-10 这个极具挑战性的子集中,Avalon 的关键术语转录准确率高达 97.4%,远超 NVIDIA Canary 1B(51.5%)和 Whisper Large v3(65.1%)。
模型设计哲学:为真实对话而非朗读而生
Aqua Voice 公司认为,传统语音模型大量依赖于有声书、会议记录和新闻广播等数据集进行训练,导致其在应对用户真实、口语化的表达时,常常出现「低级」错误。
与之相反,Avalon 的目标是「为人们如何与电脑对话」而设计。其训练数据管线不仅包含公共音频,还特别针对软件开发和 AI 术语进行优化,以准确转录「git checkout dev」、「GPT-4o」等专有名词。这种聚焦于实际应用场景的策略,不仅大幅提升了模型在特定领域的表现,也意外地让其在整体性能上实现了飞跃。
发布计划
已上线 : Avalon 模型的英文版本现已集成至 Aqua 应用中。
即将推出 : Aqua Voice 正在训练支持更多语言的模型,预计将在未来几周内发布多语言版本。
目前,用户可以通过 Aqua 应用体验 Avalon 的强大功能,或通过官方网站申请 API 访问权限。
(@Aqua Voice 官网)
02 有亮点的产品
1、谷歌推出智能家居语音助手 Gemini for Home
8 月 21 日,谷歌宣布推出全新语音助手「Gemini for Home」,将于今年 10 月通过早期体验计划登陆 Google Nest 智能音箱和显示屏,逐步取代现有 Google Assistant。
用户依旧可以通过「Hey Google」唤醒助手,支持家中所有成员和访客使用,从而掌控智能灯光、音乐、定时器等设备。
该助手深度集成 Gemini Live 实时交互功能,不仅能响应日常指令(如控制家电、查询天气),还可通过联动智能家居设备实现 「场景化服务」:例如根据用户回家时间自动调节室内温度、提前准备照明模式,甚至能结合家庭成员习惯推荐影视内容。
(@前沿在线、@墨客星球)
2、特斯拉的语音唤醒功能将接入豆包+DeepSeek
8 月 21 日,从特斯拉官网《特斯拉车机语音助手使用条款》里看到,每辆特斯拉都配备了语音助手功能。车主可以通过物理按键,「嘿,Tesla」或自定义唤醒词激活车机语音助手,进而与车辆进行语音交互。

显示特斯拉车机语音助手将接入火山引擎提供的 Doubao 大模型(云雀大模型)和 DeepSeek Chat。也就是说语音命令功能采用豆包,AI 互动功能采用 DeepSeek 来实现与车内人员的交互。
车内六个座位分别设定语音识别区域,只有所设置的座位发出的指令才会被识别。这样做可以避免后排客人误触命令打扰驾驶。
海外版特斯拉已将 Grok AI 接入系统,支持如讲故事、回答问题等对话功能,但暂时还不能做导航、调温度这些核心控制。
不过,官方还暂未公布具体上线时间。(@Model 3 情报、@TechX 探索)
03 有态度的观点
1、vivo 执行副总裁:MR 是连接物理世界和数字世界的桥梁
近日,在 vivo 会客厅上, vivo 执行副总裁、首席运营官、vivo 中央研究院院长胡柏山指出:
MR 不会是孤立的头显,不会像过去某些可穿戴一样成为「边角产品」,而是成为和手机、机器人并肩作战的工具。它的使命,不只是极客玩具,而是要成为家庭机器人的「眼睛」。
「为什么是家庭?」到 2035 年,中国 60 岁以上人口将突破 4 亿。与此同时,中国家庭平均每天要花 3 小时在家务上。人口老龄化 + 家务刚需,让「家庭机器人」成了比工业机器人、商用机器人更难、也更有意义的智能高地。
但问题是,家庭场景太复杂:物体、环境、甚至人类的情绪都在随时变化。要在这种环境中提供可信赖的帮助,机器人必须具备看懂世界的能力。而这正是 MR 的价值所在:
能做毫米级的空间建模,看清家里复杂的环境;
能读懂动作和表情,让交互更自然;
能在动态环境里执行多任务,解决泛化问题。
对此,胡柏山直言「MR 是连接物理世界和数字世界的桥梁。」同时,机器人领域专家、艾欧智能 IO-Al.tech 创始人陈相羽说:机器人普及的痛点是空间数据、动作数据的缺乏,而 MR 设备正是这两类数据的采集器和翻译官。
换句话说,如果没有 MR,家庭机器人只能停留在纸面上。(@APPSO)


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻