不到 25MB！端侧 TTS 模型 KittenTTS 开源；Aqua Voice 发布 ASR 模型，专为人机对话设计丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、百度发布「蒸汽机」视频模型 2.0，可生成音画同步、口型精准的情感中文对话视频

8 月 21 日，百度发布中文音视频一体化生成的 I2V 模型「百度蒸汽机 2.0」，能够一步到位地生成音画同步、口型精准、情感自然的中文对话视频。

据悉，本次百度蒸汽机 2.0 实现全系模型开放 —— Turbo 版、Lite 版、Pro 版，及有声版全部开放体验。

官方介绍，作为行业首个中文音视频一体化生成的 I2V 模型，百度蒸汽机不仅支持环境音效，更支持多角色语音的一体化生成，能实现语音与唇形、表情、动作的毫秒级精准对齐。

有声版可以生成 5s 或者 10s 的视频，而 Turbo 等三个版本是 5s，像素方面除了 Pro 版本支持 1080p，其他三个版本都是 720p 高清画质。

在发布会上，百度特别提到，模型是「音视频一体化」的底层生成逻辑，声音和画面是同步构思的，而非后期匹配，在训练时就把画面和声音放在一个模型里同步学习。

同时，百度蒸汽机首创多模态潜在空间规划技术（Latent Multi-Modal Planner），在该技术支持下，蒸汽机能够自主协调多角色身份、情感与互动逻辑，保障叙事连贯性。

语言表达上，百度蒸汽机做到深度中文场景适配。基于海量中文语料深度训练，蒸汽机能以超 98% 的还原度精准呈现中文语音细节与情感表达。

体验链接：

https://huixiang.baidu.com/（@APPSO）

2、Mirage 2：支持在线游玩的实时通用领域生成式世界引擎

8 月 21 日，Dynamics Lab 发布新一代实时生成式世界引擎 Mirage 2。

Mirage 2 是一个可在线游玩的实时通用领域生成式世界引擎。用户上传任意图像，无论是照片、概念艺术、经典绘画还是儿童画作，并立即将它们转化为可实时探索、互动的游戏世界。此外，用户还可以通过简单的文字提示（prompt）来改变世界内容，创造出各种超现实的场景和事件。生成的游戏世界可以通过链接分享。

功能亮点：

图片到世界的实时转化：用户只需上传任何图片，无论是照片、概念画作、经典名画还是儿童涂鸦，Mirage 2 都能基于其生成一个可以自由探索的、实时的互动世界；
文本提示驱动世界演变：用户可以通过简单的文本提示（prompt），在生成的游戏世界中创造出各种超现实的场景和事件，比如在儿童的画作中添加树木、建造游乐场；
即时分享与多人游戏：用户可以生成一个专属的游戏链接，他人无需下载，点击即可加入，实时体验和互动；
技术与性能的显著提升：相比 Mirage 1，Mirage 2 实现了多项关键优化，包括：能够处理更多样化的图像类型和生成多种主题风格，画面质量大幅提升以及游戏体验更流畅，响应更迅速。

体验链接：

https://dynamicslab.ai（@DynamicsLab_AI@X）

3、超微型的语音模型 KittenTTS：大小不到 25MB

Stellon Labs 是一家专注于微型前沿模型（tiny frontier models）的 AI 研究实验室，由 YC 孵化。

他们发布的首个模型是 KittenTTS，一款超小型的开源文本转语音（TTS）模型，其大小不到 25MB。该模型在发布后短短三周内便获得了巨大的关注，在 GitHub 上斩获 8000 多个星标，模型下载量超过 4.5 万次。

功能亮点：

超轻量级：模型大小不到 25MB；
CPU 优化：无需 GPU，可在任何设备上运行；
高质量音色：提供多种优质语音选项；
快速推理：专为实时语音合成而优化。

Stellon Labs 的目标是构建覆盖语音、语言和视频智能领域的微型前沿模型，最终让 AI 技术能够在每一个设备上运行。

Github:https://github.com/KittenML/KittenTTS

相关链接：https://stellonlabs.com/

Y Combinator:https://www.ycombinator.com/launches/OEv-stellon-labs-building-tiny-ai-models-for-edge-devices

(@Y Combinator、@stellon-admin@Github、@ycombinator@X)

4、Plastic Labs 推出 Neuromancer XR 模型，专为 AI 原生记忆与社交认知设计

Plastic Labs 推出了其核心系列产品 Honcho 的关键模型——Neuromancer XR 模型。该模型专为 AI 原生记忆与社交认知设计，将 AI 的「记忆」能力从简单的信息存储提升为一种推理任务，能够从用户与智能体之间的对话中精准提取出确定的、原子化的结论，并已投入使用。

在技术层面，Neuromancer XR 的卓越性能源于一项关键的训练策略：通过在约 1 万条人工整理的结论推导轨迹上对 Qwen3-8B 模型进行微调，它能够生成自包含且便于检索的结论，从而有效地进行上下文综合。基于该模型，Honcho 在 LoCoMo 评估中取得了 86.9% 的最先进准确率。

本次发布还透露了未来的产品规划。即将推出的 Neuromancer MR 将是一个专注于预测性推理的元推理模型。Plastic Labs 表示，这一系列模型将帮助其实现核心使命——超越传统的静态记忆。

Blog:https://blog.plasticlabs.ai/research/Introducing-Neuromancer-XR

相关链接：https://plasticlabs.ai/neuromancer

平台链接：https://honcho.dev/（@plastic_labs@X）

5、Runway Game Worlds Beta 世界模型，实现游戏剧情实时生成与动态演变

8 月 22 日，Runway 推出 Runway Game Worlds Beta 世界模型。其旨在开创一个全新的游戏品类：通用世界模型（General World Models），该模型可将游戏中的角色、故事和世界从预先设定的脚本和模型中解放出来，实现实时生成与动态演变。

技术亮点：

Game Worlds 的核心技术在于其对 AI 的创新应用，特别是在非线性叙事体验上的突破。它能够利用 AI 在玩家每一次游玩时，实时生成个性化的故事、角色和多模态媒体内容，从而确保每一场游戏体验都是独一无二的。

Runway 指出，这不仅关乎像素的生成，更重要的是探索新的交互机制。玩家的选择将直接影响世界的演变和故事的走向。

目前，Game Worlds Beta 提供两种主要体验模式：

预设游戏：玩家可以体验三款旨在展示不同 AI 玩法机制的预设游戏：

a.《The Last Score》：一款在严苛限制下完成任务的抢劫题材游戏；

b.《Athena Springs》：一款需要玩家在世界中寻找答案的紧张悬疑游戏；

c.《The Gallic Storm》：一款通过游戏化叙事学习真实历史的互动历史游戏。

自定义游戏：玩家可以利用 AI 创建属于自己的游戏世界，探索任何想象中的故事、角色或概念。这些自定义游戏默认为私有，但也可以选择公开分享。

体验链接：https://play.runwayml.com/login

官方链接：https://runwayml.com/careers（@runwayml@X）

6、Aqua Voice 发布 ASR 新模型 Avalon，专为 AI 交互场景打造

核心亮点速览：

模型简介： Aqua Voice 公司发布了全新的语音识别模型 Avalon，该模型专为人机交互场景优化，尤其在软件开发和编程等专业领域表现出色。
性能卓越： 在 OpenASR 基准测试中，Avalon 在 8 个标准测试集里有 7 个超越了 Whisper Large v3，并在 6 个测试集上优于 ElevenLabs Scribe。
创新基准： 团队专门为 Avalon 创建了 AISpeak 基准测试，该数据集包含大量来自 Twitch 直播和 YouTube 视频中的 AI 术语和行业专有名词，例如「Claude Code」和「MCP」。
实战优势： 在 AISpeak-10 这个极具挑战性的子集中，Avalon 的关键术语转录准确率高达 97.4%，远超 NVIDIA Canary 1B（51.5%）和 Whisper Large v3（65.1%）。

模型设计哲学：为真实对话而非朗读而生

Aqua Voice 公司认为，传统语音模型大量依赖于有声书、会议记录和新闻广播等数据集进行训练，导致其在应对用户真实、口语化的表达时，常常出现「低级」错误。

与之相反，Avalon 的目标是「为人们如何与电脑对话」而设计。其训练数据管线不仅包含公共音频，还特别针对软件开发和 AI 术语进行优化，以准确转录「git checkout dev」、「GPT-4o」等专有名词。这种聚焦于实际应用场景的策略，不仅大幅提升了模型在特定领域的表现，也意外地让其在整体性能上实现了飞跃。

发布计划

已上线 ： Avalon 模型的英文版本现已集成至 Aqua 应用中。
即将推出 ： Aqua Voice 正在训练支持更多语言的模型，预计将在未来几周内发布多语言版本。

目前，用户可以通过 Aqua 应用体验 Avalon 的强大功能，或通过官方网站申请 API 访问权限。

（@Aqua Voice 官网）

02 有亮点的产品

1、谷歌推出智能家居语音助手 Gemini for Home

8 月 21 日，谷歌宣布推出全新语音助手「Gemini for Home」，将于今年 10 月通过早期体验计划登陆 Google Nest 智能音箱和显示屏，逐步取代现有 Google Assistant。

用户依旧可以通过「Hey Google」唤醒助手，支持家中所有成员和访客使用，从而掌控智能灯光、音乐、定时器等设备。

该助手深度集成 Gemini Live 实时交互功能，不仅能响应日常指令（如控制家电、查询天气），还可通过联动智能家居设备实现「场景化服务」：例如根据用户回家时间自动调节室内温度、提前准备照明模式，甚至能结合家庭成员习惯推荐影视内容。

（@前沿在线、@墨客星球）

2、特斯拉的语音唤醒功能将接入豆包+DeepSeek

8 月 21 日，从特斯拉官网《特斯拉车机语音助手使用条款》里看到，每辆特斯拉都配备了语音助手功能。车主可以通过物理按键，「嘿，Tesla」或自定义唤醒词激活车机语音助手，进而与车辆进行语音交互。

显示特斯拉车机语音助手将接入火山引擎提供的 Doubao 大模型（云雀大模型）和 DeepSeek Chat。也就是说语音命令功能采用豆包，AI 互动功能采用 DeepSeek 来实现与车内人员的交互。

车内六个座位分别设定语音识别区域，只有所设置的座位发出的指令才会被识别。这样做可以避免后排客人误触命令打扰驾驶。

海外版特斯拉已将 Grok AI 接入系统，支持如讲故事、回答问题等对话功能，但暂时还不能做导航、调温度这些核心控制。

不过，官方还暂未公布具体上线时间。（@Model 3 情报、@TechX 探索）

03 有态度的观点

1、vivo 执行副总裁：MR 是连接物理世界和数字世界的桥梁

近日，在 vivo 会客厅上， vivo 执行副总裁、首席运营官、vivo 中央研究院院长胡柏山指出：

MR 不会是孤立的头显，不会像过去某些可穿戴一样成为「边角产品」，而是成为和手机、机器人并肩作战的工具。它的使命，不只是极客玩具，而是要成为家庭机器人的「眼睛」。

「为什么是家庭？」到 2035 年，中国 60 岁以上人口将突破 4 亿。与此同时，中国家庭平均每天要花 3 小时在家务上。人口老龄化 + 家务刚需，让「家庭机器人」成了比工业机器人、商用机器人更难、也更有意义的智能高地。

但问题是，家庭场景太复杂：物体、环境、甚至人类的情绪都在随时变化。要在这种环境中提供可信赖的帮助，机器人必须具备看懂世界的能力。而这正是 MR 的价值所在：

能做毫米级的空间建模，看清家里复杂的环境；
能读懂动作和表情，让交互更自然；
能在动态环境里执行多任务，解决泛化问题。

对此，胡柏山直言「MR 是连接物理世界和数字世界的桥梁。」同时，机器人领域专家、艾欧智能 IO-Al.tech 创始人陈相羽说：机器人普及的痛点是空间数据、动作数据的缺乏，而 MR 设备正是这两类数据的采集器和翻译官。

换句话说，如果没有 MR，家庭机器人只能停留在纸面上。(@APPSO)

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

不到 25MB！端侧 TTS 模型 KittenTTS 开源；Aqua Voice 发布 ASR 模型，专为人机对话设计丨日报

01 有话题的技术

02 有亮点的产品

03 有态度的观点

分类

关键词