OpenBMB 发布无分词器 TTS VoxCPM；儿童口语硬件 Dex 融资 480 万美元：拍摄真实物体，对话学习外语丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、OpenBMB 发布 VoxCPM：无分词器 TTS，实现上下文感知语音生成与逼真语音克隆

VoxCPM 是一款创新的无分词器（Tokenizer-Free）文本到语音（TTS）系统，它将语音合成的真实感提升至全新高度。通过在连续空间中建模语音，VoxCPM 突破了传统离散分词的局限，并实现了两大核心功能：上下文感知的语音生成和逼真的零样本语音克隆。

与主流方法将语音转换为离散标记不同，VoxCPM 采用端到端的扩散自回归（Diffusion Autoregressive）架构，直接从文本生成连续的语音表示。该系统构建于 MiniCPM-4 骨干模型之上，通过分层语言建模（Hierarchical Language Modeling）和 FSQ 约束，实现了隐式的语义-声学解耦（Semantic-Acoustic Decoupling），显著增强了语音的表达力和生成稳定性。

主要亮点

上下文感知、富有表现力的语音生成： VoxCPM 能够深度理解文本内容，推断并生成恰当的韵律，从而输出极具表现力且流畅自然的语音。它能根据文本内容自发调整说话风格，基于海量的 180 万小时双语语料库训练，可生成高度契合的个性化声音表达。
逼真的语音克隆： 仅需一小段参考音频，VoxCPM 即可实现精准的零样本语音克隆。它不仅能完美复刻说话者的音色，更能捕捉口音、情感语调、节奏和停顿等细微特征，打造出高度忠实且自然的仿声声音。
高效的合成速度： VoxCPM 支持流式合成，在消费级 NVIDIA RTX 4090 GPU 上，其实时因子（RTF）低至 0.17，可轻松满足实时应用的需求。

2、World Labs 推出 AI 模型升级：单图生成「持久 3D 世界」，几何更连贯、风格更丰富

World Labs 近日宣布升级其 AI 模型，实现从单张图像生成更持久、更连贯的 3D 世界。这款模型现在能够产出更清晰、更统一的几何结构，并能想象出多种多样风格的虚拟世界。这一突破性进展有望通过 AI 增强「空间智能」，在游戏、虚拟现实（VR）等领域掀起内容创作新浪潮。

关键亮点

「单图生成 3D 世界」模型升级： World Labs 推出了改进的 AI 模型，能够基于单张 2D 图像生成可探索的持久 3D 世界。
核心技术突破： 通过将 3D 世界生成框定为 2D 图像修复模型的「in-context learning」问题，并结合度量深度估计器将全景图提升至 3D 空间，显著减少了训练需求。
几何与风格大幅提升： 新模型生成的 3D 世界拥有更清晰、更连贯的几何结构，并能根据输入图像想象出多种不同的风格，克服了以往生成内容质量不佳的挑战。
超越现有技术： 官方研究论文指出，该方法在图像质量指标上优于基于视频合成的方法，且明确从一开始就对 3D 结构进行建模，带来了更优越的结果。
应用前景广阔： 该技术有望在游戏（生成整个游戏关卡）、虚拟现实（VR）、以及创建沉浸式学习环境等领域发挥巨大作用，降低 3D 内容创作的成本和复杂性。
有限 Beta 体验： 用户目前可在有限 Beta 版本中探索数千个已生成的 3D 世界，并可注册申请创建自己的世界。

World Labs 的改进模型已推出，用户可以在 World Labs 官网（worldlabs.ai）申请访问其有限 Beta 预览版，探索或创建自己的 3D 世界。相关技术细节已在 arXiv 论文 2503.16611 中公布。

3、KREA AI 推出「Real-time Video」功能：无限长视频生成

KREA AI 最近在 X 平台宣布推出的创新功能 Real-time Video，能够实时生成无限长的视频内容，从而彻底革新了传统的 AI 视频创作领域。这项功能不仅让用户对视频创作拥有了全面的控制力，还能生成具有卓越物理理解能力的真实感视频。它极大地降低了视频制作的门槛，使得专业创作者和普通用户都可以更高效地将创意变为现实，并有望为游戏开发、动画制作、品牌营销等多个行业带来颠覆性的变革。

02有亮点的产品

1、YouTube Shorts 集成 Google Veo 3：免费 AI 视频生成，赋能全球创作者

在 #MadeOnYouTube 发布会上，YouTube 揭示了超过 30 项+创新的 AI 功能，其核心在于将 Google DeepMind 的 Veo 3 Fast 模型深度整合进 Shorts，旨在全面赋能创作者。

借助这些新功能，创作者只需输入文本提示，便可免费生成配备同步音频的完整竖屏视频片段。同时，创作者还可在短片内直接完成背景替换、动态效果添加、道具增设及视频风格重绘等精细化操作。

此外，YouTube 同步推出了「Edit with AI」按钮，能将原始素材自动剪辑为视频初稿；同时，也提供了「Remix」工具，极大方便用户对现有内容进行二次创作。Google 高管 Demis Hassabis 与 Neal Mohan 已确认，这些创新功能目前已率先在美国、加拿大、英国、澳大利亚和新西兰市场上线。

详细链接：

https://x.com/YouTubeCreators/status/1968006136030003257

(@YouTube Creators X)

2、Dex 获 480 万美元融资：拍摄真实世界物体，自由对话学习外语

Dex 是一家由三位前科技从业者创立的初创公司，他们开发了一款名为「Dex」的 AI 驱动的儿童语言学习设备，旨在鼓励孩子探索真实世界并学习新语言。该公司近期宣布已成功融资 480 万美元，该设备定价 250 美元，已获得数百个家庭的购买。

关键亮点

AI 驱动的沉浸式学习：「Dex」设备集成了摄像头和触摸屏，孩子们可以通过拍摄真实世界的物体来学习其名称，AI 识别后会以选定语言发音。它还包含互动故事课程和游戏，强调动手体验和真实语境下的语言习得。
多语言和方言支持：该设备面向 3-8 岁儿童，目前支持中文、法语、德语、印地语、意大利语、日语、韩语和西班牙语，并提供包括埃及阿拉伯语、台湾普通话和墨西哥西班牙语在内的 34 种方言支持。
家长监控与安全保障：配套的家长 App 可追踪孩子的学习进度，如掌握的词汇和使用时长。「Dex」采用强大的安全机制，包括实时对话评估和词汇过滤，以防止不当内容，并承诺零数据保留政策。
未来功能展望：公司正在开发一项 AI 聊天机器人功能，允许儿童进行自由对话式提问，但该功能尚未准备好大规模推广。

详细链接：

https://techcrunch.com/2025/08/20/dex-is-an-ai-powered-camera-device-that-helps-children-learn-new-languages/

(@TechCrunch)

3、Nothing 获 2 亿美元融资，明年发布 AI 设备

智能设备企业 Nothing 今天在英国宣布完成 2 亿美元 C 轮融资，老虎环球领投，现有投资方谷歌风投、EQT 等跟投；高通创投和印度富豪 Nikhil Kamath 首次加入。

据了解，Nothing 目前已经出货数百万台设备（包括智能手机和耳机等产品），25 年实现历史累计销售额突破 10 亿美元。

值得注意的是，Nothing 从创立之初就画的 AI 设备大饼，这次又更新了：创始人裴宇透露，将在明年推出「AI 原生设备」（AI-native device），一种独立于手机的设备。

据悉，Nothing 的 AI 设备将能够在用户需要时随时可用，并由智能驱动，将理解转化为行动。其还支持跨模态捕捉上下文，并按需生成交互界面，随用户目标而变化。

裴宇表示，和 AI 所取得的革命性进展相比，智能手机的体验仍然停滞不前，创新局限，效果差强人意，是公司加力 AI 原生设备的原因。

(@APPSO)

03有态度的观点

1、Altman：AI 无法替代真实的人际情感

在前不久的一次深度访谈中，硅谷知名投资人 Vinod Khosla 和 OpenAI CEO Sam Altman 探讨了关于 AI 的未来走向，以及哪些能力会被强化，哪些人类价值不会被替代等内容。

访谈中，Sam Altman 直言，AI 的能力边界正在被不断突破，从软件开发到科学研究，几乎所有类型的智力劳动都可能被 AI 覆盖。然而，他强调，人与人之间的情感连接是任何技术都无法取代的。

同样一句鼓励的话，从一个真实的人那里听到，和从 AI 的聊天界面看到，感受是完全不一样的。

Altman 解释，这种差异不仅仅是文字内容的不同，而是源于人类交流中独有的温度与细节 —— 眼神交流、语调起伏、肢体动作、甚至是彼此之间长期建立的信任感。这些微妙的情绪信号构成了人际关系的核心，而 AI 再先进，也只能在表层模仿，无法真正触及这种深层体验。

他还指出，AI 的普及将彻底改变软件行业的生产方式。未来，普通人无需编程背景，就能直接生成符合自己需求的应用程序。这一趋势将对传统 SaaS 模式构成冲击 —— 如果现有产品无法快速适应这种变化，其市场份额和商业价值都可能遭受重大损失。

在谈及行业未来时，Altman 特别提到能源问题。他认为，算力需求的持续攀升将使能源成为 AI 发展的核心瓶颈之一。即便新技术如 DeepSeek 在效率上取得突破，未来 AI 的定价仍可能与电力成本直接挂钩，这意味着能源供应能力将成为全球科技竞争的关键变量。

Altman 总结道，AI 将深刻重塑生产力格局，推动社会进入一个高度自动化与个性化的时代。但无论技术如何进步，真实的人际情感与交流，依然是人类社会不可替代的精神支柱。