OpenBMB 发布无分词器 TTS VoxCPM;儿童口语硬件 Dex 融资 480 万美元:拍摄真实物体,对话学习外语丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、OpenBMB 发布 VoxCPM:无分词器 TTS,实现上下文感知语音生成与逼真语音克隆
VoxCPM 是一款创新的无分词器(Tokenizer-Free)文本到语音(TTS)系统,它将语音合成的真实感提升至全新高度。通过在连续空间中建模语音,VoxCPM 突破了传统离散分词的局限,并实现了两大核心功能:上下文感知的语音生成和逼真的零样本语音克隆。
与主流方法将语音转换为离散标记不同,VoxCPM 采用端到端的扩散自回归(Diffusion Autoregressive)架构,直接从文本生成连续的语音表示。该系统构建于 MiniCPM-4 骨干模型之上,通过分层语言建模(Hierarchical Language Modeling)和 FSQ 约束,实现了隐式的语义-声学解耦(Semantic-Acoustic Decoupling),显著增强了语音的表达力和生成稳定性。
主要亮点
上下文感知、富有表现力的语音生成: VoxCPM 能够深度理解文本内容,推断并生成恰当的韵律,从而输出极具表现力且流畅自然的语音。它能根据文本内容自发调整说话风格,基于海量的 180 万小时双语语料库训练,可生成高度契合的个性化声音表达。
逼真的语音克隆: 仅需一小段参考音频,VoxCPM 即可实现精准的零样本语音克隆。它不仅能完美复刻说话者的音色,更能捕捉口音、情感语调、节奏和停顿等细微特征,打造出高度忠实且自然的仿声声音。
高效的合成速度: VoxCPM 支持流式合成,在消费级 NVIDIA RTX 4090 GPU 上,其实时因子(RTF)低至 0.17,可轻松满足实时应用的需求。
相关链接:
https://github.com/OpenBMB/VoxCPM
(@OpenBMB )
2、World Labs 推出 AI 模型升级:单图生成「持久 3D 世界」,几何更连贯、风格更丰富
World Labs 近日宣布升级其 AI 模型,实现从单张图像生成更持久、更连贯的 3D 世界。这款模型现在能够产出更清晰、更统一的几何结构,并能想象出多种多样风格的虚拟世界。这一突破性进展有望通过 AI 增强「空间智能」,在游戏、虚拟现实(VR)等领域掀起内容创作新浪潮。
关键亮点
「单图生成 3D 世界」模型升级: World Labs 推出了改进的 AI 模型,能够基于单张 2D 图像生成可探索的持久 3D 世界。
核心技术突破: 通过将 3D 世界生成框定为 2D 图像修复模型的「in-context learning」问题,并结合度量深度估计器将全景图提升至 3D 空间,显著减少了训练需求。
几何与风格大幅提升: 新模型生成的 3D 世界拥有更清晰、更连贯的几何结构,并能根据输入图像想象出多种不同的风格,克服了以往生成内容质量不佳的挑战。
超越现有技术: 官方研究论文指出,该方法在图像质量指标上优于基于视频合成的方法,且明确从一开始就对 3D 结构进行建模,带来了更优越的结果。
应用前景广阔: 该技术有望在游戏(生成整个游戏关卡)、虚拟现实(VR)、以及创建沉浸式学习环境等领域发挥巨大作用,降低 3D 内容创作的成本和复杂性。
有限 Beta 体验: 用户目前可在有限 Beta 版本中探索数千个已生成的 3D 世界,并可注册申请创建自己的世界。
World Labs 的改进模型已推出,用户可以在 World Labs 官网 (worldlabs.ai) 申请访问其有限 Beta 预览版,探索或创建自己的 3D 世界。相关技术细节已在 arXiv 论文 2503.16611 中公布。
相关链接:
https://x.com/theworldlabs/status/1967986124963692715
(@World Labs X )
3、KREA AI 推出「Real-time Video」功能:无限长视频生成
KREA AI 最近在 X 平台宣布推出的创新功能 Real-time Video,能够实时生成无限长的视频内容,从而彻底革新了传统的 AI 视频创作领域。这项功能不仅让用户对视频创作拥有了全面的控制力,还能生成具有卓越物理理解能力的真实感视频。它极大地降低了视频制作的门槛,使得专业创作者和普通用户都可以更高效地将创意变为现实,并有望为游戏开发、动画制作、品牌营销等多个行业带来颠覆性的变革。
相关链接:
https://x.com/krea_ai/status/1967962183314334185
(@KREA X)
02有亮点的产品
1、YouTube Shorts 集成 Google Veo 3:免费 AI 视频生成,赋能全球创作者
在 #MadeOnYouTube 发布会上,YouTube 揭示了超过 30 项+创新的 AI 功能,其核心在于将 Google DeepMind 的 Veo 3 Fast 模型深度整合进 Shorts,旨在全面赋能创作者。
借助这些新功能,创作者只需输入文本提示,便可免费生成配备同步音频的完整竖屏视频片段。同时,创作者还可在短片内直接完成背景替换、动态效果添加、道具增设及视频风格重绘等精细化操作。
此外,YouTube 同步推出了「Edit with AI」按钮,能将原始素材自动剪辑为视频初稿;同时,也提供了「Remix」工具,极大方便用户对现有内容进行二次创作。Google 高管 Demis Hassabis 与 Neal Mohan 已确认,这些创新功能目前已率先在美国、加拿大、英国、澳大利亚和新西兰市场上线。
详细链接:
https://x.com/YouTubeCreators/status/1968006136030003257
(@YouTube Creators X)
2、Dex 获 480 万美元融资:拍摄真实世界物体,自由对话学习外语
Dex 是一家由三位前科技从业者创立的初创公司,他们开发了一款名为「Dex」的 AI 驱动的儿童语言学习设备,旨在鼓励孩子探索真实世界并学习新语言。该公司近期宣布已成功融资 480 万美元,该设备定价 250 美元,已获得数百个家庭的购买。
关键亮点
AI 驱动的沉浸式学习:「Dex」设备集成了摄像头和触摸屏,孩子们可以通过拍摄真实世界的物体来学习其名称,AI 识别后会以选定语言发音。它还包含互动故事课程和游戏,强调动手体验和真实语境下的语言习得。
多语言和方言支持:该设备面向 3-8 岁儿童,目前支持中文、法语、德语、印地语、意大利语、日语、韩语和西班牙语,并提供包括埃及阿拉伯语、台湾普通话和墨西哥西班牙语在内的 34 种方言支持。
家长监控与安全保障:配套的家长 App 可追踪孩子的学习进度,如掌握的词汇和使用时长。「Dex」采用强大的安全机制,包括实时对话评估和词汇过滤,以防止不当内容,并承诺零数据保留政策。
未来功能展望:公司正在开发一项 AI 聊天机器人功能,允许儿童进行自由对话式提问,但该功能尚未准备好大规模推广。
详细链接:
https://techcrunch.com/2025/08/20/dex-is-an-ai-powered-camera-device-that-helps-children-learn-new-languages/
(@TechCrunch)
3、Nothing 获 2 亿美元融资,明年发布 AI 设备
智能设备企业 Nothing 今天在英国宣布完成 2 亿美元 C 轮融资,老虎环球领投,现有投资方谷歌风投、EQT 等跟投;高通创投和印度富豪 Nikhil Kamath 首次加入。
据了解,Nothing 目前已经出货数百万台设备(包括智能手机和耳机等产品),25 年实现历史累计销售额突破 10 亿美元。
值得注意的是,Nothing 从创立之初就画的 AI 设备大饼,这次又更新了:创始人裴宇透露,将在明年推出「AI 原生设备」(AI-native device),一种独立于手机的设备。
据悉,Nothing 的 AI 设备将能够在用户需要时随时可用,并由智能驱动,将理解转化为行动。其还支持跨模态捕捉上下文,并按需生成交互界面,随用户目标而变化。
裴宇表示,和 AI 所取得的革命性进展相比,智能手机的体验仍然停滞不前,创新局限,效果差强人意,是公司加力 AI 原生设备的原因。
(@APPSO)
03有态度的观点
1、Altman:AI 无法替代真实的人际情感
在前不久的一次深度访谈中,硅谷知名投资人 Vinod Khosla 和 OpenAI CEO Sam Altman 探讨了关于 AI 的未来走向,以及哪些能力会被强化,哪些人类价值不会被替代等内容。
访谈中,Sam Altman 直言,AI 的能力边界正在被不断突破,从软件开发到科学研究,几乎所有类型的智力劳动都可能被 AI 覆盖。然而,他强调,人与人之间的情感连接是任何技术都无法取代的。
同样一句鼓励的话,从一个真实的人那里听到,和从 AI 的聊天界面看到,感受是完全不一样的。
Altman 解释,这种差异不仅仅是文字内容的不同,而是源于人类交流中独有的温度与细节 —— 眼神交流、语调起伏、肢体动作、甚至是彼此之间长期建立的信任感。这些微妙的情绪信号构成了人际关系的核心,而 AI 再先进,也只能在表层模仿,无法真正触及这种深层体验。
他还指出,AI 的普及将彻底改变软件行业的生产方式。未来,普通人无需编程背景,就能直接生成符合自己需求的应用程序。这一趋势将对传统 SaaS 模式构成冲击 —— 如果现有产品无法快速适应这种变化,其市场份额和商业价值都可能遭受重大损失。
在谈及行业未来时,Altman 特别提到能源问题。他认为,算力需求的持续攀升将使能源成为 AI 发展的核心瓶颈之一。即便新技术如 DeepSeek 在效率上取得突破,未来 AI 的定价仍可能与电力成本直接挂钩,这意味着能源供应能力将成为全球科技竞争的关键变量。
Altman 总结道,AI 将深刻重塑生产力格局,推动社会进入一个高度自动化与个性化的时代。但无论技术如何进步,真实的人际情感与交流,依然是人类社会不可替代的精神支柱。
(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻