智谱进军教育硬件市场，发布 AI 拍学机与学问卡；NVIDIA 开源物理 AI 基模 Cosmos 3 丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、高德 PilotTTS 开源：基于 20 万小时数据实现 SOTA，引入 Q-Former + CAMPPlus 双通路解耦架构

高德技术推出了一套名为 PilotTTS 的轻量级自回归语音合成系统，通过双通路条件解耦架构与三阶段精细化数据工程，在仅使用 20 万小时开源数据的条件下，于 Seed-TTS Eval 基准测试中实现了超越大规模数据训练方案的说话人相似度与内容准确率。

模块化架构集成：采用 Qwen3-0.6B 语言模型作为自回归骨架，集成 CosyVoice 3 的单码本 FSQ 分词器（25Hz）及基于 DiT（Diffusion Transformer）的条件流匹配（CFM）解码器，规避了多码本残差量化等高复杂度设计。
解耦条件机制创新：引入 Q-Former 与 CAMPPlus 双通路设计。Q-Former 配合冻结的 w2v-BERT 提取动态风格（语速、韵律、节奏），CAMPPlus 提取全局静态身份特征，解决了单一嵌入向量易丢失风格信息以及音频 token 续写鲁棒性差的问题。
核心性能参数：在 Seed-TTS Eval 评测中，中/英文说话人相似度（SIM）分别达 0.862 和 0.815，均位列对比系统第一；英文词错率（WER）为 1.50%，中文字错率（CER）为 0.87%，在数据量显著低于竞品的情况下实现 SOTA 指标。
可复现数据流水线：构建了包含 DNSMOS 评估、ASR 交叉转录、Qwen3-Force-Alignment 韵律标注及多维联合过滤的三阶段开源流水线，通过精细化标注提升了约 20 万小时存量数据的利用效率。
多维受控合成能力：通过后训练（Post-training）支持 11 类情感控制（平均成功率 88.1%）、4 类副语言行为（如包裹式笑声、哭腔）以及 14 种中国方言的零样本跨样本合成。

项目已全面开源，包括三阶段数据流水线配方、预训练模型权重（自回归模块及 CFM 解码器）以及支持零样本克隆与多维控制的训练/推理代码。

更多 Demo:

https://amapvoice.github.io/PilotTTS/

原文链接：

高德PilotTTS：通过开源算子、架构微调和精细数据工程，跑通可复现的 SOTA 语音合成之路

（@高德技术）

2、NVIDIA 开源 Cosmos 3：16B/64B 双塔架构 MoT 模型，支持 4-bit 量化与物理动作生成

NVIDIA（英伟达）正式开源了针对物理 AI 领域设计的基座模型 Cosmos 3。该模型通过统一的混合 Transformer（MoT）架构，将物理推理、环境模拟与动作生成整合进单一模型，旨在为机器人、自动驾驶及智能空间提供具备物理常识的预测与控制能力。

双塔式 MoT 架构实现能力解耦：模型由 Reasoner（推理塔）和 Generator（生成塔）组成。推理塔作为「大脑」，采用自回归 VLM 架构解释多模态观测数据；生成塔则基于扩散过程，在推理塔的引导下生成物理一致的视频和动作序列（Action Sequences）。
分级参数与硬件适配优化：提供 16B 参数的 Cosmos 3 Nano（针对 RTX 6000 等工作站级 GPU 实时推理优化）以及 64B 参数的 Cosmos 3 Super（针对 Hopper 与 Blackwell 架构，用于大规模合成数据生成和高精度推理）。
原生支持多模态动作生成：模型不仅支持 Text/Image-to-Video，更核心的突破在于支持 Action-conditioned 世界模型。开发者可通过 Action+Video+Text 输入，输出符合物理定律的未来观测画面或直接生成机器人策略（Policy）。
全栈推理加速与量化方案：通过 NIM 微服务支持 NVFP4（4-bit 浮点）量化，推理速度提升达 2 倍。引入高效视频采样（EVS）技术，在块（Chunk）级别对视频 token 进行去重，显著降低 VLM 处理长视频时的显存压力。
物理 AI 专用数据集与评测框架：同步开源 6 类合成数据集（SDG），涵盖具身智能、空间推理、自动驾驶等场景。推出 HUE 评测框架，将视频生成的评估从主观打分转向基于几何推理、物理规律等维度的原子级事实校验。

参考链接：

https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3/

( @NVIDIAAI@X)

3、SpaceXAI 招聘中文 AI Tutor 远程岗位旨在强化 Grok 多方言语音交互与跨文化转录能力

SpaceXAI 官方发布 「AI Tutor - Chinese」 招聘信息，提供全球远程办公机会。

该职位主要负责多语言音频数据的标注、注释与录制。目标在于训练并提升 Grok 模型在语音交互、口音变化及跨文化语境下的处理能力。

应聘者需具备中文母语水平，熟悉方言及口音差异。同时需要英语 B2 水平，并拥有出色的跨口音高精度语音转录能力。

职位形式涵盖全职、兼职或承包商。美国地区时薪为 35 至 45 美元，且不提供签证赞助。

（@橘鸦 Juya）

02 有亮点的产品

1、智谱发布两款教育硬件：内置 GLM 大模型，支持多模态交互与逻辑引导问答

大模型公司智谱（Zhipu AI）正式进军教育硬件市场，发布「智谱灵玑」系列两款新品：AI 拍学机与 AI 学问卡。两款设备均原生搭载自研 GLM 大模型，旨在通过软硬一体化方案解决儿童启蒙及中小学生自主学习中的交互与答疑需求。

原生 GLM 模型深度整合：硬件内置智谱自研 GLM 大模型，提供万物识别、AI 讲故事、中英双语对话等能力，并支持「涂鸦生图」（草图自动上色）和「创意滤镜」等 AIGC 图像功能。
思维引导型逻辑架构：AI 学问卡采用墨水屏设计，功能逻辑从「直接给答案」转向「AI 引导思考」，通过大模型拆解解题思路，旨在培养学生的自主逻辑推导能力。
端侧轻量化系统优化：拍学机配备专为儿童定制的轻量级系统，优化了开机速度与操作响应延迟，提供多角色陪伴（如百科博士、口语搭子）交互界面。
多维数据闭环与家校互联：通过配套小程序，设备可将学生学习数据转化为「兴趣画像」、每日话题和周报任务，实现基于 LLM 分析的个性化学习管理。

（@多知）

2、掌阅发布 AI 智能体潮玩 CreMoMo：集成自研情感大模型，支持 4G 通讯与抢票智能体

掌阅（iReader）正式发布人格化 AI 硬件 CreMoMo，定价 999 元。该产品通过集成自研情感大模型与长效记忆系统，实现了从单一情感陪伴向任务驱动型硬件的转型，旨在利用 AI 智能体能力切入泛二次元及高净值情感消费市场，以扭转公司 2025 年度 1.76 亿元的净亏损困局。

自研情感大模型与非唤醒交互：搭载掌阅自研模型，具备长效记忆能力，系统可基于历史交互主动发起对话，无需传统的唤醒词触发。
硬件级多模态感知与反馈：产品配备高清原创 Emoji 动态眼神屏，内置物理动作感应模组，支持触摸、轻拍、摇晃等物理交互的实时表情与语音反馈。
集成 AI 智能体（Agent）效率中心：支持用户授权后的场景化任务执行，包括自动化演唱会抢票等高频、复杂操作，试图将情感 IP 转化为生产力工具。
三模通信方案与跨次元同步：支持 4G、Wi-Fi（2.4GHz）与蓝牙 5.2 连接，确保云端大模型持续在线；其「数字试衣间」功能支持线下实体娃衣与线上虚拟皮肤的单向/双向联动。
自主化社交行为模型：智能体具备独立社交逻辑，可在用户不干预的情况下在专属社交圈内执行发帖、点赞、评论及线下「碰一碰」加好友等社交动作。

（@新智独角兽）

3、SOND 发布 Dreambuds 睡眠耳机：集成 12 项生物信号监测，已获 700 万美元种子轮融资

由前 Bose 睡眠产品负责人与 Google 工程经理联合创立的 SOND，推出首款集成 12 种生物特征传感器的睡眠耳机 Dreambuds。该设备旨在通过实时监测 HRV 等数据实现闭环音频干预，并解决了微型可穿戴设备在多传感器并发下的功耗平衡难题，目前已获 700 万美元种子轮融资。

高密度传感器矩阵：在单侧仅 2g 出头的体积内，集成了心率、心率变异性（HRV）、呼吸频率/深度、体温、心肺耦合（CPC）及睡眠姿势等 12 种生物信号监测能力。
闭环实时算法干预：系统可根据实时检测到的睡眠阶段或 HRV 波动，动态调整音频输出（如降噪掩盖伴侣鼾声或播放平复心率的音频），实现从单纯「掩蔽」到主动「干预」的转变。
WiFi 独立通信架构：充电盒内置 WiFi 模组，支持设备脱离智能手机独立进行数据同步与固件运行，减少了对手机蓝牙连接的依赖。
长续航与能效比优化：在多传感器持续采集状态下实现 12 小时单次续航，覆盖完整睡眠周期，突破了此前 Bose 同类产品在小型化与电池容量间的工程限制。
买断制 AI 智能体：内置 AI 睡眠教练，通过分析用户睡眠趋势提供个性化建议与音频生成，且不设订阅费用，所有软件能力随硬件买断开放。

产品已于 5 月 27 日在 Kickstarter 开启众筹，计划筹集 1 万美元，现如今共计筹集超过 29 万美元，共有 619 名支持者早鸟价 449 美元起，公司已完成 700 万美元种子轮融资。

（@新硬见）

03 有态度的观点

1、Gurman：苹果想用眼镜复制 Apple Watch 的成功

昨晚，彭博社记者 Mark Gurman 在最新的 PowerOn 新闻通讯中透露，苹果正计划以「进入智能手表市场的方式」切入眼镜领域，将目标对准更广泛的传统眼镜市场，而非仅与 Meta 等智能眼镜厂商竞争。

苹果智能眼镜内部代号 N50，原计划今年底发布、明年初上市，目前已推迟至明年底。苹果预计瞄准 200 至 500 美元价格区间，与依视路、Safilo 集团及 Warby Parker 等传统眼镜品牌竞争。

彭博社援引世界卫生组织数据称，全球眼镜市场年规模约 2000 亿美元，远超苹果手表所对应的腕表市场。报道还提到，苹果 CEO Tim Cook 是这一项目最坚定的支持者之一，接近他的人士称智能眼镜是其任期内的「优先事项」。

即将于 9 月接任 CEO 的 John Ternus 同样深度参与该项目，负责研发的 Vision Products Group（VPG）团队过去两年一直在他的领导下运作。首代苹果眼镜将采用椭圆形摄像头设计，提供多种颜色与镜框风格。

其他产品进展方面，报道称新款 Apple TV 机顶盒与 HomePod mini 的硬件已完成数月，目前正在苹果总部员工中使用，两款产品均等待今秋新版 Siri 与 Apple Intelligence 功能就绪后同步推出。

此外，苹果已启动明年 iOS 28 与 macOS 28 的早期开发工作，内部代号分别为「Bell」与「Poppy」，合称「Boppy」。

古尔曼重申，iOS 27 主要聚焦于小修小补，而 iOS 28 将会「比 iOS 27 更加重要」。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

智谱进军教育硬件市场，发布 AI 拍学机与学问卡；NVIDIA 开源物理 AI 基模 Cosmos 3 丨日报

01 有话题的技术

1、高德 PilotTTS 开源：基于 20 万小时数据实现 SOTA，引入 Q-Former + CAMPPlus 双通路解耦架构

2、NVIDIA 开源 Cosmos 3：16B/64B 双塔架构 MoT 模型，支持 4-bit 量化与物理动作生成

3、SpaceXAI 招聘中文 AI Tutor 远程岗位旨在强化 Grok 多方言语音交互与跨文化转录能力

02 有亮点的产品

1、智谱发布两款教育硬件：内置 GLM 大模型，支持多模态交互与逻辑引导问答

2、掌阅发布 AI 智能体潮玩 CreMoMo：集成自研情感大模型，支持 4G 通讯与抢票智能体

3、SOND 发布 Dreambuds 睡眠耳机：集成 12 项生物信号监测，已获 700 万美元种子轮融资

03 有态度的观点

1、Gurman：苹果想用眼镜复制 Apple Watch 的成功

分类

关键词

智谱进军教育硬件市场，发布 AI 拍学机与学问卡；NVIDIA 开源物理 AI 基模 Cosmos 3 丨日报

01 有话题的技术

1、高德 PilotTTS 开源：基于 20 万小时数据实现 SOTA，引入 Q-Former + CAMPPlus 双通路解耦架构

2、NVIDIA 开源 Cosmos 3：16B/64B 双塔架构 MoT 模型，支持 4-bit 量化与物理动作生成

3、SpaceXAI 招聘中文 AI Tutor 远程岗位 旨在强化 Grok 多方言语音交互与跨文化转录能力

02 有亮点的产品

1、智谱发布两款教育硬件：内置 GLM 大模型，支持多模态交互与逻辑引导问答

2、掌阅发布 AI 智能体潮玩 CreMoMo：集成自研情感大模型，支持 4G 通讯与抢票智能体

3、SOND 发布 Dreambuds 睡眠耳机：集成 12 项生物信号监测，已获 700 万美元种子轮融资

03 有态度的观点

1、Gurman：苹果想用眼镜复制 Apple Watch 的成功

分类

关键词

3、SpaceXAI 招聘中文 AI Tutor 远程岗位旨在强化 Grok 多方言语音交互与跨文化转录能力