智谱开源「会操作手机的 AI」AutoGLM;Mizzen Insight:AI 深访用研平台,小时级深度访谈丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、OpenBMB 更新 VoxCPM 1.5:音频采样率升至 44.1kHz,Token 率降低 50%
「VoxCPM」项目发布了其 tokenizer-free 文本转语音(TTS)系统 1.5 版本。该更新通过将音频采样率提升至 44.1kHz 显著改善了语音克隆的保真度,并通过降低 LM Token 率将计算效率提高了一倍。
音频采样率提升至 44.1kHz: 新版本将音频 VAE 的采样率从 16kHz 提升至 44.1kHz(CD 级音质),能够保留更多高频细节,生成保真度更高的语音,尤其是在零样本语音克隆任务中。
LM Token 率减半至 6.25Hz: 语言模型的 Token 生成速率从 12.5Hz 降低至 6.25Hz,这意味着在生成同样时长的音频时,所需的计算步骤减半,显著降低了推理成本和算力需求。
Tokenizer-Free 架构: 模型不依赖将语音转换为离散 token 的传统方法,而是采用端到端的扩散自回归架构,在连续空间中直接从文本生成语音表征。该架构基于「MiniCPM-4」骨干,旨在减少离散化带来的信息损失。
低至 0.17 的实时率 (RTF): 在消费级 NVIDIA RTX 4090 GPU 上,模型支持流式合成,其实时因子(Real-Time Factor)低至 0.17,使其具备在本地环境中进行实时应用的性能。
Hugging Face:
https://huggingface.co/openbmb/VoxCPM1.5
(@Hugging Face)
2、智谱开源「会操作手机的 AI」AutoGLM
智谱深夜开源其核心 AI Agent 模型 AutoGLM。该模型被业界视为全球首个具备「Phone Use」(手机操作)能力的 AI Agent,能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程。此次开源意味着硬件厂商、手机厂商和开发者均可基于 AutoGLM,在自己的设备或系统中复现一个能「看懂」屏幕、并模拟真人进行点击、输入、滑动的 AI 助手。目前,AutoGLM 已支持微信、淘宝、抖音、美团等超过 50 个高频中文应用的核心场景,其自动化操作能力与此前引发热议的「豆包手机」演示相似。
开源地址:
https://github.com/zai-org/Open-AutoGLM
( @科创板日报、@智谱)
3、NVIDIA 发布 NeMo Gym 与 Audio Flamingo 3:开源 RLVR 训练库及多模态音频理解模型
NVIDIA 在 NeurIPS2025 期间发布了一套针对「智能体」开发的工具链及多项研究成果,重点解决了音频多模态理解、实时语音流处理及强化学习训练环境的构建问题。此次更新通过开源 NeMo Gym 和数据设计库,直接降低了开发者进行特定领域模型定制和 RLVR(基于可验证奖励的强化学习)训练的技术门槛。
Audio Flamingo 3 (SOTA 音频理解):全开源的大型音频语言模型,支持跨语音、声音和音乐进行推理。模型上下文窗口支持处理长达 10 分钟 的音频片段,并在超过 20 个基准测试中取得当前最佳(SOTA)结果。
NeMo Gym (RLVR 训练加速):开源强化学习库,专为 LLM 训练设计。它包含现成的训练环境,重点支持 RLVR(Reinforcement Learning from Verifiable Reward),简化了从反馈中优化模型的流程。
端到端语音流处理模型:
MultiTalker Parakeet:流式自动语音识别(ASR)模型,可处理快语速及多说话人重叠(overlapped)的复杂场景。
Sortformer:实现了实时的说话人分离(Diarization),可精确区分音频流中的不同发言者。
混合架构与高效推理研究:
Minitron-SSM:引入组感知 SSM 剪枝方法,将 Nemotron-H 从 8B 参数压缩至 4B,在精度超越同级模型的同时,推理吞吐量提升 2 倍。
Nemotron-Flash:针对实际延迟(Latency)而非参数量优化的 SLM 新架构,兼顾速度与精度。
合成数据工具链开源:「NeMo Data Designer」现以 Apache 2.0 协议开源。这是一个端到端工具包,用于生成、验证和精炼高质量的合成数据集,辅助生成式 AI 的开发。
NVIDIA 正在从单纯的算力提供商向「AI 开发基础设施」垄断者转型。通过开源 NeMo Gym 和 Data Designer,NVIDIA 实际上是在定义行业标准:未来的模型竞争不在于预训练,而在于基于特定领域数据的后训练(Post-training)和强化学习(RL)。此外,Minitron-SSM 和 Jet-Nemotron 等研究表明,NVIDIA 极其关注混合架构(如结合 Transformer 与 SSM)在边缘侧和即时推理中的效率,这直接对标了 Meta Llama 等开源模型在端侧部署的生态位。
NeMo 框架工具与模型(包括 Gym、Data Designer、Parakeet 等)已开放下载或通过 API 调用。
https://blogs.nvidia.com/blog/neurips-open-source-digital-physical-ai/
(@NVIDIA Blog)
02 有亮点的产品
1、Mizzen Insight:小时级深度访谈,让企业实时听见用户!
近日,觅深科技(Mizzen AI)宣布完成来自海外机构的种子轮美元融资,并发布第一个产品 Mizzen Insight——国内首个 AI 深访用研平台。该平台将传统需要数周的深度访谈压缩至数小时,实现百倍提速、十倍降本,让深度用户研究首次进入 「小时级时代」。
在用户研究领域,深度访谈一直被视为「最难做却最有价值」的用研方式。
Mizzen Insight 通过 AI 完整重写深访流程:自动生成访谈提纲、多线程并发深访、基于情境的实时深度追问、智能聚类与深度洞察分析——一站式完成传统团队数周的工作,让洞察更快、更准、更接近用户真实动机,使深访成为一项真正「随时可启动」能力。
创始人孙克强表示:「当团队随时能听见真实用户的声音,组织的工作方式会发生根本变化。我们希望让用户研究从昂贵的专业流程,变成普惠、实时的基础能力。」
目前,Mizzen Insight 已在出海电商、手机厂商、新能源、汽车科技公司、消费品牌和 SaaS 企业落地。平台也被硬件与健康设备企业及多家创业团队(AI 视频剪辑、内容工具等)用于高频验证需求。客户反馈普遍认为,Mizzen Insight 首次让深访具备「关键决策窗口内可完成」的速度与可靠性。
(@品玩)
2、Yoodli 完成 4000 万美元 B 轮融资,AI 驱动的沟通培训平台估值超 3 亿美元
AI 驱动的沟通培训初创公司 Yoodli 宣布完成 4000 万美元 B 轮融资,由 WestBridge Capital 领投,估值超 3 亿美元,较六个月前翻三倍。Yoodli 利用 AI 技术提供模拟场景训练,旨在辅助而非取代人类沟通能力。
融资与估值: 完成 4000 万美元 B 轮融资,总融资金额近 6000 万美元。估值超 3 亿美元,是六个月前水平的三倍多。
AI 辅助沟通训练: Yoodli 利用 AI 模拟销售电话、领导力辅导、面试、反馈会议等场景,提供结构化、可重复的练习,帮助用户提升口语表达能力。
「赋能而非取代」的理念: 联合创始人 Varun Puri(前 Google X 成员)强调 Yoodli 的 AI 技术旨在辅助人类,而非用机器取代,认为人类的真实性、脆弱性反馈是 AI 无法替代的。
企业级应用: 现已从面向消费者的产品转变为企业培训解决方案,为高管(go-to-market enablement)、合作伙伴认证和管理层辅导提供 AI 角色扮演和体验式学习工具。
客户包括: Google, Snowflake, Databricks, RingCentral, Sandler Sales, Franklin Covey, LHH 等。
技术特点:
多模型支持: 可与 Google Gemini、OpenAI GPT 等多种大型语言模型配合使用。
跨语言支持: 支持韩语、日语、法语、加拿大法语及多种印度语言。
集成性: 可嵌入现有软件,或通过浏览器直接访问。
无独立移动 App: 为简化用户训练流程,避免增加额外步骤。
商业指标: 报告期内,平台角色扮演次数和用户练习总时长增长 50%,平均经常性收入(ARR)增长 900%(具体数字未披露)。
团队扩张: 近期引入前 Tableau 和 Salesforce 的 Josh Vitello(CRO)、前 Remitly CFO Andy Larson(CFO)以及前 Tableau CPO Padmashree Koneti(CPO)。
B 轮融资完成后,Yoodli 将继续扩展 AI 教练、分析和个性化工具,深化在企业学习和专业发展领域的布局,并拓展亚太市场。
(@TechCrunch)
3、Google 发布新一代 XR 设备,推动 AI 与现实场景深度融合
2025 年 12 月 9 日,在 Google The Android Show 特别节目(XR Edition)上,Google 推出全新 XR 设备矩阵,依托 Android XR 统一平台与 Gemini 大模型,构建了覆盖轻量化 AI 眼镜到旗舰级头显的全场景 XR 生态。
此次发布的 AI 眼镜主打「时尚优先、技术隐形」,与 Warby Parker、Gentle Monster 合作打造两款形态,可实现零食识别、AR 特效生成、旅游导航等多模态交互,还能借助 Glimmer UI 工具包和 Projected Library 快速拓展应用生态。
此外,由 XREAL 承载的 Project Aura 采用分离式计算模块,兼顾便携性与生产力;三星 Galaxy XR 头显则新增拟真形象、旅行模式等功能,并计划实现 2D 内容实时转 3D,为用户提供更沉浸的办公与娱乐体验。Google 此举旨在让计算渗透生活,推动 XR 设备从「工具」向「延伸感官」转变。
(@极客公园)
4、TruGen AI 推出视频智能体平台,实现实时、类人交互
TruGen AI 推出其视频智能体(Video Agents)平台,旨在通过实时、具备视觉、听觉、记忆和行动能力的 AI 智能体,将人机交互提升至类人水平。该平台强调「AI 必须更像人」,而非仅仅更智能。
核心产品: TruGen AI 平台,允许开发者构建具备「人脸」的 AI 视频智能体。
类人交互:
动机: 认为人类是天生的「面对面沟通者」,AI 目前的交互方式(文本、语音)缺乏人类的「存在感、眼神交流和面部表情」。
解决方案: 致力于提供具备「人类面孔」的 AI 智能体,实现更自然、更具表现力、更吸引人的交互。
关键技术与功能:
超逼真虚拟化身: 提供高度逼真、富有表现力的人类面孔。
视觉能力 (Vision): 智能体能「看见」,包括识别面孔、跟踪屏幕共享内容。
低延迟响应: 响应时间低于 1 秒,模拟真实对话流。
Agentic 能力: 支持动作执行、检索增强生成(RAG)、推理、记忆和工具使用。
开发者优先: 易于集成到现有产品或工作流中,采用 API 优先设计。
全天候可用: 智能体可 24/7 运行。
应用场景设想:
24/7 AI 客服(提供即时、类人援助)。
AI SDR(销售发展代表),负责潜在客户资格预审。
AI 培训师和角色扮演教练。
HR 面试官(快速筛选和初步评估候选人)。
技术栈: 平台使用了 ElevenLabs(AI 语音)、Deepgram(语音识别)、OpenAI(大模型)等技术。
可扩展性与安全性: 平台设计支持跨行业和跨语言应用,并强调可扩展性和安全性。
TruGen AI 已正式上线,并提供实时演示和开发者工具。
相关链接:
https://www.producthunt.com/products/trugen-ai
(@Product Hunt)
03 有态度的观点
1、Google DeepMind CEO:扩大 AI 规模是实现 AGI 的关键
据《商业内幕》报道,Google DeepMind CEO 德米斯・哈萨比斯(Demis Hassabis)近日在旧金山举行的 Axios AI+ 峰会上强调:人工智能(AI)的规模化发展必须「推向极致」,这是实现通用人工智能(AGI)的关键路径。
哈萨比斯指出,规模定律(scaling laws)是 AI 进步的核心原则,即「模型越大、数据越多、算力越强,智能水平就越高」。
我们必须把当前 AI 的规模化推向极致,它至少会成为通用人工智能的关键组成部分,甚至可能构成整个 AGI 系统。
AGI 被视为能够像人类一样进行推理和规划的理论型智能系统,是全球科技公司竞相追逐的目标。
不过,哈萨比斯也承认,仅靠规模定律可能不足以完全实现 AGI,未来或许还需要「一到两个额外的突破」。
他强调,规模化存在现实限制:公开数据量有限,增加算力意味着建设更多数据中心,不仅成本高昂,还会对环境造成压力。
与此同时,业界也出现了不同声音。
前 Meta 首席 AI 科学家 Yann LeCun(杨立昆)认为,规模定律并非万能。他在今年 4 月新加坡国立大学的演讲中指出:「大多数真正有趣的问题在规模定律下表现得极其糟糕,你不能简单地认为堆数据和堆算力就能产出更聪明的 AI。」
此前,LeCun 已离开 Meta 创办新公司,致力于研发基于空间数据的「世界模型」,旨在打造能够理解物理世界、具备持久记忆和复杂推理能力的新一代 AI 系统。
( @APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、Future Tech 2026 首发局亮灯仪式
时间:2025 年 12 月 20 日(周六)下午 1:00
地点:北京·清华科技园
议程:13:30-13:45 生态共建计划发布暨仪式启动;13:45-14:15 神秘嘉宾圆桌;14:15-17:20 项目路演(15 个项目)
详情链接:
https://mp.weixin.qq.com/s/DOPHZn2Ex8sarB5qE8A87A

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考