智谱开源 GLM-ASR 系列语音识别模型;Pebble 发布智能指环 Index 01:本地语音转录与指令执行丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01有话题的技术
1、NatureSelect 发布 Echo-N1:首个情感大模型,32B 参数模型在情感陪伴任务中超越千亿级模型
NatureSelect 团队发布了首个情感大模型 Echo-N1。该 32B 参数模型通过创新的「情感强化学习」(Affective RL)和「共情的心理物理模型」(EPM),在情感陪伴任务中取得了 46.7% 的胜率,远超千亿参数商业模型(13.3%)。
情感 RL 范式创新: 解决了传统 RL 难以应用于主观情感评估的问题,通过「生成式奖励模型」(Generative Reward Model)引入「Humanlike Reward」(拟人度奖励)和「Empathy Reward」(共情奖励),并辅以「过程性奖励」和「离散化奖励」策略,提升训练稳定性。
EPM 情感物理模型: 将抽象的「共情」量化为可计算的物理过程,通过「心理势能」、「做功」和「MDEP 三维心理空间」(认知重构 C、情感共鸣 A、主动赋能 P)来衡量 AI 的情感交互效果。
「拟人化认知沙盒」评测: 构建了一个模拟人类多重认知模块协同运作的多智能体系统,用于动态、真实的复杂心智模拟测试,解决了传统评测方法在情感交互上的局限。
越级性能表现: 32B 参数的 Echo-N1 在 30 个高难度心理场景测试中,综合得分 73.54,远高于 Doubao 1.5 Character 的 42.95 分,证明了其在情感交互上的优越性。
基座模型局限性: 未经情感强化学习训练的基座模型(Qwen3-32B)在该评测中通过率为 0%,显示了专门情感训练的必要性。
论文标题:
Echo-N1: Affective RL Frontier
论文链接:
https://arxiv.org/pdf/2512.00344v1
(@机器之心)
2、fal 完成 1.4 亿美元 D 轮融资,估值达 45 亿美元,为开发者提供多模态 AI 模型基础设施
AI 模型托管平台「fal」宣布完成 1.4 亿美元 D 轮融资,由 Sequoia 领投,估值达到 45 亿美元,较上一轮估值增长约两倍。此轮融资包括 Kleiner Perkins、NVIDIA 及现有投资者的参与,进一步巩固了「fal」作为多模态 AI 基础设施提供商的地位。
融资详情:D 轮融资 1.4 亿美元,估值 45 亿美元,较 7 月份 C 轮融资(估值约 15 亿美元)增长约三倍。此轮包含约 2.5 亿美元的融资总额,其中 1.4 亿美元为新增资本,其余为现有投资者出售股份。
平台定位:为开发者提供托管图像、视频和音频 AI 模型的基础设施,是 Adobe、Shopify、Canva、Quora 等客户的多模态 AI 基础设施提供商。
营收增长:截至 10 月,公司营收已超 2 亿美元,自 2021 年成立以来增长迅速。
(@TechCrunch)
02有亮点的产品
1、智谱 AI 发布 GLM-ASR 系列开源模型及 AI 输入法,实现语音任务化交互
今天,智谱正式发布并开源 GLM-ASR 系列语音识别模型,并推出基于该系列模型打造的桌面端智谱 AI 输入法。
智谱 AI 正式发布并开源了新一代语音识别模型 GLM-ASR 系列,包括云端模型 GLM-ASR-2512 和 1.5B 参数的端侧模型 GLM-ASR-Nano-2512。同时,基于这些模型推出了桌面端「智谱 AI 输入法」,将语音识别与大模型能力深度融合,使用户能直接通过语音完成翻译、改写、代码编写等任务。
GLM-ASR-2512 (云端模型):
体验中心:https://bigmodel.cn/trialcenter/modeltrial/voice
接口文档:https://docs.bigmodel.cn/api-reference/模型-api/语音转文本
性能: 行业领先的云端语音识别模型,字符错误率 (CER) 仅为 0.0717。
适用场景: 支持多场景、多语种、多口音的真实复杂环境。
使用指南:https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512
GLM-ASR-Nano-2512 (端侧模型):
Hugging Face: https://huggingface.co/zai-org/GLM-ASR-Nano-2512
魔搭社区:https://www.modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512
参数量: 1.5B 参数,为当前开源语音识别方向的 SOTA 模型。
优势: 实现本地运行,提供更强的隐私保护和更低的交互延迟,部分测试中优于闭源模型。
开源: 权重及推理代码已发布,可在 Hugging Face 和魔搭社区获取。
智谱 AI 输入法:
核心功能: 将语音识别与大模型能力整合,实现「语音即指令」的 PC 端交互。
语音转文字: 精准的语音转文字功能。
一体化内容编辑: 直接调用底层 GLM 模型对屏幕上任意文字进行翻译、扩写、精简、润色,完成「理解-执行-替换」一体化操作。
人设切换: 支持设置不同「人设」风格,使同一句话在工作、生活等场景下有不同表达。
Vibe Coding: 专为开发者设计,通过语音快速输入代码逻辑、注释
目前,智谱 AI 输入法面向所有用户开放,并免费提供 2000 积分,相当于 28 天使用时长。
Mac/Win 访问下载:
https://autoglm.zhipuai.cn/autotyper/
(@智谱)
2、Pebble Index 01 智能指环:内置麦克风,支持本地 LLM 转录与指令执行
Pebble 推出 Index 01 智能指环,定价 99 美元。该指环专注于语音记录,通过内置麦克风捕捉用户的「想法」,并利用手机上的本地 LLM 将其转化为文本及指令,实现笔记记录或提醒设置。
单功能设计: 专注于语音记录,而非健康或健身追踪。
本地 LLM 处理: 录音传输至手机后,通过设备上的 LLM 将语音转录为文本并执行预设动作(如添加笔记、设置提醒),无需云端处理,强调隐私。
一次性电池与环保回收: 采用不可充电电池,续航约 12-15 小时(基于每日 10-20 次、3-6 秒的录音使用)。预期寿命约 2 年,届满后需寄回 Pebble 进行回收。
开发者可定制接口: 允许用户编程按钮(单按/双按),自定义语音动作,并将音频录音发送至自有应用或服务器。
价格与上市: 预售价格 75 美元,正式上市后涨至 99 美元。预计 2026 年 3 月发货。
官网链接:
http://rePebble.com/index
(@Gizmodo)
3、Questom 推出 AI 销售智能体:自动化 B2B 入站对话,提升收入
Questom 发布了面向 B2B 企业的 AI 销售智能体,旨在自动化处理入站销售对话(电话、邮件、聊天)。这些智能体能够收集需求、生成报价、发送更新,并将整个对话流程转化为收入,同时减轻销售团队的重复性工作负担。
多渠道对话自动化: 智能体直接集成到 B2B 团队常用的沟通渠道(电话、邮件、聊天、短信),实现端到端的入站对话处理。
定制化业务逻辑学习: 智能体可学习并应用客户特有的产品目录、定价规则、折扣、例外情况、生产限制、审批流程以及 CRM/ERP 系统逻辑,确保报价和响应的准确性。
核心销售流程自动化: 能够即时回答问题、收集订单需求、生成报价及修订、管理后续跟进、发送状态更新,并将结构化订单数据推送到 ERP/CRM 系统。
高自动化率与 AOV 提升: 早期测试结果显示,高达 50% 的入站销售对话可实现完全自动化,并通过智能追加销售显著提升平均订单价值 (AOV)。
智能人机协作: 智能体在必要时将对话无缝转交给人类销售人员,并提供完整的上下文信息,确保业务流程不中断。
( @Y Combinator)
03有态度的观点
1、努比亚 CEO 倪飞谈「豆包手机助手」:AI 手机发展势不可逆
昨天,中兴努比亚 CEO 倪飞在微博发布长文,回应外界对努比亚 M153 豆包手机助手技术预览版的关注。
他强调,AI 手机的发展趋势已不可逆转,努比亚选择以「开放」为核心战略,与豆包助手展开深度合作,旨在为用户带来更优质的产品体验。
倪飞指出,手机行业长期缺乏颠覆式创新,而在 AI 大变革时代,跨界融合成为突破口。
他以「苹果 + iPhone 与 ChatGPT」、「三星与 Gemini」为例,强调 1 + 1 > 2 的协同效应,并表示此次合作正是基于这一理念。
他强调,努比亚坚持「AI for All」的理念,持续推进多模型协同、全场景布局,从 Z 系列真全面屏手机到最新的 M153,形成了近十年的技术积累与实践。
针对外界的质疑与反馈,倪飞表示公司正与合作伙伴积极沟通解决问题,并欢迎用户持续关注后续进展。倪飞强调,努比亚将继续秉持务实与真诚的态度,专注于能真正改善用户体验的技术创新。
当天,字节跳动副总裁李亮在微博转发了该文章,表示「AI 带来的变革是真实存在的,用户的需求也是真实存在的,无论这次是不是成功,AI 都一定是未来。」
( @APPSO)
04社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、活动报名丨全球首款 AI 主题桌游《Talk With》线下开玩!上海 GDPS 2025 见!
时间:12 月 13 日(周六)下午
地点:GDPS 全球开发者先锋大会,上海张江科学会堂
除了沉浸式体验《Talk With》桌游,我们还特别邀请到 TEN Framework 的增长黑客 June,带来一场关于对话式 AI 产品与技术趋势的精彩分享——助你快速把握行业脉搏、洞察技术前沿。动脑又动手,玩中学、学中玩,千万别错过!
详情链接:活动报名丨全球首款 AI 主题桌游《Talk With》线下开玩!上海 GDPS 2025 见!


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示:个人观点,仅供参考