Wispr 曝光内部项目：不仅转录文本还执行任务；苹果将推送 LLM 架构 Siri：支持屏幕感知与应用调用丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术

1、NVIDIA 发布 Nemotron Speech ASR：缓存感知架构实现 24ms 极低延迟与 3 倍并发提升

NVIDIA 发布开源模型 Nemotron Speech ASR，引入缓存感知流式技术替代传统的重叠缓冲推理。该架构通过仅处理音频增量并复用历史计算状态，解决了高并发环境下的延迟漂移问题，将单卡并发能力提升了 3 倍，为实时语音智能体提供了高性能的基础设施。

缓存感知流式架构：弃用滑动窗口的重叠计算模式。通过在编码器层维护内部缓存状态，确保每帧音频仅被处理一次，实现了内存消耗的线性扩展，彻底消除计算冗余。
8x 下采样 FastConformer 架构：模型规模 600M 参数，采用深度可分离卷积实现 8 倍下采样。相比行业主流的 4 倍下采样方案，该架构大幅减少了每秒处理的 Token 数量，显著降低 VRAM 占用。
24ms 中值最终转录延迟：在实测中，该模型的 Time-To-Final（最终转录延迟）中值仅为 24ms，且性能不随语音长度增加而衰减。对比之下，同类本地模型延迟约为 90ms，主流 API 方案则通常超过 200ms。
运行时动态延迟配置：支持在推理阶段实时切换 80ms、160ms、560ms 及 1.12s 等不同延迟模式。开发者无需重新训练模型，即可根据业务场景在响应速度与识别准确率之间取得平衡。

高并发吞吐表现：单张 H100 GPU 可同时支持 560 个并发流（320ms 块大小），吞吐量较前代方案提升 300%。在 RTX A5000 等工作站级 GPU 上，并发能力提升可达 5 倍。

模型已在 Hugging Face 开源，支持通过 NVIDIA NeMo 部署。

Hugging Face:

https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b

( @Huggingface)

2、Boston Dynamics 联合 Google DeepMind：将 Gemini 基础模型集成至新一代 Atlas，开发 VLA 视觉-语言-动作模型

Boston Dynamics 与 Google DeepMind 宣布达成战略合作，将 Gemini Robotics 基础模型引入新一代全电动「Atlas」机器人。该计划旨在利用大规模多模态模型提升人形机器人的感知推理与灵巧操作能力，首批应用目标锁定为汽车制造业的工业任务。

集成 Gemini Robotics 基础模型：基于 Google 的多模态「Gemini」大模型，为机器人提供视觉感知、逻辑推理及工具使用能力，使其能理解并执行复杂的跨模态指令。
构建视觉-语言-动作（VLA）模型：双方将共同开发针对人形机器人的 VLA 模型，致力于将非结构化的环境信息直接映射为高维度的执行动作，提升机器人在复杂工业场景下的泛化能力。
全电动「Atlas」机队部署：此次合作将完全基于 Boston Dynamics 最新的全电动版 Atlas 平台，利用其超越人类极限的关节活动范围（ROM）验证基础模型在端到端控制上的表现。
工业级任务对齐：研发重心处于从「运动智能」向「通用智能」的跨越，重点解决汽车生产线等高动态环境下的灵巧操作与人机协作安全性。

联合研究计划于 2026 年内正式启动，初期成果将率先在现代汽车工厂进行测试，暂未披露 API 开放计划或具体商用定价。

( @Boston Dynamics Blog)

02 有亮点的产品

1、Symbolic Software 发布 Magicall：端到端加密视频通话，支持 SAS 验证与 EU 节点托管

加密咨询公司 Symbolic Software 推出「Magicall」Alpha 版，这是一款强调隐私的浏览器原生视频会议工具。该产品通过端到端加密技术提供无需客户端的即时通讯，旨在通过欧盟本地化托管和无 AI 训练政策解决企业协作中的数据主权与隐私安全问题。

端到端加密（E2EE）与 SAS 身份验证：音视频及聊天数据在浏览器端完成加密后再传输；引入「短验证字符串」（Short Authentication Strings， SAS）机制，允许用户通过比对校验码验证参与者身份，防范中间人攻击。
Zero-Download 架构与固定 URL：采用 Web 浏览器原生运行，支持 Chrome、Firefox、Safari 和 Edge；用户可申领永久固定的房间链接，访客端无需注册账号或下载任何插件。
欧盟本土化托管与数据主权：服务器节点全部位于欧盟境内，由总部位于巴黎的厂商开发，完全符合 GDPR 规范；官方明确承诺不使用通话数据进行 AI 模型训练，且不包含任何广告追踪插件。
高标准安全背书：由曾为 Coinbase、1Password、Bitwarden、Zoom 等提供过 250 余项安全审计的 Symbolic Software 团队研发，底层协议基于开放标准构建，强调低延迟与高音频清晰度。

当前处于 Alpha 测试阶段，提供 Free 永久免费版（单次会议限 5 人、30 分钟，支持无限次重启），用户可通过邮箱注册申领房间名。

2、Apple Vision Pro 联合 Spectrum 推出湖人队沉浸式赛事直播：150 Mbps 码率、7 处视角及 3D 悬浮 UI

Apple 与「Spectrum」宣布将于 2026 年 1 月 9 日起在「Apple Vision Pro」上推出「Spectrum Front Row」直播服务。该服务通过 Apple Immersive 视频技术直播洛杉矶湖人队赛事，旨在通过高带宽流媒体和空间交互技术提供原生虚拟现实观赛体验。

高吞吐量视频流与 180° 沉浸感：直播源提供最高 150 Mbps 码率的 Apple Immersive 视频，覆盖 7 个特制拍摄机位，包括记录台、篮架下方、球员通道及解说席。
3D 空间实时图形渲染：计分板、球员名单及 24 秒计时器等动态数据以 3D 元素呈现，利用 visionOS 的空间计算能力悬浮于现实环境中。
Ambisonic 空间音频技术：利用球场部署的多维麦克风捕捉环境音，通过「Spatial Audio」算法还原球鞋摩擦声、篮网入网声及现场观众的方位感。
硬件与系统协同：该功能仅支持搭载 M2 或 M5 芯片的「Apple Vision Pro」，且系统版本需更新至「visionOS 26」或更高版本。
分阶段播控策略：直播期间，暂停、半场休息及球员入场环节将保持实时传输，不切换为传统商业广告广告位，维持全流程场内临场感。

2026 年 1 月 9 日首播；直播覆盖美国南加州等湖人队转播区，全球其他地区（含日、新、韩等）支持通过「NBA」App 观看部分直播或赛后 24 小时回放。

( @Apple Newsroom)

3、Apple 拟于 iOS 26.4 推送 LLM 架构 Siri：支持屏幕感知与 App Intents

Apple 计划在 iOS 26.4 更新中正式上线基于 LLM 架构的新版 Siri。通过彻底替换运行多年的底层架构，新版 Siri 将具备类 ChatGPT/Gemini 的逻辑理解能力，并实现对系统全局任务的深度接管。

底层架构重构：弃用传统的规则/模板匹配系统，转向以 LLM 为核心的推理引擎，旨在提升复杂指令的解析精度与对话连贯性。
App Intents 实现系统级操作：通过强化的智能体能力，Siri 可直接调用应用程序内的特定功能，实现全自动的「免提计算」。
屏幕感知：Siri 将具备理解当前显示内容的能力，能够基于屏幕上的文本、图像或上下文信息直接执行后续指令。
个人语境感知：整合跨 App 的用户数据，使 Siri 能够理解涉及个人日程、偏好及历史交互的私有化指令。
发布周期预测：参考 iOS 18.4 与 16.4 的发布节奏（均为 3 月下旬），iOS 26.4 预计于 2026 年 1 月底进入 Beta 测试，3 月正式推送。

( @9to5Mac@X)

4、Amazon 发布 Alexa.com：Alexa+ 全面转向「智能体」架构，支持 Web 端交互与个人数据集成

Amazon 在 CES 2026 上宣布推出 Alexa.com，将基于 LLM 的「Alexa+」服务正式从硬件端延伸至 Web 浏览器。此举通过「智能体化」的 UI 重构与跨平台集成，试图将 Alexa 从单一的语音工具转型为覆盖全平台的个人/家庭自动化中心。

「智能体」优先的架构重塑：Alexa 移动端及 Web 端 UI 全面转向聊天机器人界面，将原本的功能图标入口降权，优先通过自然语言交互触发底层服务。
非原生数据集成能力：针对缺乏自有办公套件的劣势，Alexa+ 新增邮件、日历及个人文档（如 PDF、照片）的转发与上传接口，允许用户通过文件投喂建立家庭私有知识库，支持检索疫苗记录、学校行程等非结构化信息。
第三方服务深度接入：新增 Angi、Expedia、Square 及 Yelp 等 API 集成，配合已有的 Uber、OpenTable 和 Ticketmaster 接口，支持通过智能体直接完成餐厅预订、行程规划及家政预约。
硬件生态无缝兼容：Alexa+ 已适配 97% 的现有设备（约 6 亿台 Echo 系列），支持旧款硬件调用新版模型能力，通过后端云端更新实现向后兼容。
高频交互数据验证：Early Access 数据显示，转向 Alexa+ 后，用户对话频率提升 2-3 倍，购物行为增长 3 倍，食谱与智能家居控制等高阶功能的使用率分别提升 500% 和 50%。

已向 Alexa+ Early Access 计划的活跃用户开放，需通过 Amazon 账号登录使用。

( @TechCrunch)

5、能帮你做家务的机器人 LG CLOiD 首次亮相 CES

据 The Verge 报道，LG 在 CES 主题演讲中正式展示了其家务机器人 CLOiD 的实际运行效果，LG 将其定位为打造「零劳动家庭」的重要组成部分。

CLOiD 在舞台上以双手挥动的方式亮相，随后在 LG 家电事业部销售副总裁 Brandt Varner 的指令下，示范了将一条湿毛巾放入洗衣机的完整流程。

洗衣机门自动打开后，机器人伸出左臂，将毛巾放入滚筒。整个过程耗时约 30 秒，展示了其具备基础家务执行能力，但效率仍有提升空间。

在演讲后半段，CLOiD 再次登场，为 LG HVAC 事业部高级副总裁 Steve Scarbrough 递上水瓶，并根据其语气判断需求后主动提供帮助，甚至完成了拳碰动作，强调其具备一定的情感交互能力。

LG 此前已预告该机器人具备多项家务能力，包括从冰箱取牛奶、在烤箱中烤可颂、叠放衣物等。此次演示进一步展示了其在家庭场景中的潜在应用。不过，LG 仍未公布 CLOiD 的上市时间或是否会真正面向消费者销售。

( @APPSO)

03 有态度的观点

1、Wispr 创始人：内部项目「Wispr Actions」不仅生成文本，还能直接执行任务

Wispr 首席执行官 Tanay Kothari 近日表示，尽管让办公族放弃键盘是一场「艰苦的战斗」，但 AI 的普及正成为变革的催化剂。目前 Wispr 估值约 7 亿美元，月收入及用户数环比增长达 50%。

Kothari 认为：「AI 工具是人们开始使用 Flow 的『gateway drug』。他们下载它，在 ChatGPT 或 Cursor 中使用，到了第二或第三周，他们就会意识到，『为什么我不随处都使用它呢？』然后他们就开始在所有的 Slack 消息和电子邮件中使用它。」

数据显示，该工具已让深度用户的每日打字时间从 5 小时减至 3 小时，且使用五个月后，72% 的电脑活动均通过语音完成。

与传统逐字转录工具不同，Flow 侧重于理解语境与意图。Kothari 强调，用户需要的是符合逻辑的书面表达：「其他模型会逐字转录你所说的一切，但那不是人们想要的——你说的话与你写的字非常不同，所以输出应该反映你实际会写出的样子。」

通过结合 Llama 3.1 等模型，Flow 实现了高精度输出并降低了在办公室发声的「社交门槛」。在安全性上，Wispr 凭借「零数据留存」模式成功打入严监管领域。

Kothari 透露，仅约 25% 至 30% 的用户选择共享数据用于训练，这帮助公司：「获得了一些规模最大、最严格的金融机构的青睐……我们即将在欧洲最大的银行之一进行部署。身处欧洲又是银行——我还没遇到过比这要求更高的地方。」

展望未来，Kothari 致力于打造现实版 J.A.R.V.I.S。，将人类从屏幕束缚中解放。他感性地表示：「我不希望我的孩子在成长过程中整天盯着手机看。对我来说，那太……令人沮丧了。我希望他们昂首挺胸地走路，而不是被屏幕所束缚。实现这一目标的唯一方法是开发一个人们真正信任的语音界面。」

其内部称为「Wispr Actions」的项目被列为今年的重点关注内容，语音交互有望从单纯的文本生成，跨越至代为执行复杂任务的新阶段。

( @Computerworld)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示：个人观点，仅供参考