字节新一代 AI 耳机将搭载摄像头；德国 AI 客服初创公司 Parloa 新一轮融资估值 30 亿美元丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术

1、Google 发布 TranslateGemma：基于 Gemma 3 架构，12B 模型翻译性能超越 27B 基线

Google 正式发布基于 Gemma 3 架构的专用翻译模型系列「TranslateGemma」，提供 4B、12B 和 27B 三种参数规模。该系列旨在通过技术革新，将 Gemini 的强大翻译能力蒸馏至开放架构中，从而在消费级硬件与移动端实现端侧高保真翻译。

在模型效率方面，TranslateGemma 实现了显著的跨级超越。在 WMT24++ 基准测试中，12B 版本基于 MetricX 指标的翻译质量已超越参数量大其两倍的 Gemma 3 27B 基线模型；而 4B 版本性能则与 12B 基线模型持平，大幅提升了单位参数的推理吞吐量。

这一性能突破主要得益于独特的「SFT + RL」两阶段微调工艺。团队首先利用 Gemini 生成的高质量合成数据与人工翻译数据进行监督微调（SFT），随后引入强化学习（RL）阶段，通过 MetricX-QE 和 AutoMQM 奖励模型组合，针对性优化译文的语境准确度和自然度。

此外，该模型继承了 Gemma 3 的原生多模态能力，实现了翻译能力的联动优化。测试显示，即便不针对视觉任务进行专项微调，仅靠文本翻译质量的提升，即可在 Vistra 图像翻译基准测试中同步增强图像内文字的翻译精度。

在语言覆盖范围上，模型针对含高、中、低资源语言在内的 55 种核心语言进行了严格评估，并额外对近 500 种语言对进行了探索性训练，为学术界研究濒危语言提供了可微调的开放底座。

目前，模型权重已全部开源，开发者可在 Kaggle 和 Hugging Face 下载，或通过 Vertex AI 直接部署使用。

技术报告：

https://arxiv.org/pdf/2601.09012

HuggingFace:

https://huggingface.co/collections/google/translategemma

( @Google Blog)

2、Google 发布「Personal Intelligence」：由 Gemini 3 驱动，打通 Gmail/Photos/YouTube 底层数据流

Google 正式发布由 Gemini 3 模型驱动的全新功能「Personal Intelligence」。该功能通过打通 Gmail、Photos、YouTube 和 Search 四大核心应用的数据底层，使 AI 具备了跨应用的私有上下文处理能力，能够将用户长达十年的历史数据转化为深度个性化的智能服务。

在数据整合层面，AI 获得了跨应用底层权限，实现了数据寻址与互通。它能够自主调取分散在不同 App 中的邮件行程、相册碎片及视频偏好，从而构建出完整的个人数字图谱。

区别于传统的即时信息处理，该功能的核心优势在于长周期私有上下文处理。机制侧重于挖掘数年甚至十年的历史存档数据，利用用户的真实生活轨迹，为 AI 的每一次响应提供高精度的背景锚点。

为了确保认知的准确性，系统内置了直观的自然语言纠错机制。用户可以通过日常对话，直接纠正 AI 对其人际关系或兴趣偏好的错误推断，实现认知记录的实时校准。

在技术架构上，该功能采用纯云端架构，完全依托 Google 数据中心算力来处理海量的私有数据吞吐。这一技术路线与 Apple Intelligence 采取的端云混合策略形成了鲜明的差异。

目前，Personal Intelligence 已进入 Beta 测试阶段，优先向「Google AI Pro」和「AI Ultra」付费订阅用户开放，并同步支持 Web、Android 及 iOS 全平台使用。

（@量子位）

02 有亮点的产品

1、通义千问 App 深度集成阿里生态：支持端内闭环支付、多步任务规划及 400+ 项智能体办事功能

阿里巴巴于 1 月 15 日正式举行发布会，这一次，千问 App 上线了全新 AI Agent 能力「任务助理」，同时全面打通阿里生态，一次开启了 400 多项新功能，标志着该应用从「聊天对话」正式进阶为「AI 办事助手」。官方称该应用为全球首个能完成真实生活复杂任务的 AI 助手，目前其 C 端月活跃用户已突破 1 亿。邀请测试与灰度上线已经同步开启，全都是免费可用的。

千问 App 全面接入了淘宝、支付宝、淘宝闪购、飞猪、高德、阿里健康 等阿里生态业务，用户只需通过自然语言指令，即可在 App 端内闭环完成点外卖、一句话购物、订机票酒店及 50 项政务民生服务，无需跳转至其他应用。

经实测发现，用户可直接在页面对话千问说「帮我点一杯咖啡」，在获得淘宝授权且绑定后，千问会自动根据位置信息推荐收货地址，并首先推荐了瑞幸的美式咖啡，点击「选它」后即可跳转支付宝完成付款。测试者要求将品牌换成 manner 后，千问又给出了一款拿铁进行推荐，随后，测试者直接在对话页面具体提出要求「白脱拿铁」，千问最终给出了对应产品及付款页面。

此外，具备多步骤规划能力的「任务助理」功能已开启定向邀测，涵盖应用开发、Office 办公及深度咨询调研等场景。这一系列升级主要得益于千问底层全模态理解、AI Coding 及超长上下文处理三大能力的突破。

对于是否开放第三方应用接入千问，据媒体报道，千问 C 端事业群总裁吴嘉在采访中透露，除了接入阿里生态，千问会在未来接入第三方的产品，这件事已在讨论中。据了解，千问目前被阿里核心管理层视作「AI 时代的未来之战」。

（@雷锋网、@阿里云云栖号）

2、滴滴出行智能体「小滴」：由 LLM 驱动，实现复杂意图解析与多层级需求打分排序

滴滴正式推出了基于原生大语言模型（LLM）开发的出行智能体「小滴」。这一创新将传统的「手动勾选菜单」打车模式，全面升级为更直观的自然语言交互模式。

用户只需通过语音或文字表达个性化需求，系统即可自动完成语义解析、条件过滤与运力匹配，从而直接提升了复杂出行场景下的决策效率。

在核心能力上，系统实现了非结构化需求的标签化映射。它能够准确理解诸如「坐电车头晕」或「全家 5 口人」等模糊表述，并将其实时转化为底层的车辆特征参数，如「燃油动力」、「六座车型」或「驾驶平稳度标签」，完成了从自然语言到数据库筛选条件的自动转换。

针对运力匹配，小滴引入了多层级约束满足排序算法。该算法采用权重机制，将用户需求精细拆解为「必要」、「优先安排」及「尽量满足」等多个等级。

在运力资源有限的情况下，智能体会严格根据需求权重，对周边车辆进行实时的加权打分并排序推荐，以确保最优匹配。

此外，该智能体还具备基于长短期记忆的偏好继承能力。它拥有跨会话的记忆功能，能够通过历史交互自动提取用户的长期习惯。例如，若用户曾表示「固定避开电车」，在后续交互中无需重复输入，系统会自动将其作为前置过滤条件。

为了实现端到端的出行链路集成，系统整合了 LBS（地理位置服务）与 POI 推荐能力。支持用户从模糊意图（如「想吃烤鸭」）直接关联至具体目的地，并同步触发叫车逻辑，有效缩短了从生活决策到出行执行的链路。

目前，该智能体已在滴滴 App 内部上线，并经历了 3 个月以上的版本迭代，用户可直接通过对话入口体验。

（@量子位）

3、字节正研发新一代豆包 AI 耳机，将搭载摄像头，由歌尔股份代工

蓝鲸科技记者近日从供应链人士处独家获悉，字节跳动正研发豆包新一代 AI 耳机，将由歌尔股份承接代工生产。

「歌尔股份目前已专门设立事业群（BG），统筹负责字节跳动相关业务。」该人士还表示，「从这样的内部资源配置不难看出，歌尔股份对字节跳动合作的重视程度。」

对此，歌儿股份相关人士回应蓝鲸科技记者称，「我们跟客户签署保密协议，不方便透露客户名称及相关产品。」

此外，接近字节人士则称，「字节目前没有上市下一代耳机的计划」。

值得注意的是，豆包首款 AI 智能体耳机「Ola Friend」于 2024 年 10 月发布，由国光电器担任主要 ODM 供应商，至今已超过一年未推出更新机型。此次更换代工合作伙伴，被业内视为字节跳动在 AI 硬件策略上的一次主动调整，或显示出其在新一代产品上的升级意图。

而选择歌尔股份并非偶然，蓝鲸科技记者了解到，双方此前已在 VR 领域建立深度合作关系——歌尔股份长期为字节跳动旗下 VR 品牌 Pico 提供光学模组、硬件制造及代工服务。

在产品形态上，新一代耳机预计将呈现明显差异。蓝鲸科技记者通过多个信息源交叉确认，该耳机将搭载摄像头模块，但设计初衷并非用于传统拍摄，而是服务于 AI 视觉交互功能。这一思路与 Meta 此前曝光的「Camerabuds」项目异曲同工，后者的核心目标便是通过摄像头实现实时物体识别、翻译等场景化 AI 应用。

针对本次新品出货量情况，上述供应链人士表示，「该产品产量不会太大。耳机市场竞争已趋充分，留给字节的市场空间或较为有限。」相关机构数据显示，2025 年 Q1 全球前五大品牌份额合计 52%（苹果 23%+小米 11.5%+三星 7%+华为 6%+boAt5%）；Q3 进一步降至 49%，头部格局固化但内部洗牌剧烈。

此外，蓝鲸科技记者还从另一知情人士处独家获悉，这款 AI 耳机原计划于 2025 年 12 月 30 日在「罗永浩的十字路口」年度科技创新分享大会上亮相，最终因产品尚未完全准备就绪而临时撤档。

该知情人士补充称，「字节这款 AI 耳机的产品思路与市面上多数 AI 耳机存在差异，核心围绕与手机的协同功能进行打造。」

（@蓝鲸科技）

4、Parloa 完成 3.5 亿美元 D 轮融资：估值达 30 亿美元，推进多模态上下文智能体研发

德国 AI 客服初创公司 Parloa 正式宣布获得由 General Catalyst 领投的 3.5 亿美元 D 轮融资。

该轮融资完成后，Parloa 的公司估值在短短 8 个月内实现了从 10 亿美元到 30 亿美元的跨越，增长至原来的三倍。公司的长远目标是通过多模态上下文智能体技术，在全球范围内实现对 1700 万呼叫中心人工岗位的自动化替代。

在财务表现方面，公司披露其年经常性收入（ARR）已超过 5,000 万美元。值得注意的是，本次 3.5 亿美元融资距离上一轮 1.2 亿美元融资仅过去 8 个月，显示出资本市场对其强劲的信心。

新注入的资金将重点投入于研发多模态、上下文关联体验。其核心技术目标是赋予智能体跨渠道的身份识别与需求感知能力，从而彻底消除电话、移动端应用与网页端之间长期存在的交互断层。

目前，AI 客服赛道的资本呈现出高度集中的态势，行业竞争格局分层明显。除了 Parloa，头部玩家还包括估值达 100 亿美元的 Sierra、估值约 40 亿美元的 Decagon，以及 ARR 约 4000 万美元的 PolyAI。

在企业级部署方面，Parloa 的产品已成功进入 Allianz（安联保险）、Booking.com、SAP 及 Swiss Life 等大型企业的生产环境，专注于处理高并发场景下的复杂业务咨询。

目前，该服务已经上线，主要面向全球 2000 强企业提供闭源订阅服务。

( @TechCrunch)

03 有态度的观点

1、李斌新年首次内部讲话：成立「人工智能技术委员会」，加大投入推动 AI 全业务链落地

1 月 14 日下午，蔚来召开了一次内部会议，会上，蔚来创始人、董事长、CEO 李斌分享了 2026 年全年的个人 VAU（Vision Action Upgrade）。VAU 源自蔚来价值观里的「Vision」与「Action」，是蔚来特色的目标和过程管理工具，每年初，李斌会对上一年度 VAU 成果进行复盘，并和公司各业务负责人同步未来一整年的 VAU 目标。「蔚来的业务纵深与广度给人工智能的探索带来巨大挑战，同时蕴含机遇，这对公司的体系能力提出了更高要求。因此，推动 AI 体系能力建设是公司年度 VAU 中的优先事项。」李斌在会上表示道。

雷峰网获悉，1 月 5 日，蔚来通过内部邮件宣布，成立人工智能技术委员会（AGI Committee），首批核心成员由 15 个一级部门的近 30 名 AI 技术专家组成。该机构将有三个工作重点：感知洞察行业 AI 技术发展态势，以服务公司 AI 战略目标规划；绘制迭代公司内全域 AI 技术能力版图，以推动 AI 能力协同建设与跨域复用；建立运营面向全公司的 AI 技术和人才社区，以持续提升 AI 技术氛围和加速 AI 人才发展。

此次内部会议上，李斌阐述了 AI 投入的两个方向：一是加强智能驾驶全栈研发，计划通过年内三个大版本更新，重回行业第一梯队；二是 AI 全业务链落地，构建公司级的 AI 能力体系。李斌强调，生产、制造、供应链、销售，乃至于财务、人力资源，全公司各个业务单元都要运用 AI 提效。「如果 AI 能够帮助每个环节提效 3%，整个公司提效远不止 3%。」在此前百万台下线后，李斌曾对外表示过 2026 年的整体目标：2026 年目标实现 40-50%的稳健增长，换算成数字，蔚来要在新的一年卖出 45.64 万辆至 48.9 万辆车。

（@雷锋网）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考