字节新一代 AI 耳机将搭载摄像头;德国 AI 客服初创公司 Parloa 新一轮融资估值 30 亿美元丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」, 每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、Google 发布 TranslateGemma:基于 Gemma 3 架构,12B 模型翻译性能超越 27B 基线
Google 正式发布基于 Gemma 3 架构的专用翻译模型系列「TranslateGemma」,提供 4B、12B 和 27B 三种参数规模。该系列旨在通过技术革新,将 Gemini 的强大翻译能力蒸馏至开放架构中,从而在消费级硬件与移动端实现端侧高保真翻译。
在模型效率方面,TranslateGemma 实现了显著的跨级超越。在 WMT24++ 基准测试中,12B 版本基于 MetricX 指标的翻译质量已超越参数量大其两倍的 Gemma 3 27B 基线模型;而 4B 版本性能则与 12B 基线模型持平,大幅提升了单位参数的推理吞吐量。
这一性能突破主要得益于独特的「SFT + RL」两阶段微调工艺。团队首先利用 Gemini 生成的高质量合成数据与人工翻译数据进行监督微调(SFT),随后引入强化学习(RL)阶段,通过 MetricX-QE 和 AutoMQM 奖励模型组合,针对性优化译文的语境准确度和自然度。
此外,该模型继承了 Gemma 3 的原生多模态能力,实现了翻译能力的联动优化。测试显示,即便不针对视觉任务进行专项微调,仅靠文本翻译质量的提升,即可在 Vistra 图像翻译基准测试中同步增强图像内文字的翻译精度。
在语言覆盖范围上,模型针对含高、中、低资源语言在内的 55 种核心语言进行了严格评估,并额外对近 500 种语言对进行了探索性训练,为学术界研究濒危语言提供了可微调的开放底座。
目前,模型权重已全部开源,开发者可在 Kaggle 和 Hugging Face 下载,或通过 Vertex AI 直接部署使用。
技术报告:
https://arxiv.org/pdf/2601.09012
HuggingFace:
https://huggingface.co/collections/google/translategemma
( @Google Blog)
2、Google 发布「Personal Intelligence」:由 Gemini 3 驱动,打通 Gmail/Photos/YouTube 底层数据流
Google 正式发布由 Gemini 3 模型驱动的全新功能「Personal Intelligence」。该功能通过打通 Gmail、Photos、YouTube 和 Search 四大核心应用的数据底层,使 AI 具备了跨应用的私有上下文处理能力,能够将用户长达十年的历史数据转化为深度个性化的智能服务。
在数据整合层面,AI 获得了跨应用底层权限,实现了数据寻址与互通。它能够自主调取分散在不同 App 中的邮件行程、相册碎片及视频偏好,从而构建出完整的个人数字图谱。
区别于传统的即时信息处理,该功能的核心优势在于长周期私有上下文处理。机制侧重于挖掘数年甚至十年的历史存档数据,利用用户的真实生活轨迹,为 AI 的每一次响应提供高精度的背景锚点。
为了确保认知的准确性,系统内置了直观的自然语言纠错机制。用户可以通过日常对话,直接纠正 AI 对其人际关系或兴趣偏好的错误推断,实现认知记录的实时校准。
在技术架构上,该功能采用纯云端架构,完全依托 Google 数据中心算力来处理海量的私有数据吞吐。这一技术路线与 Apple Intelligence 采取的端云混合策略形成了鲜明的差异。
目前,Personal Intelligence 已进入 Beta 测试阶段,优先向「Google AI Pro」和「AI Ultra」付费订阅用户开放,并同步支持 Web、Android 及 iOS 全平台使用。
(@量子位)
02 有亮点的产品
1、通义千问 App 深度集成阿里生态:支持端内闭环支付、多步任务规划及 400+ 项智能体办事功能
阿里巴巴于 1 月 15 日正式举行发布会,这一次,千问 App 上线了全新 AI Agent 能力「任务助理」,同时全面打通阿里生态,一次开启了 400 多项新功能,标志着该应用从「聊天对话」正式进阶为「AI 办事助手」。官方称该应用为全球首个能完成真实生活复杂任务的 AI 助手,目前其 C 端月活跃用户已突破 1 亿。邀请测试与灰度上线已经同步开启,全都是免费可用的。
千问 App 全面接入了 淘宝、支付宝、淘宝闪购、飞猪、高德、阿里健康 等阿里生态业务,用户只需通过自然语言指令,即可在 App 端内闭环完成点外卖、一句话购物、订机票酒店及 50 项政务民生服务,无需跳转至其他应用。
经实测发现,用户可直接在页面对话千问说「帮我点一杯咖啡」,在获得淘宝授权且绑定后,千问会自动根据位置信息推荐收货地址,并首先推荐了瑞幸的美式咖啡,点击「选它」后即可跳转支付宝完成付款。测试者要求将品牌换成 manner 后,千问又给出了一款拿铁进行推荐,随后,测试者直接在对话页面具体提出要求「白脱拿铁」,千问最终给出了对应产品及付款页面。
此外,具备多步骤规划能力的「任务助理」功能已开启定向邀测,涵盖应用开发、Office 办公及深度咨询调研等场景。这一系列升级主要得益于千问底层全模态理解、AI Coding 及超长上下文处理三大能力的突破。
对于是否开放第三方应用接入千问,据媒体报道,千问 C 端事业群总裁吴嘉在采访中透露,除了接入阿里生态,千问会在未来接入第三方的产品,这件事已在讨论中。据了解,千问目前被阿里核心管理层视作「AI 时代的未来之战」。
(@雷锋网、@阿里云云栖号)
2、滴滴出行智能体「小滴」:由 LLM 驱动,实现复杂意图解析与多层级需求打分排序
滴滴正式推出了基于原生大语言模型(LLM)开发的出行智能体「小滴」。这一创新将传统的「手动勾选菜单」打车模式,全面升级为更直观的自然语言交互模式。
用户只需通过语音或文字表达个性化需求,系统即可自动完成语义解析、条件过滤与运力匹配,从而直接提升了复杂出行场景下的决策效率。
在核心能力上,系统实现了非结构化需求的标签化映射。它能够准确理解诸如「坐电车头晕」或「全家 5 口人」等模糊表述,并将其实时转化为底层的车辆特征参数,如「燃油动力」、「六座车型」或「驾驶平稳度标签」,完成了从自然语言到数据库筛选条件的自动转换。
针对运力匹配,小滴引入了多层级约束满足排序算法。该算法采用权重机制,将用户需求精细拆解为「必要」、「优先安排」及「尽量满足」等多个等级。
在运力资源有限的情况下,智能体会严格根据需求权重,对周边车辆进行实时的加权打分并排序推荐,以确保最优匹配。
此外,该智能体还具备基于长短期记忆的偏好继承能力。它拥有跨会话的记忆功能,能够通过历史交互自动提取用户的长期习惯。例如,若用户曾表示「固定避开电车」,在后续交互中无需重复输入,系统会自动将其作为前置过滤条件。
为了实现端到端的出行链路集成,系统整合了 LBS(地理位置服务)与 POI 推荐能力。支持用户从模糊意图(如「想吃烤鸭」)直接关联至具体目的地,并同步触发叫车逻辑,有效缩短了从生活决策到出行执行的链路。
目前,该智能体已在滴滴 App 内部上线,并经历了 3 个月以上的版本迭代,用户可直接通过对话入口体验。
(@量子位)
3、字节正研发新一代豆包 AI 耳机,将搭载摄像头,由歌尔股份代工
蓝鲸科技记者近日从供应链人士处独家获悉,字节跳动正研发豆包新一代 AI 耳机,将由歌尔股份承接代工生产。
「歌尔股份目前已专门设立事业群(BG),统筹负责字节跳动相关业务。」该人士还表示,「从这样的内部资源配置不难看出,歌尔股份对字节跳动合作的重视程度。」
对此,歌儿股份相关人士回应蓝鲸科技记者称,「我们跟客户签署保密协议,不方便透露客户名称及相关产品。」
此外,接近字节人士则称,「字节目前没有上市下一代耳机的计划」。
值得注意的是,豆包首款 AI 智能体耳机「Ola Friend」于 2024 年 10 月发布,由国光电器担任主要 ODM 供应商,至今已超过一年未推出更新机型。此次更换代工合作伙伴,被业内视为字节跳动在 AI 硬件策略上的一次主动调整,或显示出其在新一代产品上的升级意图。
而选择歌尔股份并非偶然,蓝鲸科技记者了解到,双方此前已在 VR 领域建立深度合作关系——歌尔股份长期为字节跳动旗下 VR 品牌 Pico 提供光学模组、硬件制造及代工服务。
在产品形态上,新一代耳机预计将呈现明显差异。蓝鲸科技记者通过多个信息源交叉确认,该耳机将搭载摄像头模块,但设计初衷并非用于传统拍摄,而是服务于 AI 视觉交互功能。这一思路与 Meta 此前曝光的「Camerabuds」项目异曲同工,后者的核心目标便是通过摄像头实现实时物体识别、翻译等场景化 AI 应用。
针对本次新品出货量情况,上述供应链人士表示,「该产品产量不会太大。耳机市场竞争已趋充分,留给字节的市场空间或较为有限。」相关机构数据显示,2025 年 Q1 全球前五大品牌份额合计 52%(苹果 23%+小米 11.5%+三星 7%+华为 6%+boAt5%);Q3 进一步降至 49%,头部格局固化但内部洗牌剧烈。
此外,蓝鲸科技记者还从另一知情人士处独家获悉,这款 AI 耳机原计划于 2025 年 12 月 30 日在「罗永浩的十字路口」年度科技创新分享大会上亮相,最终因产品尚未完全准备就绪而临时撤档。
该知情人士补充称,「字节这款 AI 耳机的产品思路与市面上多数 AI 耳机存在差异,核心围绕与手机的协同功能进行打造。」
(@蓝鲸科技)
4、Parloa 完成 3.5 亿美元 D 轮融资:估值达 30 亿美元,推进多模态上下文智能体研发
德国 AI 客服初创公司 Parloa 正式宣布获得由 General Catalyst 领投的 3.5 亿美元 D 轮融资。
该轮融资完成后,Parloa 的公司估值在短短 8 个月内实现了从 10 亿美元到 30 亿美元的跨越,增长至原来的三倍。公司的长远目标是通过多模态上下文智能体技术,在全球范围内实现对 1700 万呼叫中心人工岗位的自动化替代。
在财务表现方面,公司披露其年经常性收入(ARR)已超过 5,000 万美元。值得注意的是,本次 3.5 亿美元融资距离上一轮 1.2 亿美元融资仅过去 8 个月,显示出资本市场对其强劲的信心。
新注入的资金将重点投入于研发多模态、上下文关联体验。其核心技术目标是赋予智能体跨渠道的身份识别与需求感知能力,从而彻底消除电话、移动端应用与网页端之间长期存在的交互断层。
目前,AI 客服赛道的资本呈现出高度集中的态势,行业竞争格局分层明显。除了 Parloa,头部玩家还包括估值达 100 亿美元的 Sierra、估值约 40 亿美元的 Decagon,以及 ARR 约 4000 万美元的 PolyAI。
在企业级部署方面,Parloa 的产品已成功进入 Allianz(安联保险)、Booking.com、SAP 及 Swiss Life 等大型企业的生产环境,专注于处理高并发场景下的复杂业务咨询。
目前,该服务已经上线,主要面向全球 2000 强企业提供闭源订阅服务。
( @TechCrunch)
03 有态度的观点
1、李斌新年首次内部讲话:成立「人工智能技术委员会」,加大投入推动 AI 全业务链落地
1 月 14 日下午,蔚来召开了一次内部会议,会上,蔚来创始人、董事长、CEO 李斌分享了 2026 年全年的个人 VAU(Vision Action Upgrade)。VAU 源自蔚来价值观里的「Vision」与「Action」,是蔚来特色的目标和过程管理工具,每年初,李斌会对上一年度 VAU 成果进行复盘,并和公司各业务负责人同步未来一整年的 VAU 目标。「蔚来的业务纵深与广度给人工智能的探索带来巨大挑战,同时蕴含机遇,这对公司的体系能力提出了更高要求。因此,推动 AI 体系能力建设是公司年度 VAU 中的优先事项。」李斌在会上表示道。
雷峰网获悉,1 月 5 日,蔚来通过内部邮件宣布,成立人工智能技术委员会(AGI Committee),首批核心成员由 15 个一级部门的近 30 名 AI 技术专家组成。该机构将有三个工作重点:感知洞察行业 AI 技术发展态势,以服务公司 AI 战略目标规划;绘制迭代公司内全域 AI 技术能力版图,以推动 AI 能力协同建设与跨域复用;建立运营面向全公司的 AI 技术和人才社区,以持续提升 AI 技术氛围和加速 AI 人才发展。
此次内部会议上,李斌阐述了 AI 投入的两个方向:一是加强智能驾驶全栈研发,计划通过年内三个大版本更新,重回行业第一梯队;二是 AI 全业务链落地,构建公司级的 AI 能力体系。李斌强调,生产、制造、供应链、销售,乃至于财务、人力资源,全公司各个业务单元都要运用 AI 提效。「如果 AI 能够帮助每个环节提效 3%,整个公司提效远不止 3%。」在此前百万台下线后,李斌曾对外表示过 2026 年的整体目标:2026 年目标实现 40-50%的稳健增长,换算成数字,蔚来要在新的一年卖出 45.64 万辆至 48.9 万辆车。
(@雷锋网)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考