阿里发布「夸克 AI 眼镜」：融合阿里购物、地图、支付生态；苹果拟收购计算机视觉初创 Prompt AI丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、腾讯开源模型 SongBloom 实现 AI 音乐精度与质感的双重越级

近日，腾讯 AI Lab 携手香港中文大学（深圳）、南京大学联合研发的歌曲生成模型 SongBloom，不仅成功实现开源，更凭借突破性技术成果，相关研究成果被全球顶级人工智能会议 NeurIPS 2025 录用，为音乐 AI 领域再添重磅突破。

作为一款聚焦歌曲生成的创新模型，SongBloom 只需输入 10 秒参考样本与对应歌词，即可生成双通道/48kHz， 2 分 30 秒的完整歌曲。更值得关注的是，在主客观双重评测中，SongBloom 不仅全面超越现有开源模型，更在音频质量与歌词准确性两大核心维度上取得了非常优秀的效果；同时在音乐性表现上，也达到了接近领域最佳水平（SOTA）的高度。

Demo Page:

https://cypress-yang.github.io/SongBloom_demo

项目主仓库：

https://github.com/tencent-ailab/SongBloom

（@腾讯开源）

2、Exa Labs 发布 Exa 2.0：推出全球最快、质量最高的搜索 API

Exa Labs 今日发布了其搜索 API 的下一代版本「Exa 2.0」，宣称其提供了全球最快（低于 350ms）和质量最高的搜索服务。此次更新包括三个主要版本：

「Exa Fast」以极致速度优化、「Exa Deep」专注于最高搜索质量，以及默认的「Exa Auto」，在速度和质量间取得平衡。

Exa Fast：全球最快搜索 API - 提供低于 350ms 的端到端 P50 延迟，比竞品快 30%。该 API 能够快速抓取和提取数十亿网页中与 AI 相关的信息，为 LLM 提供近乎即时的外部知识支持。
Exa Deep：最高质量搜索 - 这是一个响应时间稍长（3.5s P50）但质量极高的搜索版本。它通过智能体（agent）式的迭代搜索和处理，确保检索到最优质的信息，适用于需要深度信息的场景。
Exa Auto：平衡速度与质量 - 作为默认选项，「Exa Auto」在速度和搜索质量之间找到了最佳平衡点，满足广泛的应用需求。
底层技术升级 - Exa 2.0 基于全新的、每分钟刷新一次的数十亿级网页索引，并采用了专门为精确语义搜索预训练和微调的嵌入模型。服务这些模型在 144x H200 集群上进行了超过一个月的训练，并对自研的 Rust 编写的向量数据库进行了大量优化（如新的聚类算法、词汇压缩和汇编优化）。
RAG 评测体系 - Exa Labs 在评估搜索 API 的检索增强生成（RAG）能力时，采用了与 Perplexity 相似的 LLM 评估框架，并使用 GPT-4.1 作为 RAG 模型、GPT-4o-mini 作为评分模型，确保评测的公平性和一致性。

02有亮点的产品

1、苹果拟收购计算机视觉初创公司 Prompt AI，进一步布局智能家居领域

据外媒 CNBC 报道，苹果公司正与计算机视觉初创企业 Prompt AI 进行收购的「最后阶段谈判」，计划收购该公司的核心技术及人才。

外媒透露，Prompt 领导层已在本周四的全员会议上向员工通报了交易进展，并表示部分未能加入苹果的员工将获得补偿，同时相应员工也可申请苹果公司的其他空缺岗位。

据悉，Prompt 投资人将在此次交易中获得部分资金回收，但无法完全收回投资，会议中高管要求员工在公开求职或与外界沟通时，暂时不要提及苹果公司的名字。

公开信息显示，成立于 2023 年的 Prompt AI 曾在同年完成由 AIX 与 Abstract Ventures 领投的 500 万美元。

其核心产品是一款名为 Seemour 的应用，可与家庭安防摄像头连接，提供高级识别与分析功能。该技术能让摄像头识别人、宠物及家中其他物体，并对异常活动发出警报或生成文字描述，甚至还能回答用户对于摄像头画面内容的提问。

这一收购动态也表明，随着人工智能技术的迅猛发展，越来越多的科技公司开始意识到「人才」在技术竞争中的重要性，采取收购初创公司的策略以迅速吸纳创新团队和前沿技术。

（@AI小讯）

2、阿里巴巴夸克发布「AI 眼镜」：融合阿里购物、地图、支付生态

阿里巴巴旗下夸克团队近期发布了其首款自研「夸克 AI 眼镜」的技术进展，并在 NBA 中国赛现场首次开放体验。这款 AI 眼镜以极致轻薄、佩戴舒适为亮点。

深度融合了夸克多模态大模型和阿里应用生态，具备整合高德地图导航、淘宝比价、支付宝「看一下支付」、飞猪和阿里商旅等高频刚需场景的能力，有望解决当前 AI 眼镜缺乏实际应用生态的痛点。

它不仅提供高质量的视觉拍摄和「所见即所得」的智能交互，用户对着物品提问，眼镜拍照识别后，答案、背景、型号、价格等信息将即时在镜片内浮现。

镜腿本身即电池，支持在运行状态下快速更换，配合便携充电仓可实现全天候续航，旨在超越现有 AI 眼镜「极客玩具」的定位，成为继手机之后下一个重要的「移动入口」。

(@APPSO)

3、Figure AI 推出第三代人形机器人 Figure03：软硬件全面升级，能洗衣、爬楼梯

Figure AI 近日发布了其第三代人形机器人——Figure03，这款专为家庭和商业实际使用而设计的新机型，旨在突破实验室原型阶段，实现大规模实际部署。Figure AI 首席执行官布雷特·阿德考克（Brett Adcock）声称：「这部电影中没有任何内容是远程操作的。」

Figure03 的核心驱动力是 Figure 公司自主研发的「视觉-语言-动作」模型 Helix。该系统旨在赋予机器人无需人工指导即可完成洗衣、清洁和洗碗等日常琐事的能力。用户可以通过语音指令分配任务或提出问题。Figure 方面表示，Figure03 能够自行爬楼梯、穿越狭窄角落并适应变化的布局，体现了其对实际应用环境的适应性。

Figure03 在硬件上进行了多项重大升级，使其比前代 Figure02 更轻、更敏捷：

尺寸与动力：身高 1.68 米，体重 60 公斤，可负重 20 公斤，移动速度达每秒 1.2 米。完全电动，每次充电可运行长达五小时，支持无线充电和自动对接。
视觉系统：最大的升级在于传感器和触觉。Figure03 配备了全新摄像头，帧率提升一倍，延迟降低 75%，视野扩大 60%。更值得一提的是，机器人手掌内置了摄像头，当主摄像头被遮挡（如伸手进入橱柜）时，可提供备用视野。
定制触觉：鉴于现成传感器不够坚固，Figure AI 自主开发了定制触摸传感器。该公司声称其灵敏度足以检测回形针的重量，指尖也采用了更柔软的材质以增强抓握稳定性。
安全设计：为了增强居家安全性，Figure03 在挤压点处配备了泡沫垫和可调节、可清洗的织物罩。

(@AIBase)

03有态度的观点

1、前 Google CEO：AI 模型或被黑客利用「学会杀人」

据 CNBC 报道，在日前举行的 Sifted Summit 上，前 Google CEO Eric Schmidt 对人工智能的潜在风险发出警告。

他表示，AI 模型存在被黑客攻击的可能性，甚至可能被操纵以学习危险技能。

有证据显示，无论是开源还是闭源模型，都可能被黑客移除安全防护。在训练过程中，它们会学到很多东西，一个糟糕的例子就是学会如何杀人。

他强调，目前所有主要公司都在努力阻止模型回答此类问题，并且「做得很好，也出于正确的理由」。

但他同时提醒，AI 系统仍可能通过「提示注入」或「越狱」等方式被绕过安全限制。

尽管提出严峻警示，Schmidt 依然对 AI 的整体前景保持乐观。他认为 AI 是一种「被低估的」技术，未来将带来巨大的经济回报。

从 GPT 系列到 ChatGPT 的爆发式增长，都证明了这项技术的力量。我相信在未来 5 到 10 年内，它的潜力会进一步显现。

Schmidt 还补充，目前尚未建立有效的「防扩散机制」来应对 AI 被滥用的风险，但他相信长期投资者之所以愿意承担风险，正是因为他们看好 AI 的长期经济价值。