阿里发布「夸克 AI 眼镜」:融合阿里购物、地图、支付生态;苹果拟收购计算机视觉初创 Prompt AI丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、腾讯开源模型 SongBloom 实现 AI 音乐精度与质感的双重越级
近日,腾讯 AI Lab 携手香港中文大学(深圳)、南京大学联合研发的歌曲生成模型 SongBloom,不仅成功实现开源,更凭借突破性技术成果,相关研究成果被全球顶级人工智能会议 NeurIPS 2025 录用,为音乐 AI 领域再添重磅突破。
作为一款聚焦歌曲生成的创新模型,SongBloom 只需输入 10 秒参考样本与对应歌词,即可生成双通道/48kHz, 2 分 30 秒的完整歌曲。更值得关注的是,在主客观双重评测中,SongBloom 不仅全面超越现有开源模型,更在音频质量与歌词准确性两大核心维度上取得了非常优秀的效果;同时在音乐性表现上,也达到了接近领域最佳水平(SOTA)的高度。
Demo Page:
https://cypress-yang.github.io/SongBloom_demo
项目主仓库:
https://github.com/tencent-ailab/SongBloom
(@腾讯开源)
2、Exa Labs 发布 Exa 2.0:推出全球最快、质量最高的搜索 API
Exa Labs 今日发布了其搜索 API 的下一代版本「Exa 2.0」,宣称其提供了全球最快(低于 350ms)和质量最高的搜索服务。此次更新包括三个主要版本:
「Exa Fast」以极致速度优化、「Exa Deep」专注于最高搜索质量,以及默认的「Exa Auto」,在速度和质量间取得平衡。
Exa Fast:全球最快搜索 API - 提供低于 350ms 的端到端 P50 延迟,比竞品快 30%。该 API 能够快速抓取和提取数十亿网页中与 AI 相关的信息,为 LLM 提供近乎即时的外部知识支持。
Exa Deep:最高质量搜索 - 这是一个响应时间稍长(3.5s P50)但质量极高的搜索版本。它通过智能体(agent)式的迭代搜索和处理,确保检索到最优质的信息,适用于需要深度信息的场景。
Exa Auto:平衡速度与质量 - 作为默认选项,「Exa Auto」在速度和搜索质量之间找到了最佳平衡点,满足广泛的应用需求。
底层技术升级 - Exa 2.0 基于全新的、每分钟刷新一次的数十亿级网页索引,并采用了专门为精确语义搜索预训练和微调的嵌入模型。服务这些模型在 144x H200 集群上进行了超过一个月的训练,并对自研的 Rust 编写的向量数据库进行了大量优化(如新的聚类算法、词汇压缩和汇编优化)。
RAG 评测体系 - Exa Labs 在评估搜索 API 的检索增强生成(RAG)能力时,采用了与 Perplexity 相似的 LLM 评估框架,并使用 GPT-4.1 作为 RAG 模型、GPT-4o-mini 作为评分模型,确保评测的公平性和一致性。
相关链接:
https://exa.ai/blog/exa-api-2-0
(@Exa Blog)
02有亮点的产品
1、苹果拟收购计算机视觉初创公司 Prompt AI,进一步布局智能家居领域
据外媒 CNBC 报道,苹果公司正与计算机视觉初创企业 Prompt AI 进行收购的「最后阶段谈判」,计划收购该公司的核心技术及人才。
外媒透露,Prompt 领导层已在本周四的全员会议上向员工通报了交易进展,并表示部分未能加入苹果的员工将获得补偿,同时相应员工也可申请苹果公司的其他空缺岗位。
据悉,Prompt 投资人将在此次交易中获得部分资金回收,但无法完全收回投资,会议中高管要求员工在公开求职或与外界沟通时,暂时不要提及苹果公司的名字。
公开信息显示,成立于 2023 年的 Prompt AI 曾在同年完成由 AIX 与 Abstract Ventures 领投的 500 万美元。
其核心产品是一款名为 Seemour 的应用,可与家庭安防摄像头连接,提供高级识别与分析功能。该技术能让摄像头识别人、宠物及家中其他物体,并对异常活动发出警报或生成文字描述,甚至还能回答用户对于摄像头画面内容的提问。
这一收购动态也表明,随着人工智能技术的迅猛发展,越来越多的科技公司开始意识到 「人才」 在技术竞争中的重要性,采取收购初创公司的策略以迅速吸纳创新团队和前沿技术。
(@AI小讯)
2、阿里巴巴夸克发布「AI 眼镜」:融合阿里购物、地图、支付生态
阿里巴巴旗下夸克团队近期发布了其首款自研 「夸克 AI 眼镜」 的技术进展,并在 NBA 中国赛现场首次开放体验。这款 AI 眼镜以极致轻薄、佩戴舒适为亮点。
深度融合了夸克多模态大模型和阿里应用生态,具备整合高德地图导航、淘宝比价、支付宝「看一下支付」、飞猪和阿里商旅等高频刚需场景的能力,有望解决当前 AI 眼镜缺乏实际应用生态的痛点。
它不仅提供高质量的视觉拍摄和「所见即所得」的智能交互,用户对着物品提问,眼镜拍照识别后,答案、背景、型号、价格等信息将即时在镜片内浮现。
镜腿本身即电池,支持在运行状态下快速更换,配合便携充电仓可实现全天候续航,旨在超越现有 AI 眼镜「极客玩具」的定位,成为继手机之后下一个重要的「移动入口」。
(@APPSO)
3、Figure AI 推出第三代人形机器人 Figure03:软硬件全面升级,能洗衣、爬楼梯
Figure AI 近日发布了其第三代人形机器人——Figure03,这款专为家庭和商业实际使用而设计的新机型,旨在突破实验室原型阶段,实现大规模实际部署。Figure AI 首席执行官布雷特·阿德考克(Brett Adcock)声称:「这部电影中没有任何内容是远程操作的。」
Figure03 的核心驱动力是 Figure 公司自主研发的「视觉-语言-动作」模型 Helix。该系统旨在赋予机器人无需人工指导即可完成洗衣、清洁和洗碗等日常琐事的能力。用户可以通过语音指令分配任务或提出问题。Figure 方面表示,Figure03 能够自行爬楼梯、穿越狭窄角落并适应变化的布局,体现了其对实际应用环境的适应性。
Figure03 在硬件上进行了多项重大升级,使其比前代 Figure02 更轻、更敏捷:
尺寸与动力: 身高 1.68 米,体重 60 公斤,可负重 20 公斤,移动速度达每秒 1.2 米。完全电动,每次充电可运行长达五小时,支持无线充电和自动对接。
视觉系统: 最大的升级在于传感器和触觉。Figure03 配备了全新摄像头,帧率提升一倍,延迟降低 75%,视野扩大 60%。更值得一提的是,机器人手掌内置了摄像头,当主摄像头被遮挡(如伸手进入橱柜)时,可提供备用视野。
定制触觉: 鉴于现成传感器不够坚固,Figure AI 自主开发了定制触摸传感器。该公司声称其灵敏度足以检测回形针的重量,指尖也采用了更柔软的材质以增强抓握稳定性。
安全设计: 为了增强居家安全性,Figure03 在挤压点处配备了泡沫垫和可调节、可清洗的织物罩。
(@AIBase)
03有态度的观点
1、前 Google CEO:AI 模型或被黑客利用「学会杀人」
据 CNBC 报道,在日前举行的 Sifted Summit 上,前 Google CEO Eric Schmidt 对人工智能的潜在风险发出警告。
他表示,AI 模型存在被黑客攻击的可能性,甚至可能被操纵以学习危险技能。
有证据显示,无论是开源还是闭源模型,都可能被黑客移除安全防护。在训练过程中,它们会学到很多东西,一个糟糕的例子就是学会如何杀人。
他强调,目前所有主要公司都在努力阻止模型回答此类问题,并且「做得很好,也出于正确的理由」。
但他同时提醒,AI 系统仍可能通过「提示注入」或「越狱」等方式被绕过安全限制。
尽管提出严峻警示,Schmidt 依然对 AI 的整体前景保持乐观。他认为 AI 是一种「被低估的」技术,未来将带来巨大的经济回报。
从 GPT 系列到 ChatGPT 的爆发式增长,都证明了这项技术的力量。我相信在未来 5 到 10 年内,它的潜力会进一步显现。
Schmidt 还补充,目前尚未建立有效的「防扩散机制」来应对 AI 被滥用的风险,但他相信长期投资者之所以愿意承担风险,正是因为他们看好 AI 的长期经济价值。
(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
素材来源官方媒体/网络新闻