阿里发布「夸克 AI 眼镜」:融合阿里购物、地图、支付生态;苹果拟收购计算机视觉初创 Prompt AI丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、腾讯开源模型 SongBloom 实现 AI 音乐精度与质感的双重越级

近日,腾讯 AI Lab 携手香港中文大学(深圳)、南京大学联合研发的歌曲生成模型 SongBloom,不仅成功实现开源,更凭借突破性技术成果,相关研究成果被全球顶级人工智能会议 NeurIPS 2025 录用,为音乐 AI 领域再添重磅突破。

作为一款聚焦歌曲生成的创新模型,SongBloom 只需输入 10 秒参考样本与对应歌词,即可生成双通道/48kHz, 2 分 30 秒的完整歌曲。更值得关注的是,在主客观双重评测中,SongBloom 不仅全面超越现有开源模型,更在音频质量与歌词准确性两大核心维度上取得了非常优秀的效果;同时在音乐性表现上,也达到了接近领域最佳水平(SOTA)的高度。

Demo Page

https://cypress-yang.github.io/SongBloom_demo

项目主仓库

https://github.com/tencent-ailab/SongBloom

(@腾讯开源)

2、Exa Labs 发布 Exa 2.0:推出全球最快、质量最高的搜索 API
图片

Exa Labs 今日发布了其搜索 API 的下一代版本「Exa 2.0」,宣称其提供了全球最快(低于 350ms)和质量最高的搜索服务。此次更新包括三个主要版本:

「Exa Fast」以极致速度优化、「Exa Deep」专注于最高搜索质量,以及默认的「Exa Auto」,在速度和质量间取得平衡。

  • Exa Fast:全球最快搜索 API - 提供低于 350ms 的端到端 P50 延迟,比竞品快 30%。该 API 能够快速抓取和提取数十亿网页中与 AI 相关的信息,为 LLM 提供近乎即时的外部知识支持。

  • Exa Deep:最高质量搜索 - 这是一个响应时间稍长(3.5s P50)但质量极高的搜索版本。它通过智能体(agent)式的迭代搜索和处理,确保检索到最优质的信息,适用于需要深度信息的场景。

  • Exa Auto:平衡速度与质量 - 作为默认选项,「Exa Auto」在速度和搜索质量之间找到了最佳平衡点,满足广泛的应用需求。

  • 底层技术升级 - Exa 2.0 基于全新的、每分钟刷新一次的数十亿级网页索引,并采用了专门为精确语义搜索预训练和微调的嵌入模型。服务这些模型在 144x H200 集群上进行了超过一个月的训练,并对自研的 Rust 编写的向量数据库进行了大量优化(如新的聚类算法、词汇压缩和汇编优化)。

  • RAG 评测体系 - Exa Labs 在评估搜索 API 的检索增强生成(RAG)能力时,采用了与 Perplexity 相似的 LLM 评估框架,并使用 GPT-4.1 作为 RAG 模型、GPT-4o-mini 作为评分模型,确保评测的公平性和一致性。

相关链接:

https://exa.ai/blog/exa-api-2-0

(@Exa Blog)



02有亮点的产品

1、苹果拟收购计算机视觉初创公司 Prompt AI,进一步布局智能家居领域

图片


据外媒 CNBC 报道,苹果公司正与计算机视觉初创企业 Prompt AI 进行收购的「最后阶段谈判」,计划收购该公司的核心技术及人才。

外媒透露,Prompt 领导层已在本周四的全员会议上向员工通报了交易进展,并表示部分未能加入苹果的员工将获得补偿,同时相应员工也可申请苹果公司的其他空缺岗位。

据悉,Prompt 投资人将在此次交易中获得部分资金回收,但无法完全收回投资,会议中高管要求员工在公开求职或与外界沟通时,暂时不要提及苹果公司的名字。

公开信息显示,成立于 2023 年的 Prompt AI 曾在同年完成由 AIX 与 Abstract Ventures 领投的 500 万美元。

其核心产品是一款名为 Seemour 的应用,可与家庭安防摄像头连接,提供高级识别与分析功能。该技术能让摄像头识别人、宠物及家中其他物体,并对异常活动发出警报或生成文字描述,甚至还能回答用户对于摄像头画面内容的提问。

这一收购动态也表明,随着人工智能技术的迅猛发展,越来越多的科技公司开始意识到 「人才」 在技术竞争中的重要性,采取收购初创公司的策略以迅速吸纳创新团队和前沿技术。

(@AI小讯)

2、阿里巴巴夸克发布「AI 眼镜」:融合阿里购物、地图、支付生态
图片

阿里巴巴旗下夸克团队近期发布了其首款自研 「夸克 AI 眼镜」 的技术进展,并在 NBA 中国赛现场首次开放体验。这款 AI 眼镜以极致轻薄、佩戴舒适为亮点。

深度融合了夸克多模态大模型和阿里应用生态,具备整合高德地图导航、淘宝比价、支付宝「看一下支付」、飞猪和阿里商旅等高频刚需场景的能力,有望解决当前 AI 眼镜缺乏实际应用生态的痛点。

它不仅提供高质量的视觉拍摄和「所见即所得」的智能交互,用户对着物品提问,眼镜拍照识别后,答案、背景、型号、价格等信息将即时在镜片内浮现。

镜腿本身即电池,支持在运行状态下快速更换,配合便携充电仓可实现全天候续航,旨在超越现有 AI 眼镜「极客玩具」的定位,成为继手机之后下一个重要的「移动入口」。

(@APPSO)

3、Figure AI 推出第三代人形机器人 Figure03:软硬件全面升级,能洗衣、爬楼梯

Figure AI 近日发布了其第三代人形机器人——Figure03,这款专为家庭和商业实际使用而设计的新机型,旨在突破实验室原型阶段,实现大规模实际部署。Figure AI 首席执行官布雷特·阿德考克(Brett Adcock)声称:「这部电影中没有任何内容是远程操作的。」

Figure03 的核心驱动力是 Figure 公司自主研发的「视觉-语言-动作」模型 Helix。该系统旨在赋予机器人无需人工指导即可完成洗衣、清洁和洗碗等日常琐事的能力。用户可以通过语音指令分配任务或提出问题。Figure 方面表示,Figure03 能够自行爬楼梯、穿越狭窄角落并适应变化的布局,体现了其对实际应用环境的适应性。

Figure03 在硬件上进行了多项重大升级,使其比前代 Figure02 更轻、更敏捷:

  • 尺寸与动力: 身高 1.68 米,体重 60 公斤,可负重 20 公斤,移动速度达每秒 1.2 米。完全电动,每次充电可运行长达五小时,支持无线充电和自动对接。

  • 视觉系统: 最大的升级在于传感器和触觉。Figure03 配备了全新摄像头,帧率提升一倍,延迟降低 75%,视野扩大 60%。更值得一提的是,机器人手掌内置了摄像头,当主摄像头被遮挡(如伸手进入橱柜)时,可提供备用视野。

  • 定制触觉: 鉴于现成传感器不够坚固,Figure AI 自主开发了定制触摸传感器。该公司声称其灵敏度足以检测回形针的重量,指尖也采用了更柔软的材质以增强抓握稳定性。

  • 安全设计: 为了增强居家安全性,Figure03 在挤压点处配备了泡沫垫和可调节、可清洗的织物罩。

(@AIBase)



03有态度的观点 

1、前 Google CEO:AI 模型或被黑客利用「学会杀人」
图片


据 CNBC 报道,在日前举行的 Sifted Summit 上,前 Google CEO Eric Schmidt 对人工智能的潜在风险发出警告。

他表示,AI 模型存在被黑客攻击的可能性,甚至可能被操纵以学习危险技能。

有证据显示,无论是开源还是闭源模型,都可能被黑客移除安全防护。在训练过程中,它们会学到很多东西,一个糟糕的例子就是学会如何杀人。

他强调,目前所有主要公司都在努力阻止模型回答此类问题,并且「做得很好,也出于正确的理由」。

但他同时提醒,AI 系统仍可能通过「提示注入」或「越狱」等方式被绕过安全限制。

尽管提出严峻警示,Schmidt 依然对 AI 的整体前景保持乐观。他认为 AI 是一种「被低估的」技术,未来将带来巨大的经济回报。

从 GPT 系列到 ChatGPT 的爆发式增长,都证明了这项技术的力量。我相信在未来 5 到 10 年内,它的潜力会进一步显现。

Schmidt 还补充,目前尚未建立有效的「防扩散机制」来应对 AI 被滥用的风险,但他相信长期投资者之所以愿意承担风险,正是因为他们看好 AI 的长期经济价值。

(@APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

图片

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    阿里发布「夸克 AI 眼镜」:融合阿里购物、地图、支付生态;苹果拟收购计算机视觉初创 Prompt AI丨日报RTRTE_Dev_Comm