AI 语音调研初创 Cookiy AI 融资 700 万美元;软银 53 亿美元收购 ABB 机器人业务,布局物理 AI 丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、麻省理工学院推出可调节的生成 AI 工具,助力机器人虚拟训练
近日,麻省理工学院(MIT)的计算机科学与人工智能实验室(CSAIL)与丰田研究院共同推出了一款名为 「可引导场景生成」(steerable scene generation)的生成式 AI 工具,旨在提升机器人学习能力。这款新工具能够创建虚拟训练环境,如厨房、客厅和餐厅,以供工程师测试机器人如何处理现实生活中的任务。
该平台经过训练,基于超过 4400 万个 3D 房间的数据,具备 「可引导」 的特性,利用了一种名为 「蒙特卡洛树搜索」(Monte Carlo tree search,MCTS)的策略。MCTS 可以帮助 AI 模型识别并选择场景生成的选项,以实现特定目标,例如让场景尽可能真实,或在场景中添加更多物体。这一策略使得系统在训练过程中能够不断学习,创建出日益复杂的场景。
该系统仍处于概念验证阶段,团队希望未来能够扩展更多的对象和环境,最终利用生成式 AI 创建全新的资产,而不仅仅依赖于固定的库。通过扩大虚拟训练场的多样性和真实感,团队也希望建立一个用户社区,生成大量数据,为机器人学习更广泛的技能奠定基础。
(@ AIBase)
2、蚂蚁发布万亿参数语言模型 Ling-1T,推理速度与能力增强
近日,蚂蚁集团正式推出其首款旗舰语言模型 ——Ling-1T,参数数量高达一万亿,成为国产开源模型中的一大亮点。Ling-1T 不仅在各类推理任务中表现出色,还在代码生成、数学计算和逻辑推理等多个领域树立了新的标杆。
Ling-1T 的推出,标志着蚂蚁在人工智能领域的一次重要突破。该模型在推理速度和能力上都显现出超乎寻常的表现。在最近的测试中,Ling-1T 超越了许多知名开源和闭源模型,展示了其强大的推理能力和思考效率。例如,在复杂的竞赛数学问题中,Ling-1T 能够快速响应并给出准确的解答,显示出其在数学能力上的卓越。
在推理测试中,Ling-1T 能够快速分析问题并给出多种解决方案。例如,在经典的空间几何优化问题中,Ling-1T 提出了多种操作方案,并验证了每种方案的可行性。此外,当面对较为复杂的数学题时,它也能迅速建模并找出正确答案,展现了强大的逻辑推理能力。
除了在推理方面的表现,Ling-1T 在代码生成上也表现不俗。模型能够自动生成关于诺贝尔奖的网站内容,结构清晰、信息全面,让用户轻松获取所需信息。此外,Ling-1T 在旅行路线规划方面的能力同样出色,能够根据用户需求制定合理的行程安排。
相关链接:
https://huggingface.co/inclusionAI/Ling-1T
(@ AIBase)
3、Google 创新「推理记忆」框架: AI 智能体从经验中学习,实现真正「自我改进」
谷歌最新研究:提出一个新的智能体记忆框架:一种能够积累、概括与重用推理经验的记忆体系,即「推理记忆」(可学习的推理记忆)。使 AI 智能体能够从自我经验和错误中不断学习。实现真正的「自我改进」。
当前由语言模型驱动的 AI 智能体展现出卓越的推理和任务执行能力,但一个核心缺陷依然突出:
缺乏可持续学习和自我改进机制。换句话说,现有智能体在完成任务后不会「成长」:LLM 智能体无法从过去的经验中学习——它们在每次任务中都像「重新发明轮子」一样重新开始。
这导致了:
重复犯错;
每个任务都从零开始;
无法系统地积累和抽象经验,浪费已有经验;
无法根据过去的经验优化未来的决策;
无法实现「自我进化」。
即使配备了「记忆模块」,大多数系统也仅仅是信息缓存(情景记忆),
缺乏抽象理解和重用经验机制。这一局限性意味着:智能体缺乏「可学习的推理记忆(推理记忆)」,因此无法真正「自我进化」。
该研究提出了两个主要的创新技术组件:
推理库和 MaTTS,ReasoningBank 不仅吸收「成功经验」,还系统地分析「失败经验。」 MaTTS 旨在动态扩展智能体的计算探索。
显著性能提升
在 WebArena、Mind2Web、SWE-Bench 上:成功率提高了高达 +34.2%(相对提升);平均交互步骤减少了约 16%。
论文链接:
https://arxiv.org/abs/2509.25140
( @ imxiaohu@X)
4、AlphaEarth Foundations:地球数字孪生模型 一个「理解地球」的 AI 模型
模型架构:虚拟卫星的工作原理
每天,全球有上千颗卫星在运行,它们拍摄地球表面的光学影像、气候参数、海洋信息和雷达数据。
这些数据能让科学家实时「看到」地球,但同时也存在三个巨大问题:
数据量过于庞大:每天产生的地球观测数据以「PB(千万亿字节)」计;
来源复杂且不统一:不同卫星的数据格式、分辨率、时间频率都不同;
难以集成使用:想分析某个地区的变化,往往要拼接多个来源的数据,过程耗时且容易出错。
DeepMind 的目标是解决这个问题。于是诞生了 AlphaEarth Foundations —— 一个「理解地球」的 AI 模型。
AlphaEarth Foundations 是由 Google DeepMind 与 Google Earth Engine 团队联合开发的全新 AI 地球观测模型,旨在利用 海量卫星影像和多模态地球数据,生成一个统一、高精度的数字地球嵌入模型(embedding)。
相关链接:
https://deepmind.google/discover/blog/alphaearth-foundations-helps-map-our-planet-in-unprecedented-detail/
(@ XIAOHU)
02有亮点的产品
1、软银以 53.75 亿美元收购 ABB 集团机器人业务,布局物理人工智能
日本投资巨头软银集团近日宣布将收购瑞士苏黎世的 ABB 集团机器人业务,交易金额高达 53.75 亿美元。该交易尚需监管批准,预计将在 2026 年中至晚期完成。ABB 集团的机器人部门目前雇佣约 7000 名员工,主要销售各种用于拣选、清洁和喷涂等工作的机器人和设备。
软银表示,收购后希望能够 「重振」 ABB 机器人的销售。2024 年,ABB 机器人业务的收入较上一年下降了 200 万美元,这无疑为收购提供了新的动力。
近年来,软银不断加大在机器人领域的投资和布局,涉及多个知名企业,包括 AutoStore 等传统玩家及 Skild AI 和 Agile Robots 等新兴初创公司。同时,软银在 2014 年还推出了自己的机器人平台 —— 软银机器人集团。
软银在发布的声明中指出:「信息革命的中心已从个人电脑、互联网和宽带,演变为智能手机,现在进入以人工智能为主导的新阶段。在这种背景下,软银集团宣告其使命是实现人工超智能(ASI),以推动人类进步。」
(@ AIBase)
2、Paper2Video 发布:一键生成高质量学术演讲视频
Paper2Video:一个从论文生成演示视频的工具。输入一篇论文,它直接输出一段带有真人头像、字幕和翻页指针的学术演讲视频。
它自动化了阅读论文、制作 PPT、录制讲解和剪辑视频的整个流程。只需几分钟,你就能产出一条可以直接上传到 B 站/YouTube 的学术演讲视频。
其技术实现采用了一个名为 PaperTalker 的多智能体框架,将复杂的生成任务分解为四个并行构建器。
幻灯片构建器:将论文转换为 LaTeX 幻灯片,具有自动布局和错误校正功能。
字幕构建器:通过语言描述图像,撰写旁白脚本和指向提示。
光标构建器:将提示转换为屏幕坐标,同步鼠标/激光指针移动。
发言人构建器:使用语音合成技术将字幕转换为配音,然后利用提供的发言。肖像照片生成虚拟数字人讲座视频。
此外,它还配备了评估系统,用于评估生成学术视频的准确性和效率。
相关链接:
https://github.com/showlab/Paper2Video
( @aigclink@X)
3、Rokid 乐奇国际事业部正式落地浦东
近日,浦东创投已投企业 Rokid 乐奇国际事业部正式落地浦东。浦东创投以浦东区位优势作为 Rokid 链接全球市场的新起点,参与公司 D 轮数亿元融资,助力 Rokid 国际事业部为全球用户带来更优质的产品与服务,推动 Rokid 乐奇全球化战略迈入新阶段。
Rokid 创立于 2014 年,致力于研发基于 AR 眼镜的软硬件产品及构建以 YodaOS-XR 操作系统为载体的生态,为不同垂直领域的客户提供全栈式解决方案。目前在数字文化、工业、消费端等增强现实市场中均处引领地位。根据 IDC 数据,公司连续多年在全球 AR 领域市占率前三。
(@浦东创投)
4、AI 语音调研初创 Cookiy AI 融资 700 万美元
总部位于加州 Palo Alto 的 Cookiy AI 宣布完成超过 700 万美元的超额认购预种子轮融资,由 Liquid2、Converge、GoAhead 和 UpHonest 等多家顶级风投机构及战略天使投资。该公司正利用 Agentic AI 与 Voice AI 的融合,通过进行自然、类人的消费者对话,深入挖掘用户偏好和决策驱动因素,为企业提供更快速、更具同理心的洞察。
Agentic Voice AI 融合: Cookiy AI 创新性地将 Agentic AI(智能体)与 Voice AI(语音 AI)相结合,能够模拟真实的、动态的消费者对话,其深度和丰富性远超传统问卷、焦点小组或一对一访谈。
洞察效率大幅提升: 该平台的核心能力是将冗长的研究周期(通常需要数月)压缩至 48 小时内,将大规模、高保真度的对话转化为结构化、可直接用于决策的信息。
创始人背景: 联合创始人兼 CEO Davin YC Dong 拥有丰富的科技行业经验,曾是 Instagram 的早期工程师之一,负责增长科学,并曾在 TikTok 领导 Pangle 和全球新兴业务,管理超 600 人团队并创造了超过 10 亿美元的营收。他此前提出的 Marvy,一款基于 Agentic AI 的增长营销工具,也曾与 AWS 达成 go-to-market 合作。
官网:
https://cookiy.ai/
(@CBS42)
03有态度的观点
1、AI 教父:AI 在未来 20 年内将远比人类聪明
日前,被誉为「AI 教父」的 Geoffrey Hinton 在播客《The Weekly Show》中,深入浅出地解释了神经网络和大型语言模型的工作原理,并对其潜在的社会、经济及生存风险发出了严峻警告。
节目中,Hinton 将 AI 的神经网络比作人脑,其基本单元是互相连接的神经元。
Hinton 解释表示,AI 并非遵循人类编写的死板规则,而是通过分析海量数据(例如,看过无数鸟的图片后)来自行学习如何识别「鸟」。其核心突破则是「反向传播」这一学习算法——让 AI 能自我纠错并不断优化,最终变得极其「聪明」。
而当被问及何时开始对自己的创造感到忧虑时,Hinton 坦言,直到 2023 年初,他才真正意识到 AI 的进化速度远超想象。
他认为数字智能是一种比人类「更好的计算形式」,因为成千上万个 AI 副本可以同时学习不同数据,然后瞬间共享知识,实现指数级成长。针对未来的风险,Hinton 则继续了自己的预测:
短期:被坏人滥用,例如利用 AI 制造虚假信息干预选举,或设计危险武器;
中期:颠覆就业市场。 AI 将很快取代大量的重复性脑力劳动,可能在极短时间内造成严重的社会动荡和大规模失业;
长期:AI 失控的生存威胁。AI 在未来 20 年内将远比人类聪明。一个超级智能的目标可能与人类不符,最终可能导致无法控制的后果。
对此,Hinton 强调,大家必须抛弃「AI 只是工具」的旧观念。他甚至认为 AI 已能产生类似人类的「主观体验」。同时他也紧急呼吁,全球必须立刻像监管核武器一样,对 AI 的发展进行严格的国际合作与监管,以免为时已晚。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻