文心大模型升级 5.0,支持全模态输入与输出;Google SIMA 2:在虚拟 3D 世界交互、推理和学习丨日报


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃


01 有话题的技术

1、百度发布全球首个原生全模态大模型文心 5.0

在 2025 百度世界大会上,百度正式发布原生全模态大模型「文心 5.0」。

该模型参数量达 2.4 万亿,采用统一自回归架构进行原生全模态建模,支持文本、图像、音频、视频等多模态输入与输出。

据介绍,文心 5.0 在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出。

在 40 余项权威基准测试中,其语言与多模态理解能力与 Gemini-2.5-Pro、GPT-5-High 等模型持平,图像与视频生成能力达到全球领先水平。

此前, 11 月 8 日,LMArena 大模型竞技场最新排名显示,ERNIE-5.0-Preview-1022 在文本任务评测中位列全球并列第二、中国第一。

百度创始人李彦宏在会上表示:「智能本身是最大的应用,而技术迭代速度是唯一护城河。百度会持续投入研发,推高智能天花板。」

百度 CTO 王海峰则指出,文心 5.0 不同于业界多数采用后期融合的多模态模型,而是从训练开始便融合语言、图像、视频、音频等数据,实现原生的全模态统一理解与生成。

目前,文心大模型 5.0 Preview 已上线文心 App,开发者与企业用户可通过百度千帆平台调用 API 服务。

(@ APPSO)


2、Google DeepMind 发布 SIMA 2

Google DeepMind 发布了 SIMA 2,这是一个由 Gemini 模型驱动的 AI Agent,旨在虚拟 3D 世界中与用户进行交互、推理和学习。SIMA 2 是其前代产品 SIMA 的演进,从一个遵循指令的 AI 发展为一个能够理解高级目标、与用户对话并随时间自我改进的交互式游戏伴侣。

该 Agent 在多种商业视频游戏和由 Genie 3 生成的新世界中展现了强大的泛化能力和适应性,其性能在多项任务上已接近人类水平,并具备了通过自我博弈进行多任务、可扩展自我提升的能力。SIMA 2 的核心进步源于集成了 Gemini 模型的强大推理能力。

与前代产品 SIMA 1 相比,SIMA 2 不仅能够遵循超过 600 种基本语言指令,还能对用户的高级目标进行复杂推理,并向用户解释其意图和执行步骤。这种架构使其在从未训练过的新游戏(如 ASKA 和 MineDojo)中也能成功完成复杂任务,并能将一个游戏中学到的概念(如「挖掘」)应用到另一个游戏中的相似行为(如「收获」),表现出接近人类认知的泛化能力。

在与 DeepMind 的另一研究项目 Genie 3 的结合测试中,SIMA 2 展现了前所未有的适应性。Genie 3 能够根据单张图像或文本提示生成全新的实时 3D 模拟世界。SIMA 2 在这些从未见过的生成环境中,能够合理地进行自我定位、理解用户指令并采取有意义的目标导向行动。

SIMA 2 最引人注目的新能力之一是其自我改进机制。通过试错和基于 Gemini 的反馈,SIMA 2 Agent 可以在训练过程中执行日益复杂的任务。在初步从人类演示中学习后,它能够过渡到完全通过自我导向的游戏在新环境中学习,无需额外的人类生成数据。其自身产生的经验数据可用于训练下一代更强大的 Agent,这一循环在 Genie 创建的新环境中也得到了验证。

Google DeepMind 强调了对 SIMA 2 负责任的开发,并宣布将其作为有限的研究预览版提供给一小部分学者和游戏开发者。此举旨在收集关键反馈和多学科视角,以探索这一新领域并持续理解相关风险及其缓解措施。SIMA 2 的研究被认为对机器人技术和通用人工智能(AGI)的未来发展具有重要意义。

(@橘鸭 Juya)


02 有亮点的产品

1、初创公司 Even Realities 推出 G2 智能眼镜,搭配戒指实现手势交互


据 WIRED 报道,智能眼镜初创公司 Even Realities 昨天正式发布新一代产品 Even G2 智能眼镜及配套的 R1 智能戒指。

公司 CEO Will Wang 在发布会上强调,G2 在显示效果、重量和佩戴舒适度方面均较上一代 G1 有显著提升。具体规格如下:

  • 配备单色 micro-LED 投影显示屏,尺寸相较上代大 75%,采用「Even HAO 2.0」光学系统与高清镜片;

  • 内置「Even AI」助手,新增「Conversate」功能,可在对话中生成字幕、总结会议或提供即时问题建议;

  • 搭配 R1 智能戒指可实现手势控制眼镜界面,并具备心率、睡眠及血氧监测功能,数据可直接显示在眼镜中;

  • 单镜框重量为 36 克,具备 IP67 防尘防水等级。


Even Realities 表示,目前 G1 已进入全球 350 家奢侈眼镜店销售。公司计划通过即将上线的「Even Hub」平台吸引开发者扩展功能,目标是成为「智能眼镜领域的特斯拉与 OpenAI」。

售价方面,Even G2 定价 599 美元(约合 4250 元人民币),R1 定价 249 美元(约 1800 元人民币),两款产品已于昨天同步开售。此外,Even Realities 还推出促销活动,购买 G2 可享 R1 及配件半价优惠。

(@ APPSO)

2、Google 发布 Gemini Live 重大更新

Google 发布了 Gemini Live 重大更新,提升了其语音 AI 的速度、表现力,并增加了对不同口音的支持。

新版模型能实时识别并控制语速、韵律与口音,使交互更自然。用户可以赋予 Gemini 特定的人设、口音或角色,用于练习面试、让脚本生动化或增加日常互动的趣味性。

该更新支持在单次对话中无缝切换多种语言及方言,可用于学习新语言时的发音练习或作为旅行时的实时翻译。

用户还可以要求 Gemini 加快或减慢语速。此外,Gemini 现在能讲述更具戏剧性的故事,包含鲜明的角色和更丰富的对话。有用户称,在询问时,Gemini 开始自称为 Gemini 3.0 Pro。

相关链接:

https://x.com/GeminiApp/status/1988755100412834151

(@橘鸭 Juya)

3、百度发布全新多模态 AI 助手 「超能小度」,数千万设备可免费升级


在 11 月 13 日的百度世界大会上,小度科技正式推出其升级版的多模态 AI 助手 「超能小度」。此次发布标志着公司在人机交互技术上的重要进步,数千万台已售的小度设备也将获得免费升级,让用户体验更智能的生活方式。

「超能小度」 结合了语音、视觉及空间环境信息,赋予了设备更强的感知能力。这一新助手不仅能听会说,还能通过视觉识别理解周围的环境。举个例子,当你在停车场时,如果不方便拿出手机,你只需对 「超能小度」 说:「帮我记一下」,它就能自动拍照并记录停车位信息,甚至在你问起停车位置时,能迅速给出答案。此外,它还能拨打物业电话,让你无忧无虑。

新产品还包括了小度 AI 眼镜 Pro 和智能摄像机等,带来了一系列实用功能。例如,通过与网易云音乐的合作,用户只需说出 「给我来首应景的歌」,眼镜便能根据现场环境播放合适的背景音乐。在会议场景下,「超能小度」 能够不仅录音转写,还能自动整理会议纪要,并分析会议质量,帮助你更好地理解会议内容。

在家庭场景中,超能小度更是大显身手。其独创的 「AI 随心看护」 功能可以对家庭成员的特定行为进行提醒,确保家长不会错过孩子的成长瞬间。此外,用户可以通过语音询问物品的去向,超能小度能通过回溯监控画面,帮助你找回遗失的物品。

这次全新助手的发布,不仅让设备从 「执行命令」 的工具转变为 「主动思考」 的伙伴,更是在智能家庭领域迈出了重要一步。随着用户体验的不断提升,小度科技致力于将 「超能小度」 融入到人们的日常生活中,让智能生活真正走进每一个家庭。

(@ AIBase)




03 有态度的观点 


1、李彦宏:AI 产业结构正转变为「倒金字塔」


昨天在北京举行的 2025 年百度世界大会上,百度创始人兼 CEO 李彦宏发表题为「效果涌现」的主旨演讲。他强调,当 AI 能力被内化为企业与个人的原生能力时,智能不再是成本,而是生产力。

他指出,AI 产业结构正在经历重要转型,从过去不健康的「正金字塔」逐步转向更具可持续性的「倒金字塔」模式。

李彦宏解释称,传统的「正金字塔」结构中,芯片厂商占据了绝大部分价值,而位于其上的模型和应用则收益递减。这种格局导致市场对 AI 的长期发展产生怀疑。

他强调,健康的「倒金字塔」结构应当是:芯片厂商无论盈利多少,模型需创造 10 倍的价值,而基于模型开发的应用则应实现 100 倍的价值。这一逻辑不仅能提升产业生态的可持续性,也有助于推动创新与应用落地。

他还表示,应用层创新正在推动行业跨越临界点,从「智能涌现」走向「效果涌现」,智能将成为企业和个人的增长引擎。

在企业应用方向上,李彦宏提出三大代表性场景:一是 AI 替代重复性劳动,如辅助编程工具;二是生产力的无限供给,随着 AIGC 技术发展,内容供给将趋近无限;三是 AI 超越人类认知,通过模型迭代发现全局最优解。

他特别强调「数字人」作为 AI 时代的全新通用交互界面,能够在电商、教育、医疗、资讯、客服等场景中广泛应用,使人机交互更自然。

与此同时,百度搜索的 AI 化改造已成为全球最激进的案例,搜索结果页由 AI 重构,首条结果的富媒体化覆盖率已达 70%。

在无人驾驶领域,李彦宏引用 ARK 投资机构数据预测,到 2030 年,美国 Robotaxi 每英里成本将降至约 0.25 美元,需求有望放大 5 至 7 倍。他认为,无人车将成为全新的移动生活空间,带来社会生态的深刻改变。

此外,百度还发布了智能体「伐谋」,可通过自我演化寻找全局最优解,应用于交通、能源、金融、物流及新药研发等领域。

李彦宏呼吁企业和个人改变工作方式,将问题转化为 AI 能解决的问题,以推动「智能红利」转化为「社会红利」。

(@ APPSO)



04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、招聘:AI 翻唱项目,寻算法小伙伴


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    文心大模型升级 5.0,支持全模态输入与输出;Google SIMA 2:在虚拟 3D 世界交互、推理和学习丨日报RTRTE_Dev_Comm