融资 1 亿美元李飞飞参投,斯坦福小镇论文作者创立数字孪生公司Simile;小红书开源一体化语音识别系统FireRedASR2S

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、谷歌发布 Gemini 3 Deep Think,编程水平排名世界第八

图片
图片


今天凌晨,谷歌发布了 Gemini 3 Deep Think 的重大升级。作为专用于复杂任务的推理模式,该版本试图解决科学与工程领域的诸多挑战。据悉,去年 9 月加入 Google DeepMind 的清华物理系校友姚顺宇也参与了此次研发。


在编程领域,Gemini 3 Deep Think 在 Codeforces 平台上取得了 3455 的 Elo 分数,位列世界第八。这意味着全球仅有 7 名人类选手能在此类比赛中击败它,而此前最佳模型 OpenAI o3(约一年前数据)的排名仅为第 175 位。


该模型在多项学术基准测试中刷新了纪录:


  • 通用与抽象推理:在「人类的最后考试」基准测试中,不使用工具取得了 48.4% 的 SOTA 成绩;在 ARC-AGI-2 中达到 84.6%。值得注意的是,其在 ARC-AGI-1 上的每任务成本仅为 7.17 美元,相比 OpenAI o3-preview 「高计算」版本降低了数百倍。

  • 科学竞赛:在 2025 年国际数学、物理和化学奥林匹克竞赛笔试中均获金牌水平,并在高等理论物理 CMT-Benchmark 测试中得分 50.5%。


谷歌同时展示了 Deep Think 在科研中的实际应用。罗格斯大学数学家 Lisa Carbone 利用其识别出一篇专业论文中人工评审未发现的逻辑缺陷;杜克大学 Haozhe Wang 的实验室则利用其优化半导体工艺,实现了厚度大于 100 微米薄膜的精确生长目标。此外,该模型还能将草图转化为可 3D 打印的实体模型。


目前,全新 Deep Think 已面向 Google AI Ultra 订阅用户及部分 API 合作伙伴开放。


(@机器之心)


2、小红书开源工业级语音系统 FireRedASR2S:集成四大核心组件

图片
图片
图片


2026 年 2 月 12 日,小红书正式发布并开源了工业级一体化语音识别系统 FireRedASR2S。该项目基于 Apache-2.0 许可协议,相关的模型权重与推理代码目前已在 Hugging Face 和 ModelScope 等平台开放下载。


FireRedASR2S 将单点语音能力扩展为了完整的处理生态,系统内部集成了 ASR(自动语音识别)、VAD(语音活动检测)、LID(语种识别)和 Punc(标点预测)四个核心组件。这些模块在架构设计上保持自包含与独立性,开发者既可以将其整合为端到端的工作流,也能脱离主系统单独调用任意单个模块。


根据官方公布的基准测试数据,各核心组件的具体能力表现如下:


  • FireRedASR2:支持普通话、20 多种方言与口音、中英文语码转换以及歌词识别。该模块提供 LLM(结合大语言模型以优化无缝交互)与 AED(平衡性能与效率,支持词级时间戳)两个版本。评测显示,其普通话平均字符错误率(CER)低至 2.89%,方言平均 CER 为 11.55%,整体表现优于 Doubao-ASR、Qwen3-ASR-1.7B 与 Fun-ASR 等竞品。

  • FireRedVAD:支持超百种语言的非流式与流式语音活动检测,涵盖语音、歌声及音乐,并具备音频事件检测能力。其 F1 分数高达 97.57%,领先其他开源基准。

  • FireRedLID:覆盖 100 多种语言及 20 多种中文方言,语种检测准确率达到 97.18%,客观数据超越了 Whisper 与 SpeechBrain-LID。

  • FireRedPunc:提供多领域的中英文标点预测服务,平均 F1 分数达到 78.90%,显著优于 FunASR-Punc。


在实际应用与部署环节,系统要求输入 16kHz 16 位单声道 PCM 格式音频。对于输入长度,AED 版本最高支持 60 秒的音频,而 LLM 版本目前支持最长 30 秒的输入。后续,开发团队还将陆续公开技术报告与微调代码。


GitHub: 

https://github.com/FireRedTeam/FireRedASR2S


HuggingFace: 

https://huggingface.co/FireRedTeam/FireRedASR2-AED


( @GitHub)


3、涉嫌侵犯开源项目 FFmpeg 的版权,瑞芯微被 GitHub 冻结代码库

图片


2026 年 2 月,国内芯片设计企业瑞芯微(Rockchip)因涉嫌侵犯开源项目 FFmpeg 的版权,其相关代码库被 GitHub 平台冻结。这一事件再次引发行业对开源软件合规使用的关注。


经查,瑞芯微在产品开发过程中使用了 FFmpeg 的核心组件 libavcodec 代码,但在使用过程中存在多项违规操作:


  • 删除版权信息:删除了代码原作者信息及版权声明;

  • 篡改许可证:擅自将原代码的 LGPL 许可证更改为 Apache 协议。


尽管 LGPL 协议允许商业场景使用,但明确要求使用者必须保留原始版权声明、按需提供源代码,并保持许可证的一致性。瑞芯微的操作直接违反了这些条款。事实上,该违规行为早在 2024 年初就已被发现。当时,瑞芯微工程师 HermanChen 曾公开道歉,称对许可证冲突缺乏了解,并承诺整改。然而,在随后的近两年时间里,瑞芯微并未采取实质性整改措施。最终,FFmpeg 项目方依据《数字千年版权法案》(DMCA)向 GitHub 发起正式投诉,导致瑞芯微相关项目库被冻结。


数据显示,目前 97% 的代码库包含开源组件,其中 63% 存在许可证冲突。业内专家指出,许多企业开发者对 GPL、MIT、Apache、LGPL 等主流许可证的区别认知不足,错误地认为开源代码可随意修改分发,从而埋下法律风险。


不同许可证规则差异显著。以此次涉事的 LGPL 为例,它允许闭源软件动态链接使用,仅要求修改库本身代码时开源修改部分;而 Apache 协议虽支持商业闭源,但更侧重专利保护,且与 GPL 系列协议存在兼容性冲突,二者不可随意替换。此次事件表明,开源合规管理已成为企业发展的必修课,企业需建立完善的审查机制,明确协议边界,规避版权风险。


(@人人极客社区)


4、蚂蚁百灵开源发布万亿参数思考模型 Ring-2.5-1T ,主打深度思考与长程智能体执行

图片
图片


今天中午,蚂蚁百灵正式发布并开源了首个混合线性架构的万亿参数思考模型 Ring-2.5-1T。作为迈向通用智能体时代的关键一步,该模型在预训练强化学习层面均进行了大规模扩展。


相比前代产品 Ring-1T,Ring-2.5-1T 在三个核心维度实现了大幅提升:


  • 高效生成:基于高效的 1:7 MLA + Lightning Linear Attention 架构,在超过 32K 的生成长度下,访存规模降低 10 倍以上,生成吞吐提升 3 倍以上。

  • 深度思考:在 RLVR 基础上引入 dense reward 反馈机制。自测结果显示,其在 IMO 2025(获 35 分)和 CMO 2025(获 105 分)中均达到金牌水平。

  • 长程执行:通过大规模全异步智能体强化学习(fully-async agentic RL)训练,显著增强了复杂任务的长程自主执行能力,可适配 Claude Code 及 OpenClaw 等框架。


在架构层面,Ling 2.5 采用增量训练方式,将 Ling 2.0 的 GQA 升级为混合线性注意力结构。改造后,尽管激活参数量从 51B 增至 63B,但推理效率仍大幅提升。测试显示,无论在单机 8 卡 H20-3e 还是 H200 环境下,其长程推理的吞吐优势均十分显著。


为验证其长程执行能力,开发团队将 Ring-2.5-1T 接入 Claude Code,仅用两小时便自动完成了一个微型版操作系统(TinyOS)的开发,并能进一步实现 bash 功能。此外,该模型在数学、代码、逻辑等高难推理任务以及智能体搜索(如 GAIA2-search)等长程任务执行上,均达到了开源领域的领先水平


目前,Ring-2.5-1T 仍存在 token efficiency 和指令遵循方面的局限性。其模型权重已在 Hugging Face 和 ModelScope 开源,相关体验页及 API 服务也将在 Ling Studio 与 ZenMux 陆续上线。


HuggingFace: 

https://huggingface.co/inclusionAI/Ring-2.5-1T


(@百灵大模型)


02 有亮点的产品

1、自然语言几分钟构建 AI 智能体:VM0 正式开启公开测试

2026 年 2 月 6 日,VM0 宣布正式开启公开测试。在经历了约两个月的内部构建与私密测试后,该平台现已向更多开发者开放。


VM0 是一款基于自然语言构建 AI 智能体的工具,并配备了支持智能体全天候(24/7)运行的沙盒环境。用户只需用自然语言描述具体需求,VM0 便会自动处理运行时、执行操作及环境配置。即使用户关闭了电脑,其部署的智能体应用也会保持持续运行状态。


在构建体验上,该平台试图同时满足不同类型用户的需求:


  • 面向 Vibe Coder 和快速实验:对于刚接触 AI 智能体或希望快速测试想法的用户,平台提供了几分钟即可上手的体验。无需繁重的环境设置或提前阅读长篇文档,仅需执行一条简单的初始命令(npm install -g @vm0/cli && vm0 onboard),即可运行首个智能体。

  • 面向专业开发者:如果需要获取更多控制权,VM0 提供了一套完整的开发工具包。开发者可以将 VM0 接入现有的基础设施中,并在实际需要时进行规模化扩展。


由于目前产品仍处于测试阶段,官方正积极向早期用户征集错误报告、细节打磨建议以及功能反馈,这些反馈将直接塑造产品的下一步走向。此外,VM0 正在建设一个由社区驱动的 Cookbook,鼓励开发者分享其实际构建的案例,例如客户支持智能体、数据分析工作流或内部工具等。


根据公布的路线图,VM0 下一步的发展计划包括:推出自托管运行程序、简化的智能体分享功能、支持更多模型提供商、VM0 平台智能体构建器、VM0 Slack 集成以及 VM0 连接器


相关链接:

https://docs.vm0.ai/docs


( @VM0 Blog)


2、AI 数字孪生初创公司 Simile 获 1 亿美元融资,用 AI 模拟真实用户反馈


AI 数字孪生初创公司 Simile 宣布完成 1 亿美元融资。本轮融资由 Index Ventures 领投,Bain Capital Ventures 等机构投资者跟投,AI 先驱李飞飞与 OpenAI 联合创始人 Andrej Karpathy 也参与了投资。

企业在推出新产品前,通常需要收集潜在客户的反馈,但这类调研往往耗时费力,且难以触及特定目标受众(如世界 500 强高管)。为此,Simile 构建了一个 AI 模型,利用个人数据来模拟人们对新产品、功能变更等商业动态的反应。目前,其首批客户包括 CVS Health Corp。 和澳大利亚最大的移动互联网提供商 Telstra Group。


该 AI 模型主要帮助企业简化以下测试流程:


  • 用户界面更新评估:开发者可在向真实客户全面推出更新前,观察模拟用户对界面变更的反应。

  • 财报电话会议准备:据首席执行官 Joon Sung Park 透露,在一次模拟电话会议中,该模型准确预测了分析师 10 个问题中的 8 个,能够帮助上市公司高管提前做好准备。


Simile 由 Joon Sung Park、Michael Bernstein 和 Percy Liang 共同创立。这三位计算机科学家此前曾开发过模拟环境 Smallville,证明了 AI 智能体不仅能模拟个体行为,还能模拟群体行为。据报道,Simile 耗时七个月开发该模型,其训练数据来源于对数百人的采访记录、交易日志以及科学期刊文本。


Index Ventures 合伙人 Shardul Shah 表示,Simile 建立了高保真模型来解答真实人类会做什么以及为什么这样做,这在各类组织中有着广泛的应用需求。除了模拟买家行为,AI 生成模拟正被广泛应用于更多领域,例如 Simile 的投资人李飞飞曾于 2024 年创办 World Labs,用于生成三维虚拟环境以训练工业机器人。


( @SiliconAngle)



03 有态度的观点 

1、DeepMind CEO:AI 在未来十五年会解决人类棘手难题

近日,Google DeepMind CEO 德米斯 · 哈萨比斯接受《财富》杂志的采访时,其提到:人类正站在「科学发现新黄金时代」的边缘,尽管未来 10 到 15 年将经历剧烈的行业洗牌与阵痛,但最终将迎来一场足以媲美「文艺复兴」的技术变革。

哈萨比斯在访谈中提出了「激进富足」的概念。他预言 AI 将通过对科学方法的深度内化,解决人类最棘手的难题:


  • 医疗革命: 未来 15 年内,AI 将使个性化医疗成为常态,攻克重大疾病。

  • 能源突破: AI 将加速核聚变与太阳能新材料的研发,彻底解决能源危机。

  • 宇宙探索: 算力的突破将最终支持人类「在星际间穿梭,探索银河系」。


采访中,哈萨比斯也提到了 Google 在当今 AI 圈的一些风险以及挑战。


面对 OpenAI 等竞争对手的崛起,哈萨比斯坦言谷歌必须面临「创新者困境」。他强调:「如果我们不进行自我颠覆,别人就会动手。你最好按自己的节奏来。


据悉,随着 Gemini 系列模型及 Nano Banana 图像生成模型的发布,Alphabet(Google 母公司)股价在去年飙升约 65%,哈萨比斯认为公司已跨越了 AI 助手辅助高阶研究的「分水岭」。


( @APPSO)

图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    融资 1 亿美元李飞飞参投,斯坦福小镇论文作者创立数字孪生公司Simile;小红书开源一体化语音识别系统FireRedASR2SRTRTE_Dev_Comm