Qwen3-Omni发布:端到端全模态Thinker-Talker架构;Meta真实世界智能体基准Kimi K2开源最佳|日报

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、阿里 Qwen 发布「Qwen3-Omni」:端到端全模态 AI 大模型,性能直逼 GPT-4o

图片

阿里巴巴 Qwen 团队近日发布其最新一代 30B 参数「全模态 AI 大模型」Qwen3-Omni。这是一个端到端的开源多模态模型,能够同时处理文本、图像、音频、视频输入,并实时生成流式文本和自然语音输出。其性能在 36 项音视频基准测试中,有 22 项达到 SOTA(State-Of-The-Art,最优性能)水平,直逼 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.5 Pro,并支持免费商用,为多模态 AI 交互树立了新标杆。

关键亮点

  • 「端到端」全模态能力与「不降智」: Qwen3-Omni 采用统一架构,直接处理文本(119 种语言)、图像、音频(19 种语言,最长 30 分钟)和视频输入,并实时生成流式文本和语音输出(10 种语言)。实现「全模态不降智」,纯模型端到端音频对话延迟低至 211ms,视频对话延迟低至 507ms,交互体验如真人对话般自然流畅。

  • 创新「Thinker-Talker」架构: 采用基于「混合专家 (MoE) 架构」的 Thinker(负责文本语义理解与生成)和 Talker(专注于流式语音 Token 生成)双核架构。配合基于 2000 万小时数据训练的 AuT 音频编码器以及 MTP(Multi-Token Prediction)和 Code2Wav 模块,确保深度语义理解和毫秒级实时语音生成,兼顾效率与能力。

  • 音视频性能卓越,单模态能力稳定: 在 36 项音视频基准测试中,32 项取得开源模型最佳效果,22 项达到 SOTA 水平,性能超越 Seed-ASR、GPT-4o-Transcribe 等闭源模型。同时,其文本(MMLU-Redux、AIME25 评测)和图像(MMMU、CountBench 评测)单模态性能与专用模型表现相当,验证「全模态不降智」。

  • 广泛多语言支持与场景优化: 支持 119 种文本语言输入19 种语音输入语言和 10 种语音输出语言,并提供多种音色。支持长达 30 分钟的音频内容理解,满足会议记录、课程转录等长语音场景,并实现多语种(包含多地方言)互译

  • 高度灵活性与开源社区贡献: 支持通过 system prompt 定制回复风格、语气或人设,支持工具调用 (Function Call) 实现与外部工具或 API 的高效集成。已在 Hugging Face、ModelScope、DashScope 和 GitHub 等平台开放并开源 (Apache 2.0),提供轻量版 Qwen3-Omni-Flash 模型和专注于音频描述的 Qwen3-Omni-30B-A3B-Captioner 模型。

Qwen3-Omni 已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开放下载。用户可通过 Qwen Chat(点击对话框右下角「使用语音和视频聊天」)体验 Qwen3-Omni-Flash 模型。专注于音频描述的 Qwen3-Omni-30B-A3B-Captioner 模型已开源。

GitHub 开源地址

https://github.com/QwenLM/Qwen3-Omni

模型库

https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f

在线 Demo 试玩

https://chat.qwen.ai/?models=qwen3-omni-flash

(@Qwen 团队 / 阿里巴巴)

2、Qwen 发布「Qwen3-Max」:万亿参数 LLM 问世,代码生成与智能体能力再进一步
图片

Qwen 团队正式发布了其迄今为止规模最大、能力最强的模型 Qwen3-Max。该系列共包含三个版本:BaseInstruct 和 Thinking,旨在满足不同的应用需求。

  • Qwen3-Max-Base 作为该系列的基础版本,其总参数量超过 1 万亿(1T),并在 36 万亿(36T)Token 的海量数据上进行了预训练,沿用了 Qwen3 系列一贯的模型结构设计范式。

  • Qwen3-Max-Instruct 的正式发布版本展现出卓越性能,特别是在代码生成与智能体表现方面表现出色。其预览版此前已在 LMArena 文本排行榜上稳居全球前三,此次正式版的能力得到了进一步的显著提升。用户现已可在 Qwen Chat 上体验,并可通过 阿里云百炼 平台调用其 API。

  • Qwen3-Max-Thinking 是一个仍在训练中的推理增强版本,但已展现出前所未有的强大推理能力。该版本通过集成代码解释器并运用并行测试时计算技术,在极具挑战性的数学推理基准测试 AIME 25 和 HMMT 上均取得了满分。Qwen 团队表示,期待在不久的将来公开发布这一版本。

相关链接:

https://help.aliyun.com/zh/model-studio/models#qwen-max-cn-bj

(@通义千问)

3、Meta 发布真实世界智能体评估基准,Kimi K2 开源最佳
图片

Meta 近日发布了 AI 智能体新一代基准测试「Gaia2」及配套的开源框架「Agents Research Environments (ARE)」。此举旨在解决现有 AI 智能体评估环境过于理想化,缺乏对真实世界复杂性(如歧义、时效性、工具失败)考量的问题。Gaia2 通过模拟更复杂、动态、嘈杂的现实场景,配合 ARE 提供的运行、调试和分析工具,帮助开发者更准确地评估、调试和构建出能应对歧义、规划行动、适应变化的可靠 AI 智能体。

关键亮点

  • 革新 AI 智能体评估: 针对现有 Agent 评估环境缺乏真实世界灵活性、无法反映开放世界「混乱」现实的痛点,「Gaia2」作为 GAIA 的升级版,致力于分析更复杂的智能体行为。

  • 「读写」交互与复杂性管理: Gaia2 从 GAIA 的「只读」变为「读写」基准,专注于交互行为和复杂性管理。评估智能体在模糊指令、时间敏感查询,以及带有控制性故障和噪声的环境中的表现。

  • 七大核心评估维度: 涵盖执行(多步指令、工具使用)、搜索(跨源信息收集)、歧义处理(解决冲突请求)、适应性(响应模拟变化)、时间/时序推理(时间敏感行动)、智能体协作(Agent 间通信)、噪声容忍(API 失败、环境不稳定)等七大任务组。

  • 配套 ARE 开源框架: 「Agents Research Environments (ARE)」是一个开源的执行环境,模拟真实世界应用(如短信、日历、联系人、文件系统)的智能手机界面,并允许 Agent 通过工具调用访问。ARE 自动记录智能体所有交互,生成结构化轨迹(包含工具调用、API 响应、模型思考、时序指标等),便于深度分析和调试。

  • 主流模型性能对比: Gaia2 对 GPT-5、Gemini 2.5 Pro、Kimi K2 等主流 LLM 进行了评估。结果显示,GPT-5 在高推理模式下得分最高,Kimi K2 是表现最佳的开源模型。

  • 现有挑战: 目前所有模型在歧义处理、适应性、噪声容忍和时间/时序推理方面仍面临巨大挑战,尤其时间敏感性任务最难攻克。除了原始分数,Gaia2 也强调成本效率(LLM 调用次数和输出 Token),提供成本-性能帕累托曲线分析。

发布计划与范围

  • Gaia2 数据集已在 CC by 4.0 许可下发布。

  • Meta Agents Research Environments (ARE) 框架已在 MIT 许可下开源。

  • 开发者可通过 pip install meta-agents-research-environments 安装 ARE,并使用命令行工具运行 Gaia2 基准测试。

(@Meta AI Blog)



02有亮点的产品

1、Sellible 推出 AI 销售陪练平台:与 AI 买家对话训练销售技能

Sellible 是一款专为创始人及销售团队设计的 AI 销售陪练平台。它通过与高仿真的 「AI 买家」 进行实战角色扮演,让销售人员能够在无风险环境中练习销售对话、处理异议,从而迅速提升销售技能,有效避免在真实客户面前「试错」而错失宝贵商机。

关键亮点

  • 「AI」销售角色扮演: 核心功能是允许销售人员与 AI 买家进行真实感极强的销售对话角色扮演。

  • 无风险实战演练: 提供一个安全的练习环境,销售人员可以自由犯错、反复尝试,无需担心烧掉真实客户线索。

  • 掌握异议处理: 针对各种销售情境,帮助销售人员系统性地练习和掌握应对客户异议的技巧。

  • 「AI Voice Agents」支持: 平台利用 AI 语音智能体 技术,提供高度逼真和互动的陪练体验,模拟多样化的买家反馈。

  • 赋能销售能力: 旨在帮助创始人及销售团队快速建立和强化销售能力,提升整体销售效率和成交率。

(@Sellible)

2、PureTalk.ai 推出「RUTH」驱动的全能型对话 AI 平台:实现 24/7 人性化客户互动
图片

PureTalk.ai 近日推出其基于专利「RUTH」引擎打造的「全能型对话 AI 解决方案」。该平台集成了 AI Chatbots 和 AI Voice Agents 功能,旨在帮助企业在任何渠道实现 24/7 的自动化客户互动,提供真实、人性化的对话体验,彻底革新客户参与模式。

  • 「RUTH」引擎驱动: 平台由其专利支持的「RUTH」引擎驱动,确保所生成对话的真实性和人性化,使其区别于传统 AI 交互。

  • 「全能型对话 AI 解决方案」: 提供包括 AI Chatbots 和 AI Voice Agents 在内的全面对话 AI 功能,满足企业在文本和语音渠道的自动化需求。

  • 24/7 客户互动自动化: 帮助企业实现全天候不间断的客户参与自动化,显著提升服务效率和响应速度。

  • 跨渠道部署: 解决方案可在任何客户接触渠道部署和运行,确保在不同平台提供一致且高质量的客户体验。

  • 真实、人性化对话: 核心目标是构建地道、类似人类的对话,从而增强客户满意度和品牌忠诚度。

(@PureTalk.ai)



03有态度的观点 

1、普林斯顿学者提出:人工智能或仅为「普通技术」

普林斯顿大学计算机科学家 Arvind Narayanan 与 Sayash Kapoor,在今年早些时候发布了一篇引发争议的论文,提出将 AI 视为一种「普通技术」,而非具有超凡智能的革命性技术。

两位作者认为,当前对 AI 的极端预测——无论是乌托邦式的经济飞跃与人类永生,还是反乌托邦式的全面失业与灭绝威胁,都误解了其真实潜力。

该论文预测,AI 将遵循过去技术革命的轨迹,其经济影响是渐进的,而非颠覆性的。

作者指出,AI 的实际应用速度落后于创新速度,因为企业和个人需要时间来调整工作流程,这与一个世纪前工厂电气化耗时数十年的过程类似。

他们认为,AI 不会大规模地「窃取」工作岗位,而是会改变工作的性质,未来更多的工作将转变为配置、监控和控制 AI 系统,就像工业革命时工人从手动织布转向监督机器一样。

尽管这篇论文因其冷静的中间立场观点而备受关注,但也存在一些争议。

有评论认为,该论文可能过于轻视 AI 对劳动力市场的潜在冲击,并对其无法在说服力等方面,超越人类的预测显得过于自信。

(@APPSO)

图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

素材来源官方媒体/网络新闻​

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Qwen3-Omni发布:端到端全模态Thinker-Talker架构;Meta真实世界智能体基准Kimi K2开源最佳|日报RTRTE_Dev_Comm