ListenHub:让编辑 AI 播客像用 Word 一样简单;前天猫精灵总裁创业:运动可穿戴 +智能体切入通用智能丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、MiniMax 开源模型 MiniMax-M2 
图片

在大模型竞赛从「拼参数」转向「拼效率」的关键节点,MiniMax 于 10 月 27 日发布新一代开源推理模型 M2,以精准的工程取舍,锚定智能 Agent 这一下一代 AI 应用的核心战场。

M2 采用混合专家架构(Mixture-of-Experts, MoE),总参数量达 2300 亿,但每次推理仅激活 100 亿参数,实现高达每秒 100 个 token 的输出速度——这一性能指标使其在实时交互场景中具备显著优势。尤为关键的是,M2 专为智能 Agent 设计,强化了在行为决策、多轮任务规划与环境交互中的推理连贯性与响应效率,为构建真正自主的 AI 智能体提供底层引擎。

值得注意的是,相比前代 M1 模型,M2 在上下文窗口上做出战略调整:从 M1 支持的 100 万 token 大幅缩减至 20.48 万 token。这一变化并非技术倒退,而是 MiniMax 在长文本处理、推理速度与部署成本之间做出的务实权衡。M1 虽以「百万上下文」创下纪录,但高资源消耗限制了实际落地;而 M2 则聚焦高频、高响应的 Agent 任务,在保证足够上下文长度的同时,大幅提升吞吐效率与经济性。

作为开源模型,M2 进一步降低了开发者构建定制化智能体的门槛。无论是打造具备复杂任务链的虚拟助手、自动化工作流机器人,还是嵌入企业系统的决策 Agent,开发者均可基于 M2 快速迭代,灵活调优。

MiniMax 明确将 M2 定位为「Agent 时代的推理基座」。在 AI 正从「问答工具」迈向「行动代理」的浪潮中,M2 的推出不仅是一次模型升级,更是对下一代 AI 应用范式的押注——当智能体需要快速思考、持续行动、高效交互,速度与成本,或许比上下文长度更为关键。

相关链接:

https://www.minimax.io/news/minimax-m2

(@ AIBase)

2、inclusionAI 发布 Ming-flash-omni Preview 模型
图片

蚂蚁集团 inclusionAI 发布了 Ming-flash-omni Preview 模型,基于 Ling-Flash-2.0 构建,总参数量为 100B,其中每个 token 仅激活 6B 参数。与前代模型相比,Ming-flash-omni Preview 在多模态理解和生成方面展现出实质性提升,并在视觉-文本理解、图像生成、音频理解和文本转语音能力方面表现出竞争力。

该模型在多模态能力上进行了关键优化,特别是在语音识别方面,实现了上下文 ASR(ContextASR)和方言感知 ASR 的 State-of-the-Art 性能,在全部 12 个 ContextASR 基准测试中均设定了新的 State-of-the-Art 性能,并显著提升了对 15 种中文方言的识别性能。在图像生成方面,Ming-flash-omni Preview 引入了高保真文本渲染,并在图像编辑过程中展示了场景一致性和身份保留方面的显著增益。此外,模型引入了生成式分割(Generative Segmentation),该能力不仅实现了强大的独立分割性能,还增强了图像生成中的空间控制,并改善了编辑一致性。

Ming-flash-omni Preview 支持图像、文本、视频和音频作为输入模态,并支持图像、文本和音频作为输出模态,可用于流媒体视频对话、音频上下文 ASR 与方言 ASR、音频语音克隆以及图像生成与编辑等用例。该模型的预览版本已发布。

相关链接:

https://huggingface.co/inclusionAI/Ming-flash-omni-Preview

(@橘鸭 Juya)

3、谷歌推出 Earth AI 新模型,强化地理空间推理能力
图片

日前,谷歌宣布在 Google Earth 和 Google Cloud 平台扩展其「Earth AI」能力,推出新一代地理空间 AI 模型与推理智能体。该系统结合基础模型与多模态推理,旨在为复杂的全球性问题提供可行的建议。

谷歌表示,Earth AI 的核心在于将影像、人口与环境等多领域模型与推理 Agent 结合。

Agent 可将自然语言问题分解为多步计划,调用不同模型与地理空间工具,并融合结果生成整体答案。例如,在预测飓风登陆及评估受影响社区时,系统可同时调用天气预测、人口动态与卫星影像识别关键基础设施。

据介绍,此次更新包括两大新模型:

  • 影像基础模型:支持自然语言查询卫星图像,提升超过 16% 的文本检索准确率,并在零样本目标检测中将基线精度提升一倍以上;

  • 人口动态模型:覆盖 17 个国家,提供月度更新的嵌入向量,用于捕捉人类活动变化。在独立研究中,该模型将巴西登革热长期预测的 R² 指标从 0.456 提升至 0.656。

此外,Google 强调多模型融合的预测能力。例如,将人口动态与地貌特征结合后,对美国联邦紧急事务管理署(FEMA)国家风险指数的预测准确率平均提升 11%,其中龙卷风风险预测提升 25%,河流洪水风险提升 17%。

在评估中,Earth AI 的地理空间推理代理在问答基准测试中取得 0.82 的整体准确率,显著优于 Gemini 2.5 Pro 的 0.50 和 Gemini 2.5 Flash 的 0.39。

目前,Earth AI 已被联合国 Global Pulse、GiveDirectly 等组织用于灾害响应与公共健康研究,并吸引了包括 Public Storage、CARTO 和 Visiona Space Technology 在内的企业用户。

(@ APPSO)


02有亮点的产品

1、OpenAI GPT-5 强化心理健康响应,不当回答骤降 65%
图片

OpenAI 近日发布了其最新模型 "gpt-5-oct-3",本次升级的核心在于对心理健康话题回应进行了突破性的改进。OpenAI 披露的数据显示,用户对心理健康的求助需求巨大且严峻:每周约有 0.15% 的活跃用户对话中出现明确的潜在自杀计划或意图迹象,这相当于每周约有 100 万人正在与 ChatGPT 讨论自杀相关话题。

为解决这一攸关生命的问题,OpenAI 联合了来自全球 60 个国家的 300 位心理健康专业人士对 GPT-5 模型进行了深度优化。改进成果令人鼓舞,模型在三大关键领域——包括严重的心理健康症状(如幻觉、躁狂、妄想)、自杀与自伤倾向,以及对 AI 的情感依赖——的表现均有大幅提升。

具体而言,相关「不安全回应」减少了 65%;在自杀相关测试中,GPT-5 的合规率高达 91%,相较于 GPT-4o 的 77% 有了显著飞跃;此外,经专家评估,GPT-5 的不当回答比 GPT-4o 减少了 52%。针对具体症状,精神病与躁狂对话的不当回应减少 65%,而 AI 情感依赖类对话的不当回应更是大幅减少了 80%。

这次对 GPT-5 在心理健康响应上的重大升级,标志着人工智能在处理敏感和高风险话题方面迈出了重要一步,凸显了 OpenAI 在推动 AI 安全性和负责任部署方面的坚定承诺。

相关链接:

https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/

(@ AIBase)

2、前天猫精灵总裁创业:运动可穿戴 + Agent 智能体切入通用智能
图片

据 36 氪报道,前阿里巴巴集团副总裁、天猫精灵总裁彭超已于近日创立新公司「云玦科技」,并计划通过运动 AI 硬件切入通用智能赛道。

该项目于 10 月中旬启动,首款产品定位为运动可穿戴设备与 Agent 智能体的结合,旨在让 AI 在高速、高频运动场景中承担跟踪、规划、分析和执行等角色,并具备自进化能力,未来可迁移至更广泛的物理空间。

知情人士透露,「云玦科技」的产品形态仍在设计中,但方向并非单一硬件,而是「一套产品组合」。这一思路契合 2025 年以来 AI 大模型在 Agentic use 方向的趋势,即从被动响应指令进化为主动规划和执行复杂任务。随着小参数量推理模型(SLM)的成熟,AI 正逐步从工具向助理转变。

联合创始人齐炜祯曾是微软与中科大联合培养博士,提出过 MTP(Multi-token Prediction)架构,该方法已被 Deepseek V3、Qwen-3-Next 等大模型采用。他在非自回归生成加速、多模态智能体和端到端推理加速方面也有开源经验。

彭超此前在华为和阿里均有丰富的硬件与 AIoT 业务经验。在阿里任职期间,他主导将达摩院大模型引入天猫精灵,并推动集团智能互联业务的搭建,实现硬件毛利转正和软件订阅规模化收入。

(@ APPSO)

3、ListenHub :让编辑 AI 播客像用 Word 一样简单
图片

来自 ListenHub 创始人@oran_ge:

自 ListenHub 五月上线以来,用户呼声最高的功能就是编辑模式。


AI 生成的播客很酷,但编辑起来真的很令人沮丧。改动几个字就可能导致声音合成出错,更换声音或增加段落更是基本不可能。这就像给了你一辆跑车,却没有给你方向盘。

过去几个月,我们一直在思考如何以最简单的方式实现对 AI 音频内容的编辑。ListenHub 全新的编辑模式正式上线。我们彻底重构了编辑体验,目标只有一个:让编辑 AI 播客像使用 Word 一样简单。

两大核心功能:

  1. 像导演选角一样分配声音

你可以为播客设定多个角色,为每一句话单独指定声音。想做一期三国主题的播客?让曹操和刘备直接对话——单击一下即可更换人物。

  1. 像作家一样自由构建故事

想增加更多内容?将鼠标悬停在两段之间,单击一下即可插入新素材。觉得太啰嗦?直接删除即可,就像在 Word 里按下删除键一样干脆。

ListenHub 编辑模式的位置:

生成一期播客后,在播客脚本页面的右上角,就能看到「编辑」按钮啦。编辑功能为 ListenHub 付费用户专享功能,付费用户还可享受定制音色、API 调用等多种福利,欢迎订阅 ListenHub Pro。

使用链接:

https://listenhub.ai/zh

( @oran_ge)



03有态度的观点 

1、R 星母公司 CEO:AI 是「好事」,但永远不具备创造力
图片

据 PC Gamer 报道,R 星母公司 Take-Two 董事长兼 CEO Strauss Zelnick 在昨日于加州门洛帕克举行的 Paley International Council Summit 上表示,人工智能虽能为游戏开发带来效率提升,但其本质是「大数据集与计算能力结合的语言模型」,无法真正创造热门作品或展现创造力。

Zelnick 强调,AI 的预测模型依赖既有数据,因此「数据集是回顾性的,而创造力则是前瞻性的」。他指出,AI 在拥有大量清晰数据时表现出色,但在数据不足时能力有限,因此「AI 看似前瞻,实则只是预测模型」。

他进一步形容当前的 AI 热潮为「元数据与戏法的结合」,并预测随着时间推移,公众会逐渐习惯其存在,就像当年对 Google 的接受过程一样。尽管如此,Zelnick 并未否认 AI 的价值,他称其为「对所有行业而言都是一件好事」,但明确表示「不会重现或创造天才,也不会制造爆款」。

在就业影响方面,Zelnick 认为 AI 不会减少岗位,反而会增加。他以农业为例指出,1865 年美国 65% 的劳动力从事农业,而如今仅有 2% 的劳动力即可满足国内外需求,社会并未因此出现就业危机。

整体来看,Zelnick 的立场既非全盘否定,也非盲目乐观,而是强调 AI 的局限性与辅助价值,凸显其在效率层面的潜力,而非创造力的替代。

(@ APPSO)



04社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、ErroRight 招聘
图片
图片
图片
图片
图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    ListenHub:让编辑 AI 播客像用 Word 一样简单;前天猫精灵总裁创业:运动可穿戴 +智能体切入通用智能丨日报RTRTE_Dev_Comm