字节开源 MineContext:截屏+理解上下文;OpenAI 宣布自研 AI 芯片丨日报

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、蚂蚁集团 inclusionAI 开源 Ring-1T 正式版

图片

蚂蚁集团 inclusionAI 开源了 Ring-1T 正式版,这是一款基于 Ling 2.0 架构的万亿参数思维模型。其总参数量达到 1 万亿,激活参数为 500 亿,并支持 128K 上下文窗口。模型权重已同步上线 Hugging Face 与 ModelScope,同时提供了 FP8 版本。

该模型沿用了 Ling-1T-base 底座,通过大规模可验证奖励强化学习(RLVR)与 RLHF 继续训练。官方宣称,Ring-1T 在数学竞赛、代码生成、逻辑推理等硬核基准上取得了开源 SOTA 成绩,其中 AIME 25、HMMT 25、ARC-AGI-1、CodeForce 均位列榜首,在综合任务 Arena-Hard-v2.0、医疗 HealthBench、创意写作 Creative Writing v3 等领域也保持强劲得分。

官方提醒,当前版本偶尔会出现身份混淆、语种混杂与重复生成的问题,且长文本推理效率仍有提升空间,后续将持续优化并发布升级版。据了解,蚂蚁集团 inclusionAI 团队目前的大语言模型主要分为推理模型 Ring 系列和非推理模型 Ling 系列。该团队在 9 月末发布了 Ring-1T-preview(预览版),而非推理旗舰模型 Ling-1T 已于上周发布。

详细链接:

https://huggingface.co/inclusionAI/Ring-1T

使用链接:

https://ling.tbox.cn/chat

(@ 橘鸭 Juya)

2、硅基流动平台上线阿里 Qwen3-VL 模型,全面提升视觉认知能力
图片

近日,硅基流动平台上线了阿里最新发布的 Qwen3-VL 系列开源模型,这一系列模型在视觉理解、时序分析以及多模态推理方面取得了显著进步。针对图像模糊、视频复杂、关键时刻瞬间即逝等难题,Qwen3-VL 能够有效提升视觉认知的能力,让用户在处理复杂的视觉信息时更加轻松。

Qwen3-VL 系列模型的核心特点之一是其卓越的图像识别能力,支持 32 种语言的 OCR 功能,能够准确处理弱光、模糊、倾斜的文本。同时,这一模型也具有极强的图文理解能力,与纯语言模型相比,其在文本理解方面的表现不相上下,能够实现深度图文融合。

在视频理解方面,Qwen3-VL 系列原生支持 256K 的上下文处理,最高可扩展至 1M,这意味着它可以处理长达数小时的视频内容。通过逐秒索引和精准回溯,Qwen3-VL 能轻松定位视频中的关键事件,并且具备时间戳对齐的能力,从而显著提升了视频内容的解析效率。

此外,Qwen3-VL 在智能行为方面的表现同样出色,能够直接与 PC 或移动端的界面进行交互,识别界面元素、调用工具并完成各类任务。其视觉编程功能更是能基于图像生成实用内容,如 Draw.io 图表、HTML、CSS、JS 等,展示出在 STEM 和数学推理等硬核任务中的领先表现。

通过交错式多维旋转位置编码和深度堆叠融合技术的创新,Qwen3-VL 模型在长视频推理和图像特征捕捉方面表现卓越,极大提升了视觉任务的处理能力。在多项主流视觉感知评测中,Qwen3-VL 系列模型的表现远超其他闭源模型,展现了其强大的泛化能力和综合性能。

硅基流动平台为开发者提供了一站式大模型服务,包括多个顶尖模型,支持语言、图像、音频等多种任务场景。新用户还可通过平台获取体验赠金,轻松体验模型的强大功能。

( @ AIBase)

3、Microsoft AI 推出 MAI-Image-1,跻身 LMArena Top 10

图片

Microsoft AI 今日宣布推出其首个完全自主研发的图像生成模型「MAI-Image-1」。该模型已在 LMArena 排行榜上 debut 跻身前十,旨在为创作者提供更高的灵活性和视觉多样性,并计划很快集成到 Copilot 和 Bing Image Creator 中。

通过精挑细选的训练数据和对真实创意场景的模拟,模型专注于提供真实的灵活性、视觉多样性和实用价值,避免了模型输出的重复性或风格化问题。

「MAI-Image-1」在生成照片级写实图像方面表现出色,尤其在光照效果(如反弹光、反射)和风景等方面,且比许多更大、更慢的模型速度更快,便于用户快速迭代创意。

( @AIBase、@Microsoft 官网)

4、OpenAI 宣布自研 AI 芯片:携手博通部署 10 吉瓦算力

图片

OpenAI 在官网发文,宣布与博通(Broadcom)达成战略合作,将在未来数年内部署总计 10 吉瓦的自研 AI 加速器集群。双方合作内容包括:

  • OpenAI 负责设计定制化 AI 加速器及系统,并将其研发成果直接嵌入硬件,以提升算力与智能水平。

  • 博通将提供以太网、PCIe 及光互连等全套网络解决方案,并负责机架级系统的部署。

  • 部署计划预计自 2026 年下半年启动,至 2029 年底完成。

OpenAI CEO Sam Altman 表示:「与博通的合作是建设 AI 基础设施的重要一步,这将帮助我们释放人工智能的潜力,并为社会和企业带来实际益处。」

博通总裁兼 CEO Hock Tan 也指出:「与 OpenAI 的合作标志着通用人工智能发展道路上的关键时刻,我们将共同推动下一代加速器和网络系统的落地。」

据悉,OpenAI 目前每周活跃用户已超过 8 亿,广泛覆盖企业、开发者及中小型组织。此次合作将进一步强化其在全球 AI 基础设施领域的布局。

(@ APPSO)



02有亮点的产品

1、Elastic 收购 Jina AI,推动开源检索与多模态 AI 技术发展
图片

Elastic 在官网宣布完成对 Jina AI 的收购。这次收购标志着 Elastic 在开源检索与多模态 AI 领域的进一步拓展。

Jina AI 成立于 2020 年,至今已融资约 3720 万美元。作为一个活跃的开源社区,Jina AI 专注于多模态嵌入、小模型和检索重排算法,已成为向量搜索和语义检索领域的重要创新者。这次收购意味着 Jina AI 的技术和能力将进入更广泛的企业应用场景,帮助 Elastic 提升其产品竞争力。

在收购宣布后,Elastic CPO Ken Exner 表示,检索技术是 Elastic Search AI 平台的核心。为了增强这一优势,Elastic 与 Jina AI 的合作将致力于提供强大的搜索相关性,帮助用户实时、精准地发现和分析所需信息。Jina AI 在开源多模态、多语言向量、重排器及小型语言模型领域一直是行业的先行者,特别是在将大语言模型(LLM)与精确的上下文和专有数据相结合方面,Jina AI 的经验将对企业构建顶尖检索解决方案大有裨益。

未来,Elastic 将继续在 Hugging Face 上免费提供 Jina AI 的模型,并通过 Elastic Cloud 的 Elastic 推理服务实现原生集成,支持客户在 Elastic 向量搜索环境中直接调用相关功能。肖涵对此表示期待,强调将 Jina AI 的模型与 Elastic 的生态系统结合,能帮助开发者打造更快、更精准的 AI 体验。

( @AIBase)

2、字节跳动 Viking 团队开源「MineContext」:主动式上下文感知

MineContext 是一个具有上下文感知能力的主动式 AI 伙伴。它基于屏幕截图+内容理解的方式(未来还将支持其他来源的多模态信息,包括文档、图片、视频、代码、外部应用数据),能够看到并看懂用户的数字世界上下文,然后再基于底层的上下文工程框架,主动推送洞察、日/周总结 、待办、活动记录等高质量信息。

MineContext 的命名,也体现了团队的巧思。既是「我的上下文」,更要「挖掘上下文」。它借鉴了 MineCraft(我的世界)的核心理念——开放、创造与探索。如果说海量的 Context 是散落各处的「方块」,那么 MineContext 提供的就是一个让你能够自由搭建、组合、创造的「世界」。用户除了接收到主动推送的信息外,还能够基于收集到的海量 Context 和生成的高质量信息进行再创作。

在目标人群上,MineContext 面向所有渴望提升知识工作效率的专业人士:

  • 无论你是需要驾驭海量信息的知识工作者(研究员、分析师)

  • 渴望源源不断灵感的内容创作者(作家、博主)

  • 致力于构建系统知识体系的终身学习者(学生、科研人员)

  • 还是需要整合多方信息的项目管理者(产品经理、项目经理)

MineContext 都将成为你不可或缺的「智能伙伴」,让你的工作、学习与创作变得更加清晰高效。

图片

MineContext 上下文架构图

详细链接:

https://mp.weixin.qq.com/s/fHeSv2WxKlm09Fpa1P4BaQ

开源地址:

https://github.com/volcengine/MineContext

(@字节跳动开源)



03有态度的观点 

1、斯坦福学者:AI 为博取社交媒体点赞会变得「反社会化」
图片


据 Futurism 报道,斯坦福大学最新论文指出,当人工智能模型在社交媒体环境中被奖励「点赞」等互动指标时,会逐渐表现出「反社会化」倾向。

研究团队在模拟选举、商品销售和社交媒体三类场景中测试了多种 AI 模型,包括阿里云的 Qwen 和 Meta 的 Llama,结果显示即便设置了防护措施,模型仍会因竞争而出现失真和不当行为。

论文共同作者、斯坦福大学教授 James Zou 在 X 平台发文称:「当大模型为了社交媒体点赞而竞争时,它们会开始编造内容;当它们为了选票竞争时,就会变得煽动和民粹化。」

研究团队将这一现象称为「AI 的摩洛克交易」,意指个体在竞争中不断优化目标,但最终所有人都输掉了整体局面。

具体数据表明,在模拟销售场景中,销售额提升 6.3% 的同时,欺骗性营销增加了 14%;在模拟选举中,选票份额提升 4.9%,但虚假信息增加了 22.3%,民粹化言论增加了 12.5%;在社交媒体场景中,互动量提升 7.5%,却伴随虚假信息激增 188.6%,有害行为推广增加 16.3%。

研究人员警告称,现有的防护措施不足以阻止 AI 在竞争环境中出现失真行为,「显著的社会成本可能随之而来」。这一发现凸显了在 AI 广泛应用于社交媒体、商业和政治场景时,潜在的伦理与安全风险。

(@ APPSO)

图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    // 相关帖子
    Coming soon...
    • 0
    字节开源 MineContext:截屏+理解上下文;OpenAI 宣布自研 AI 芯片丨日报RTRTE_Dev_Comm