美团开源全模态实时交互模型 LongCat-Flash-Omni;实时互动的 AI 视频 Odyssey-2 上线丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、Google Research 发布 StreetReaderAI,用多模态 AI 赋能街景无障碍访问
StreetReaderAI 通过将地理信息源和用户当前视野输入 Gemini 系统,提供具备情境感知能力的街景场景描述。
该系统利用情境感知、实时多模态 AI 技术,结合地理信息与街景图像,通过「AI 描述器」和「AI 聊天」两大模块,为视障用户提供实时音频环境描述和交互式问答。
无障碍探索: 解决传统屏幕阅读器无法解读街景的问题,提供类似电子游戏的沉浸式虚拟导航,以音频为主。
AI 驱动交互: 由 Google Gemini 驱动,「AI 描述器」提供场景描述,「AI 聊天」支持用户就环境动态提问,准确率达 86.3%。(例如:用户可问「刚才的公交站在哪?」,AI 可根据上下文和地理信息回答)。
多样化控制: 支持语音或键盘操作街景图像的平移、前进、后退,并实时播报方向和位置反馈。(例如:实时播报「当前朝向:北方」,并提示前方地标)。
用户认可: 在与视障用户测试中,获得积极反馈,尤其认可虚拟导航与 AI 的协同作用及对话式交互的便捷性。
未来展望: 这是迈向「地理可视化智能体」的一步,未来将支持更自主探索、路线规划及丰富的非语言音频交互。
(@Google Blog)
2、Google CEO 确认 Gemini 3 今年发布
据 the decoder 日前报道,Google CEO Sundar Pichai 在最新的财报电话会上确认,其下一代 AI 模型 Gemini 3 将会在今年发布。据悉,Gemini 3 预计将超越 Gemini 2.5 Pro,并缩小与 OpenAI 的 GPT-5 的差距,更专注于处理复杂、多模态任务的 Agent 能力。但 Pichai 也表示,Gemini 3 不会一夜之间取得突破。「我对团队执行的速度以及我们改进模型的进度印象深刻,」他说,但其同时指出前沿模型的进一步进步现在需要更多时间。值得一提的是,Google 母公司 Alphabet 在上周交出一份史上最强财报:2025 年 Q3,其实现有史以来第一个单季营收 1000 亿美元的里程碑。其中,AI 是在整个公司范围内推动实实在在的业务成果。具体来看,Gemini App 月活跃用户(MAU)超过 6.5 亿,Q3 查询量环比增长 3 倍;隔壁 Anthropic 计划调用高达 100 万个 Google TPU。
(@AppSo)
3、Agno 推出「Conversational Workflows」,实现工作流的智能对话交互
Agno 近期推出了「Conversational Workflows」新功能,允许开发者将工作流(Workflow)转化为可与用户直接对话的智能体(Agent)。通过引入「WorkflowAgent」,系统能智能判断是直接回答用户问题,还是在无法直接解答时自动运行工作流,从而提升了工作流的交互性和智能化水平。
(@Agno)
4、LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代
自 9 月 1 日,美团正式发布 LongCat-Flash 系列模型,现已开源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 两大版本,获得了开发者的关注。今天 LongCat-Flash 系列再升级,正式发布全新家族成员——LongCat-Flash-Omni。
LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。
综合评估结果表明,LongCat-Flash-Omni 在全模态基准测试中达到开源最先进水平(SOTA),同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 「全模态覆盖、端到端架构、大参数量高效推理」 于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。
模型已同步开源,欢迎体验:
Hugging Face
https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
Github
https://github.com/meituan-longcat/LongCat-Flash-Omni
你可以通过 https://longcat.ai/ 体验图片、文件上传和语音通话功能。
(@龙猫 LongCat)
02有亮点的产品
1、即时互动的 AI 视频 Odyssey-2 上线
Odyssey-2 上线,这是即时互动的 AI 视频。您只需输入几个字,点击「stream」,AI 就会立即想象出您可以互动的视频。
体验地址:
https://experience.odyssey.ml/
(@odysseyml@X)
03有态度的观点 
1、马斯克最新预测:5 年后传统手机和 APP 将消失
11 月 2 日,在一期播客节目上,特斯拉 CEO 马斯克(Elon Musk)预测了一个激进的未来:未来 5-6 年,传统手机与 App 将消失,人类所消费的大多数内容都将由 AI 生成。马斯克认为,「未来不会有操作系统,不会有 APP,你的手机只是显示像素和发出声音,它预测你最想看到和听到什么,然后实时生成,我们会尽可能地将 AI 集成到这个设备中。」
「不会再有传统意义上的手机了,我们所谓的手机,实际上是一个用于 AI 推理的边缘节点,配备一些无线电模块进行连接。」马斯克抛出观点认为,本质上服务器端的 AI 会与用户设备(以前被称为手机)上的 AI 进行通信,并生成用户想要的任何实时视频。
谈及 AI 取代人类职业,马斯克给出一个倒计时时间线,一些如邮件处理、电话客服的桌面工作正在快速消失,而编程、内容创作这类工作大概会在 1-2 年内被大规模替代,驾驶、物流这类工作则会在自动驾驶成熟后快速转变。
(@第一财经)
2、李开复:未来将出现一人独角兽公司,因为 Agent 可工作 24 小时
11 月 1 日,在 2025 GOTC 全球开源技术峰会上,零一万物 CEO、创新工场董事长李开复分享中指出,「今天,一个企业的组织架构基本是以人作为单位的,慢慢地这些人作为单位的企业,有些可能部分或全部被 AI Agent 替代,最终一个公司的组织架构大部分都会 Agent,人会越来越少,可能在里面就会去做一个比较难的、安排性的任务。」
李开复指出,伴随 AI Agent 的发展,一个公司除了会有 HR Agent,还可以有技术 Agent、市场 Agent 等,这些 Agent 之间可以进一步合作,提升工作效率。「我们可以想象,在一个企业部门有一些任务 AI 可以帮我们做得更好,有些部门的很多任务都可以结合可以优化,多个部门可以协作,最终我们就会给公司的 CEO 一个工具,他就成为了 AI 的总指挥,在这个过程中我们整个组织的架构也被改变了。」李开复表示。
在李开复看来,「未来将会出现一个人的独角兽公司,这样的公司会用 Agent 来打造出一个有价值的公司,甚至一个独角兽,因为 Agent 是不会累的,可以 24 小时工作、7 天工作,Agent 也没有脾气不会吵架,而且可以复制。」
(@新浪科技)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻