Google I/O 发力多模态交互丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、 Google I/O 2026：Google 发力多模态交互：Gemini Omni 全模态模型、语音生成文档 Docs Live、智能眼镜细化「音频」+「显示」双架构

Gemini Omni：支持全模态端到端生成与对话式序列视频编辑

Google 发布 Gemini Omni 系列首个模型 Gemini Omni Flash。该模型基于原生多模态架构，支持将视频、图像、音频和文本进行任意组合输入，生成并编辑高质量视频，并实现了物理规律理解与多轮对话逻辑的一致性。

对话式多轮视频编辑：支持通过自然语言指令对既有视频进行渐进式修改。模型具备上下文记忆能力，可在改变场景、角度或特定细节时，保持角色一致性并遵循连续的物理逻辑，无需重新生成整个场景。
物理规律与世界知识融合推理：模型集成了对重力、动能和流体动力学等物理规律的直觉理解。在生成过程中，它能将抽象指令（如「蛋白质折叠的粘土动画解释」）与现实世界的科学知识相结合，而非简单的像素模式匹配。
全模态参考输入支持：允许用户同时导入不同格式的参考资料，并根据这些素材的节奏、风格和元素生成单一、连贯的视频输出。当前音频参考优先支持语音，随后将开放更多音频类型。
数字分身与安全水印集成：提供 Avatar 功能，允许用户基于自身语音数据创建数字分身，生成视听同步的个人视频。所有 Omni 生成的视频均内置 SynthID 不可见数字水印，可通过 Google 搜索或 Gemini 应用进行溯源核查。

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

Docs Live：支持非结构化语音生成文档，夏季推向全线 Workspace

Google 推出 Docs Live 语音交互功能，利用底层音频模型的技术飞跃，将 Gemini 的交互模式从「精确指令（Prompt）驱动」转向「非结构化口述驱动」。用户通过麦克风表达原始想法，系统可自动解析并重构为逻辑完整的文档。

语义意图识别取代精确 Prompt：不再强制要求用户编写结构化的文字指令，Gemini 可直接处理口语化的碎片信息并进行逻辑补全与重组。
端到端语音创作流：功能演进路线明确为「语音输入-语音创建-语音编辑」，实现文档全生命周期的非接触式操作。
Workspace 生态同步覆盖：语音能力将同步下沉至 Gmail 和 Keep，支持语音生成邮件草稿及自动化笔记整理。
基于音频原生模型优化：得益于 Google 最新的音频大模型进展，降低了语音转文字（STT）后的理解偏差，提升了实时语义解析的速度与准确率。

智能眼镜双版本架构：集成 Gemini 智能体，音频版定于秋季商用

Google 细化了智能眼镜（Intelligent Eyewear）项目路径，分为主打耳边实时语音提醒的「音频眼镜」与主打视觉信息即时呈现的「显示眼镜」，分别解决听觉协助与视觉增强两个维度。

设备不再仅作为蓝牙外设，而是 Gemini 的硬件入口，支持全语音唤醒与跨模态交互，强调复杂任务的免提处理。

音频版已完成商业化准备，计划于今年秋天晚些时候推出。该款眼镜由谷歌/三星/高通联手 Gentle Monster 和 Warby Parker 打造。搭配安卓终端或 iPhone，用户将无需拿出手机即可获取导航信息、发送短信、拍摄照片等等。

（@谷歌黑板报、@VR42、）

2、SONAR 语音评估框架发布：引入加权语义相似度的 PSDN 指标，解决低资源语言 ASR 评估失真

针对主流 ASR（自动语音识别）评测基准在低资源语言及真实环境下的局限性，研究团队推出评估框架 SONAR。该框架通过整合 WER、CER 及高权重的语义相似度指标，提供具备诊断性的模型评估方案，旨在解决全球 30 亿低资源语言使用者面临的 AI 基础设施失配问题。

Poseidon Score （PSDN）复合评分标准：定义算法公式。通过将语义相似度权重设为 0.45，修正了传统词错误率（WER）对同义词、方言及代码切换（Code-switching）的过度惩罚，更真实地反映意图保留率。
YAML 驱动的可配置评估流：SONAR 采用「Recipe」机制，用户通过 YAML 配置文件定义数据集、模型接口（支持 API 及本地部署）、标准化规则及评分权重。扩展新语种仅需更新配置，无需修改框架底层代码。
LLM 辅助验证机制：引入 Gemini-1.5 Pro 作为裁判，从实体保留率（Entity Preservation）和意图通过率（Intent Pass Rate）两个维度对 PSDN 信号进行交叉验证，量化 ASR 错误对实际业务逻辑的影响。
多维度人口统计学（Demographic）切片：支持按年龄、性别、地域等元数据对 16,000+ 预测结果进行分层分析，揭示被平均分掩盖的模型偏见与性能鸿沟。
结构化失效诊断：不仅输出模型排名，更侧重于定位模型在特定声学环境（长停顿、背景噪声）或数据分布下的失效诱因，为后续数据采集与闭环提供依据。

https://psdn.ai/blog/sonar-evaluating-voice-ai-beyond-english

( @psdnai@X、@psdnai blog)

3、Qwen3.5-LiveTranslate-Flash 发布：端到端延迟降至 2.8s，支持 60 语种实时音色克隆

阿里 Qwen 团队发布基于 Qwen3.5-Omni Thinker-Talker 架构的实时翻译大模型 Qwen3.5-LiveTranslate-Flash。该模型通过流式输入与可读单元控制技术，显著降低了语音同传延迟，并实现了跨语言的动态音色复刻，主要面向跨境直播、国际会议及智能硬件场景。

端到端超低延迟：采用 chunk-wise 流式输入与全新的 Readable Unit（可读单元）技术，字均延迟缩短至 2.8 秒，较前代产品首字延迟降低 3.45 秒。
语种矩阵大幅扩张：音频输入与文本输出语种从 18 种增至 60 种，音频输出语种从 10 种提升至 29 种，覆盖主流跨境商贸与教育场景。
实时音色克隆（Voice Cloning）：支持动态跨语言音色复刻，翻译后的音频可自动保留原始说话人的音色特征、情感起伏与身份一致性。
1000 规模动态热词引擎：内置热词策略，支持最高 1000 个自定义词条，针对人名、品牌名、行业术语进行优先识别与纠偏，解决专业领域翻译歧义。
多模态语义消歧：结合多模态理解能力，支持在语境模糊时引入视觉信息辅助判断，提升一词多义场景下的翻译准确率。

Blog:

https://qwen.ai/blog?id=qwen3.5-livetranslate

Demo:

https://omni.qwen.ai/live-translate

02 有亮点的产品

1、美图入局 Visual Agent，Chance AI 完成数百万美元天使轮融资

Visual Agent 创业公司 Chance AI 宣布完成数百万美元天使轮融资，本轮由美图领投、NYX Ventures、阿里系投资机构等跟投。融资将主要用于模型能力迭代、北美学生群体渗透、以及社区与商业化探索。

Chance AI 成立于 2025 年 8 月，创始人兼 CEO 曾熙博士拥有认知科学、消费电子和 AI 产品的交叉背景，曾在 OnePlus、OPPO、字节跳动参与智能硬件产品、系统体验和 AI 产品从 0 到 1 的建设。

Chance AI 切入的是一个正在发生的 AI 交互跃迁：从输入框到摄像头，从文字提问到视觉理解。与过往的 chatbot 和视觉搜索工具相比，Chance AI 是第一个将「意义推理」作为核心能力的 Visual Agent。

「真实世界不是以 prompt 的方式发生的。」Chance AI 创始人兼 CEO 曾熙博士表示，「人类理解世界的第一步往往不是提问，而是看见。Chance AI 想做的，是让 AI 从用户看到的世界开始理解意图，并帮助用户完成判断、表达和行动。视觉是人类最直觉的交互。」

美图全球投资负责人表示：「我们相信，AI 消费应用的下一阶段，是更自然地进入用户的日常决策与表达过程。我们看到 Chance AI 让视觉 AI 从图像识别走向审美品味。这也是我们投资它的原因——他们把复杂的 AI 能力产品化，带进了全球年轻用户的审美生活中。」

(@Founder Park)

2、苹果硬件团队第二轮重组，斯鲁吉加速产品开发

报道称，苹果新任首席硬件官约翰尼 · 斯鲁吉（Johny Srouji）正推动上任后的第二轮团队重组，重点是重新分配产品设计、硬件工程和关键底层技术团队的职责。

古尔曼透露在本轮调整中，苹果公司主要产品设计原本由凯特・伯杰龙（Kate Bergeron）负责，接下来将交给她的两名副手 Shelly Goldberg 和 Dave Pakula 分担。

伯杰龙的新职位是接替汤姆 · 马里布（Tom Marieb），统筹所有产品可靠性工作，并继续负责材料使用相关团队。而马里布接任负责苹果的硬件工程部门，负责实体产品的研发、生产与品控。

在特努斯 9 月 1 日出任 Apple CEO，原本归属其体系下的两名高管也改为直接向 Srouji 汇报。其中，Matt Costello 负责过 Apple 家居与音频产品开发，Kevin Lynch 则负责一个特殊项目团队，重点推进机器人设备研发。

另一项值得关注的变化是，Apple 基带负责人 Zongjian Chen 的权限继续扩大。除了基带，他还将接手电池、相机工程团队，以及传感器软件开发，其中就包括 Apple Watch 无创血糖检测项目。

（@极客公园）

03 有态度的观点

1、强化学习之父 Sutton 重申「苦涩的教训」引争议

强化学习之父 Richard Sutton 昨日在 X 发文，用 26 个英文单词重申了他在 2019 年提出的「苦涩的教训」：

AI 发展不应被人类知识分散注意力，而应专注于能随算力扩展的通用方法，例如搜索与学习。

「苦涩的教训」首发于 2019 年，是 AI 领域流传最广的论断之一。Sutton 梳理数十年 AI 历史后指出，研究者反复试图将人类专业知识编入系统，但依靠算力扩展的通用方法每次都会胜出——计算机象棋、围棋、语音识别都是如此。

这一论断后来成为大语言模型「规模扩展」路线的重要理论依据。

此次 26 字浓缩版发出后，多位学者直接提出异议。机器学习奠基人 Thomas G。 Dietterich 回复称，研究人类知识的抽象结构能够为 AI 标定认知盲区，这种工作不应被称为「分心」。

评论区中，一篇题为《甜蜜的教训》的长文被多次引用。The Innovation Game 联合创始人兼首席科学家 John Fletcher 在文中提出，Sutton 的论断本身就是一种「编码知识」，它能告诉你终点在哪，但无法告诉你如何抵达。

Fletcher 认为，当前训练数据面临书面语料枯竭的瓶颈，专家大脑中从未被写下来的「隐性知识」——直觉、经验、判断力，才是产业当前竞争的真正战场。

( @APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、上海，来了！5.30 OceanBase × LangChain 重磅联手，首发「AgentSeek」定义企业级智能体开发新范式

本次活动的核心亮点，是发布 OceanBase 自研的 AgentSeek 企业级智能体工程解决方案。

无论是技术决策者、架构师，还是一线开发者，这次 Meetup 都将让你：

掌握 AI Agent 从数据层到应用层的全栈设计方法论；
获取 OceanBase × LangChain 生态整合的一手实战经验；
直面拍拍贷、算秩未来企业级案例，洞见 Agent 规模化落地路径。

详情链接：

https://mp.weixin.qq.com/s/pu95tlZwRQpUjtUFt6GvYA

阅读更多 Voice Agent 学习笔记：了解最懂 AI 语音的头脑都在思考什么

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

Google I/O 发力多模态交互丨日报

01 有话题的技术

1、 Google I/O 2026：Google 发力多模态交互：Gemini Omni 全模态模型、语音生成文档 Docs Live、智能眼镜细化「音频」+「显示」双架构

Gemini Omni：支持全模态端到端生成与对话式序列视频编辑

Docs Live：支持非结构化语音生成文档，夏季推向全线 Workspace

智能眼镜双版本架构：集成 Gemini 智能体，音频版定于秋季商用

2、SONAR 语音评估框架发布：引入加权语义相似度的 PSDN 指标，解决低资源语言 ASR 评估失真

3、Qwen3.5-LiveTranslate-Flash 发布：端到端延迟降至 2.8s，支持 60 语种实时音色克隆

02 有亮点的产品

1、美图入局 Visual Agent，Chance AI 完成数百万美元天使轮融资

2、苹果硬件团队第二轮重组，斯鲁吉加速产品开发

03 有态度的观点

1、强化学习之父 Sutton 重申「苦涩的教训」引争议

04 社区黑板报

1、上海，来了！5.30 OceanBase × LangChain 重磅联手，首发「AgentSeek」定义企业级智能体开发新范式

阅读更多 Voice Agent 学习笔记：了解最懂 AI 语音的头脑都在思考什么

分类

关键词

Google I/O 发力多模态交互 丨日报

01 有话题的技术

1、 Google I/O 2026：Google 发力多模态交互：Gemini Omni 全模态模型、语音生成文档 Docs Live、智能眼镜细化「音频」+「显示」双架构

Gemini Omni：支持全模态端到端生成与对话式序列视频编辑

Docs Live：支持非结构化语音生成文档，夏季推向全线 Workspace

智能眼镜双版本架构：集成 Gemini 智能体，音频版定于秋季商用

2、SONAR 语音评估框架发布：引入加权语义相似度的 PSDN 指标，解决低资源语言 ASR 评估失真

3、Qwen3.5-LiveTranslate-Flash 发布：端到端延迟降至 2.8s，支持 60 语种实时音色克隆

02 有亮点的产品

1、美图入局 Visual Agent，Chance AI 完成数百万美元天使轮融资

2、苹果硬件团队第二轮重组，斯鲁吉加速产品开发

03 有态度的观点

1、强化学习之父 Sutton 重申「苦涩的教训」引争议

04 社区黑板报

1、上海，来了！5.30 OceanBase × LangChain 重磅联手，首发「AgentSeek」定义企业级智能体开发新范式

阅读更多 Voice Agent 学习笔记：了解最懂 AI 语音的头脑都在思考什么

分类

关键词

Google I/O 发力多模态交互丨日报