Google I/O 发力多模态交互 丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、 Google I/O 2026:Google 发力多模态交互:Gemini Omni 全模态模型、语音生成文档 Docs Live、智能眼镜细化「音频」+「显示」双架构
Gemini Omni:支持全模态端到端生成与对话式序列视频编辑
Google 发布 Gemini Omni 系列首个模型 Gemini Omni Flash。该模型基于原生多模态架构,支持将视频、图像、音频和文本进行任意组合输入,生成并编辑高质量视频,并实现了物理规律理解与多轮对话逻辑的一致性。
对话式多轮视频编辑:支持通过自然语言指令对既有视频进行渐进式修改。模型具备上下文记忆能力,可在改变场景、角度或特定细节时,保持角色一致性并遵循连续的物理逻辑,无需重新生成整个场景。
物理规律与世界知识融合推理:模型集成了对重力、动能和流体动力学等物理规律的直觉理解。在生成过程中,它能将抽象指令(如「蛋白质折叠的粘土动画解释」)与现实世界的科学知识相结合,而非简单的像素模式匹配。
全模态参考输入支持:允许用户同时导入不同格式的参考资料,并根据这些素材的节奏、风格和元素生成单一、连贯的视频输出。当前音频参考优先支持语音,随后将开放更多音频类型。
数字分身与安全水印集成:提供 Avatar 功能,允许用户基于自身语音数据创建数字分身,生成视听同步的个人视频。所有 Omni 生成的视频均内置 SynthID 不可见数字水印,可通过 Google 搜索或 Gemini 应用进行溯源核查。
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
Docs Live:支持非结构化语音生成文档,夏季推向全线 Workspace
Google 推出 Docs Live 语音交互功能,利用底层音频模型的技术飞跃,将 Gemini 的交互模式从「精确指令(Prompt)驱动」转向「非结构化口述驱动」。用户通过麦克风表达原始想法,系统可自动解析并重构为逻辑完整的文档。
语义意图识别取代精确 Prompt:不再强制要求用户编写结构化的文字指令,Gemini 可直接处理口语化的碎片信息并进行逻辑补全与重组。
端到端语音创作流:功能演进路线明确为「语音输入-语音创建-语音编辑」,实现文档全生命周期的非接触式操作。
Workspace 生态同步覆盖:语音能力将同步下沉至 Gmail 和 Keep,支持语音生成邮件草稿及自动化笔记整理。
基于音频原生模型优化:得益于 Google 最新的音频大模型进展,降低了语音转文字(STT)后的理解偏差,提升了实时语义解析的速度与准确率。
智能眼镜双版本架构:集成 Gemini 智能体,音频版定于秋季商用
Google 细化了智能眼镜(Intelligent Eyewear)项目路径,分为主打耳边实时语音提醒的「音频眼镜」与主打视觉信息即时呈现的「显示眼镜」,分别解决听觉协助与视觉增强两个维度。
设备不再仅作为蓝牙外设,而是 Gemini 的硬件入口,支持全语音唤醒与跨模态交互,强调复杂任务的免提处理。
音频版已完成商业化准备,计划于今年秋天晚些时候推出。该款眼镜由谷歌/三星/高通联手 Gentle Monster 和 Warby Parker 打造。搭配安卓终端或 iPhone,用户将无需拿出手机即可获取导航信息、发送短信、拍摄照片等等。
(@谷歌黑板报、@VR42、)
2、SONAR 语音评估框架发布:引入加权语义相似度的 PSDN 指标,解决低资源语言 ASR 评估失真
针对主流 ASR(自动语音识别)评测基准在低资源语言及真实环境下的局限性,研究团队推出评估框架 SONAR。该框架通过整合 WER、CER 及高权重的语义相似度指标,提供具备诊断性的模型评估方案,旨在解决全球 30 亿低资源语言使用者面临的 AI 基础设施失配问题。
Poseidon Score (PSDN) 复合评分标准:定义算法公式 。通过将语义相似度权重设为 0.45,修正了传统词错误率(WER)对同义词、方言及代码切换(Code-switching)的过度惩罚,更真实地反映意图保留率。
YAML 驱动的可配置评估流:SONAR 采用「Recipe」机制,用户通过 YAML 配置文件定义数据集、模型接口(支持 API 及本地部署)、标准化规则及评分权重。扩展新语种仅需更新配置,无需修改框架底层代码。
LLM 辅助验证机制:引入 Gemini-1.5 Pro 作为裁判,从实体保留率(Entity Preservation)和意图通过率(Intent Pass Rate)两个维度对 PSDN 信号进行交叉验证,量化 ASR 错误对实际业务逻辑的影响。
多维度人口统计学(Demographic)切片:支持按年龄、性别、地域等元数据对 16,000+ 预测结果进行分层分析,揭示被平均分掩盖的模型偏见与性能鸿沟。
结构化失效诊断:不仅输出模型排名,更侧重于定位模型在特定声学环境(长停顿、背景噪声)或数据分布下的失效诱因,为后续数据采集与闭环提供依据。
https://psdn.ai/blog/sonar-evaluating-voice-ai-beyond-english
( @psdnai@X、@psdnai blog)
3、Qwen3.5-LiveTranslate-Flash 发布:端到端延迟降至 2.8s,支持 60 语种实时音色克隆
阿里 Qwen 团队发布基于 Qwen3.5-Omni Thinker-Talker 架构的实时翻译大模型 Qwen3.5-LiveTranslate-Flash。该模型通过流式输入与可读单元控制技术,显著降低了语音同传延迟,并实现了跨语言的动态音色复刻,主要面向跨境直播、国际会议及智能硬件场景。
端到端超低延迟:采用 chunk-wise 流式输入与全新的 Readable Unit(可读单元)技术,字均延迟缩短至 2.8 秒,较前代产品首字延迟降低 3.45 秒。
语种矩阵大幅扩张:音频输入与文本输出语种从 18 种增至 60 种,音频输出语种从 10 种提升至 29 种,覆盖主流跨境商贸与教育场景。
实时音色克隆(Voice Cloning):支持动态跨语言音色复刻,翻译后的音频可自动保留原始说话人的音色特征、情感起伏与身份一致性。
1000 规模动态热词引擎:内置热词策略,支持最高 1000 个自定义词条,针对人名、品牌名、行业术语进行优先识别与纠偏,解决专业领域翻译歧义。
多模态语义消歧:结合多模态理解能力,支持在语境模糊时引入视觉信息辅助判断,提升一词多义场景下的翻译准确率。
Blog:
https://qwen.ai/blog?id=qwen3.5-livetranslate
Demo:
https://omni.qwen.ai/live-translate
02 有亮点的产品
1、美图入局 Visual Agent,Chance AI 完成数百万美元天使轮融资
Visual Agent 创业公司 Chance AI 宣布完成数百万美元天使轮融资,本轮由美图领投、NYX Ventures、阿里系投资机构等跟投。融资将主要用于模型能力迭代、北美学生群体渗透、以及社区与商业化探索。
Chance AI 成立于 2025 年 8 月,创始人兼 CEO 曾熙博士拥有认知科学、消费电子和 AI 产品的交叉背景,曾在 OnePlus、OPPO、字节跳动参与智能硬件产品、系统体验和 AI 产品从 0 到 1 的建设。
Chance AI 切入的是一个正在发生的 AI 交互跃迁:从输入框到摄像头,从文字提问到视觉理解。与过往的 chatbot 和视觉搜索工具相比,Chance AI 是第一个将「意义推理」作为核心能力的 Visual Agent。
「真实世界不是以 prompt 的方式发生的。」Chance AI 创始人兼 CEO 曾熙博士表示,「人类理解世界的第一步往往不是提问,而是看见。Chance AI 想做的,是让 AI 从用户看到的世界开始理解意图,并帮助用户完成判断、表达和行动。视觉是人类最直觉的交互。」
美图全球投资负责人表示:「我们相信,AI 消费应用的下一阶段,是更自然地进入用户的日常决策与表达过程。我们看到 Chance AI 让视觉 AI 从图像识别走向审美品味。这也是我们投资它的原因——他们把复杂的 AI 能力产品化,带进了全球年轻用户的审美生活中。」
(@Founder Park)
2、苹果硬件团队第二轮重组,斯鲁吉加速产品开发
报道称,苹果新任首席硬件官约翰尼 · 斯鲁吉(Johny Srouji)正推动上任后的第二轮团队重组,重点是重新分配产品设计、硬件工程和关键底层技术团队的职责。
古尔曼透露在本轮调整中,苹果公司主要产品设计原本由凯特・伯杰龙(Kate Bergeron)负责,接下来将交给她的两名副手 Shelly Goldberg 和 Dave Pakula 分担。
伯杰龙的新职位是接替汤姆 · 马里布(Tom Marieb),统筹所有产品可靠性工作,并继续负责材料使用相关团队。而马里布接任负责苹果的硬件工程部门,负责实体产品的研发、生产与品控。
在特努斯 9 月 1 日出任 Apple CEO,原本归属其体系下的两名高管也改为直接向 Srouji 汇报。其中,Matt Costello 负责过 Apple 家居与音频产品开发,Kevin Lynch 则负责一个特殊项目团队,重点推进机器人设备研发。
另一项值得关注的变化是,Apple 基带负责人 Zongjian Chen 的权限继续扩大。除了基带,他还将接手电池、相机工程团队,以及传感器软件开发,其中就包括 Apple Watch 无创血糖检测项目。
(@极客公园)
03 有态度的观点
1、强化学习之父 Sutton 重申「苦涩的教训」引争议
强化学习之父 Richard Sutton 昨日在 X 发文,用 26 个英文单词重申了他在 2019 年提出的「苦涩的教训」:
AI 发展不应被人类知识分散注意力,而应专注于能随算力扩展的通用方法,例如搜索与学习。
「苦涩的教训」首发于 2019 年,是 AI 领域流传最广的论断之一。Sutton 梳理数十年 AI 历史后指出,研究者反复试图将人类专业知识编入系统,但依靠算力扩展的通用方法每次都会胜出——计算机象棋、围棋、语音识别都是如此。
这一论断后来成为大语言模型「规模扩展」路线的重要理论依据。
此次 26 字浓缩版发出后,多位学者直接提出异议。机器学习奠基人 Thomas G。 Dietterich 回复称,研究人类知识的抽象结构能够为 AI 标定认知盲区,这种工作不应被称为「分心」。
评论区中,一篇题为《甜蜜的教训》的长文被多次引用。The Innovation Game 联合创始人兼首席科学家 John Fletcher 在文中提出,Sutton 的论断本身就是一种「编码知识」,它能告诉你终点在哪,但无法告诉你如何抵达。
Fletcher 认为,当前训练数据面临书面语料枯竭的瓶颈,专家大脑中从未被写下来的「隐性知识」——直觉、经验、判断力,才是产业当前竞争的真正战场。
( @APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、上海,来了!5.30 OceanBase × LangChain 重磅联手,首发「AgentSeek」定义企业级智能体开发新范式
本次活动的核心亮点,是发布 OceanBase 自研的 AgentSeek 企业级智能体工程解决方案。
无论是技术决策者、架构师,还是一线开发者,这次 Meetup 都将让你:
掌握 AI Agent 从数据层到应用层的全栈设计方法论;
获取 OceanBase × LangChain 生态整合的一手实战经验;
直面拍拍贷、算秩未来企业级案例,洞见 Agent 规模化落地路径。
详情链接:
https://mp.weixin.qq.com/s/pu95tlZwRQpUjtUFt6GvYA

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考