Sakana AI 开源 KAME 双轨语音架构,实现「边想边说」丨日报

开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、OpenBMB 发布 MiniCPM-o 4.5:9B 规模原生全双工多模态模型,支持毫秒级流式交互
OpenBMB 发布 MiniCPM-o 4.5 技术报告,推出基于 Omni-Flow 框架的原生全双工流式交互范式。该模型在 9B 参数规模下,通过统一的时间轴对齐技术取代传统 VAD 方案,实现了具备主动交互能力的实时音视频对话,并在多项多模态基准测试中对标 Gemini 1.5 Flash。
Omni-Flow 原生全双工架构:不同于传统基于 VAD(语音端点检测)的延迟方案,该框架在毫秒级时间线上同步对齐视频、音频和文本流,支持模型在感知输入的同时进行实时响应。
具备主动交互与轮换管理能力:模型无需外部模块即可原生处理对话轮换(Turn-taking),支持在交互过程中主动发起提醒,显著提升智能体的自然交互感。
9B 规模性能表现:在 MMBench EN(87.6)和 MathVista(80.1)测试中表现接近 Gemini 系列模型;在 LiveSports-3K-CC 流式评估中取得 54.4% 的胜率,优于同类专项模型。
全本地边缘端部署优化:支持 Windows(需 12G 显存)及 macOS(M1-M5 系列芯片)一键部署,提供本地 API 接口,实现 100% 本地化运行以保障数据隐私。
GitHub:
https://github.com/OpenBMB/MiniCPM-o-Demo
HuggingFace:
https://huggingface.co/openbmb/MiniCPM-o-4_5
( @OpenBMB@X)
2、Deepgram 发布 Flux Multilingual:支持 10 种语言原生语码转换,话轮检测延迟低于 400ms
Deepgram 宣布其对话式语音识别(CSR)模型 Flux Multilingual 正式商用(GA)。该模型支持在单次对话中自动检测并切换 10 种语言,旨在消除全球化语音智能体在多语言环境下的识别延迟与架构复杂性。
从 ASR 转向 CSR 架构:不同于仅负责文本转录的传统自动语音识别(ASR),Flux 原生支持基于模型的话轮检测(Turn Detection)和打断处理,而非简单的静音检测,确保对话流的自然轮转。
400ms 级实时响应:模型对话轮结束(End-of-turn)的决策延迟低于 400 毫秒,支持超低延迟流式转录,满足高频交互场景。
原生支持语码转换(Code-switching):支持在单一会话中实时、动态地在英语、西班牙语、日语、印地语等 10 种语言间切换,开发者可通过 API 发送语言提示(Language Hints)或使用自动检测模式。
架构简化与单语级精度:通过单一模型和 API 替代了传统需拼接多个模型与路由逻辑的方案,在多语言并发场景下维持单语级别的识别准确率。
全环境部署支持:兼容现有 Flux API 接入,支持 Deepgram Cloud、欧盟终结点(EU endpoints)以及私有化/本地化(Self-hosted/On-premises)部署。
(@deepgram)
3、Sakana AI 开源 KAME 语音架构:采用 S2S 与异步 LLM 双轨并行,实现「边想边说」
Sakana AI 推出名为 KAME 的新型双轨(Tandem)语音交互架构,相关论文已被 ICASSP 2026 接收。该架构通过分离低延迟的前端与高推理能力的后端,使系统能够在输出语音的同时异步接收逻辑注入。此设计直接打破了传统实时语音模型在「极低延迟」与「深度推理」之间的硬性权衡,实现了「边想边说」。
异步双轨架构(Tandem Architecture):前端采用 S2S 模型维持极低延迟的响应循环并立即开始对话;后端 LLM 异步运行,基于动态扩展的用户部分转录文本(partial transcript),生成候选回复作为「预言」(oracle)信号,并在生成后实时注入前端。
后端 LLM 接口完全解耦:系统支持不同 LLM 之间的无缝切换。开发者可在不修改前端 S2S 架构的情况下,直接热插拔接入 GPT-4.1、Claude Opus 4.1 或 Gemini 2.5 Flash 等不同模型以适应特定任务。
MT-Bench 评测模型能力偏好:在前端固定为 Moshi 基础模型的情况下,测试表明接入 Claude 后端在逻辑推理(Reasoning)任务中得分更高,而接入 GPT-4.1 后端在人文类(Humanities)问答中表现更优。
针对性前端微调(SFT):作为基准测试的 Moshi 为标准 SFT 模型,而 KAME 的 Moshi 前端模型则经过专门微调,其核心训练目标转变为接收并解析后端模型传递的 oracle 信号,以维持前后台输出同步。
推理与微调代码已在 GitHub 开源,前端模型权重已上线 Hugging Face 提供下载。
https://huggingface.co/SakanaAI/kame
(@Sakana AI Blog)
4、NVIDIA 发布 Nemotron 3 Nano Omni:采用 Mamba-Transformer 混合 MoE 架构,多模态推理吞吐量提升 9 倍
英伟达(NVIDIA)正式推出原生多模态推理模型 Nemotron 3 Nano Omni,通过单一模型体系深度整合文本、视觉与语音处理能力。该模型旨在通过混合专家架构(MoE)优化边缘与端侧部署,在保持高精度感知的同时,实现数倍于同类开放模型的推理吞吐量。
Mamba-Transformer 混合 MoE 架构:创新性融合 Mamba 层(优化序列处理与内存效率)与 Transformer 层(保障推理精度),使内存和计算效率最高提升 4 倍,并支持根据任务模态动态激活专家网络。
高密度吞吐性能:在相同交互阈值下,视频推理的总吞吐量达同类开放全向模型的 9.2 倍,多文档推理吞吐量提升约 7.4 倍,显著降低了视频级标注等长上下文任务的推理成本。
多项基准测试登顶:在 DailyOmni(全向理解)与 VoiceBench(语音理解)榜单排名第一,性能数据超越 Qwen3-Omni-30B-A3B-Thinking 及 Gemini 2.5 Flash;在 MMlongbench-Doc 等文档智能榜单进入前五。
跨模态持续记忆与检索:支持对 3 分钟以上长视频的秒级解析与跨模态提炼,具备在同一推理框架下无缝切换处理视频、专业技术文档及图形界面(GUI)的能力。
知识蒸馏与改进:模型基于 Qwen3/3.5 系列(最高 397B 规格)及 gpt-oss-120b 等高性能模型生成的合成数据进行改进,强化了硬核技术文档的逻辑梳理能力。
(@智东西)
02 有亮点的产品
1、Thoughtly 获 550 万美元种子轮融资:发布 CRM 原生全渠道 AI 智能体,支持 60s 内自动化触达

AI 互动平台 Thoughtly 宣布完成 550 万美元种子轮融资,并同步推出全渠道 AI 平台。该平台将 AI 智能体(agent)直接嵌入 CRM 原生工作流,使营收团队能在潜客提交信息后的 60 秒内通过语音、短信或邮件自动发起互动,将潜在客户覆盖率提升至 100%。
CRM 原生全渠道架构:该平台打破了单一语音交互限制,在 CRM 内部统一调度语音、SMS 和 Email 渠道。AI 智能体直接在现有 CRM 逻辑中运行,无需额外开发呼叫中心基础设施或调用复杂 API。
「Speed-to-lead」 缩短至 60 秒内:通过自动化触发机制,系统可在潜客提交表单后 1 分钟内发起实时对话。实测数据显示,该响应速度将低分潜客的成交率从 16% 提升至 38%。
无代码工作流构建器与沙盒环境:提供可视化配置界面,允许非技术人员(如 RevOps、CMO)实时调整 AI 语气、话术逻辑和营销活动,并支持在部署前通过沙盒进行回归测试。
20x 成本效率与 100% 覆盖率:在教育与租赁管理等垂直行业应用中,AI 智能体处理了约 23% 的呼入流量,且覆盖了传统人工团队无法触达的 90% 以上长尾潜在客户,年度人力成本节省可达 40 万美元。
( @thoughtly)
2、DeepSeek 内测「识图模式」,多模态新模型或将发布
DeepSeek 昨日开启「识图模式」测试,与现有的「快速模式」、「专家模式」并列,具备完整的多模态图像理解能力,并非简单的 OCR 文字识别。
从实测表现来看,DeepSeek 识图模式的整体准确率较高,在不开启思考模式的情况下,最快半秒即可给出回答。对于电影剧照、抽象图片、商品图等常见场景,识别与理解表现良好。
更值得关注的是其思考过程:在描述画面内容之外,还会主动追问发布者身份、图像隐喻与潜台词,并在推理过程中多次自我纠正,甚至在给出结论前,自发列出问题逐一验证前提假设,呈现出接近人类阅读习惯的推理逻辑。
不过,识图模式目前仍存在明显局限。经典的「数手指」测试中,DeepSeek 首次作答出错,自称「数晕了」,但在用户引导或提示后能够给出正确答案。
此外,识图过程暂不支持联网搜索,仅依赖模型自身知识库作答,对于较新的事物,如苹果今年推出的吉祥物「Finder 酱」,无法识别。而就在昨天,DeepSeek 多模态团队研究员 Xiaokang Chen 在 X 上发文「Now, we see you。
」,并配图 DeepSeek 鲸鱼吉祥物从「蒙眼」到「睁眼」的对比,外界普遍将其解读为多模态新模型即将上线的预告。
( @APPSO)
03 有态度的观点
1、山姆 · 奥特曼:按 token 计价终将过时,OpenAI 要做的是「智力工厂」
OpenAI CEO Sam Altman 近日在接受科技评论人 Ben Thompson 采访时表示,按 token 计价的 AI 定价模式长期来看难以为继,行业最终将转向以「任务完成」为单位的定价体系。
Altman 以最新的 GPT-5.5 模型为例说明这一判断:GPT-5.5 的单 token 价格高于上一代 GPT-5.4,但完成同一任务所消耗的 token 数量大幅减少。他认为,用户从未真正关心 token 消耗量:
你实际上根本不在乎答案用了多少 token,你只想把这件事做完;你只关心总价是多少,以及需要的时候能不能随时调用到。
在此基础上,Altman 将 OpenAI 的定位从「token 工厂」修正为「智力工厂」。其核心目标是以尽可能低的价格交付尽可能多的智能,至于底层跑的是大模型还是小模型、用了多少 token、跑在 GPU 还是亚马逊自研的 Trainium 芯片上,用户都不需要关心。
Altman 同时透露,目前 OpenAI 客户中要求追加算力容量的人远多于谈判压价的人。他将 AI 与水、电等传统公用事业进行类比,并指出两者存在本质区别:
如果你把智能看作一种「公用事业」(像水电一样的东西),我不知道还有哪种公用事业让我觉得 —— 只要价格够低,我就会一直用、一直用更多。没有任何一种公用事业是这样的。
AWS CEO Matt Garman 对此补充称,过去 30 年算力单价已下降了若干个数量级,但今天卖出去的算力总量却比任何时候都多,AI 需求的增长逻辑与此高度相似。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考