Seed 全双工语音大模型发布:懂倾听、抗干扰,更自然的交互丨日报

开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃


01 有话题的技术

1、Meta 发布 Muse Spark:原生多模态推理模型,计算效率较 Llama 4 提升 10 倍

Meta Superintelligence Labs 推出 Muse 家族首款模型 Muse Spark。该模型采用原生多模态架构,通过重构预训练与强化学习(RL)技术栈,实现了相较于前代 Llama 4 Maverick 十倍以上的计算效率提升,并引入支持多智能体并行的推理模式

  • 预训练栈重构与计算增效:通过优化模型架构与数据清洗方案,Muse Spark 在实现同等性能水平时所需的训练 FLOPs 比 Llama 4 Maverick 降低了一个数量级,大幅提升了单位计算量的能力产出。

  • Contemplating Mode(沉思模式):该模式支持多智能体(multi-agent)并行编排推理。在复杂任务基准测试中,其 Humanity’s Last Exam 得分为 58%,FrontierScience Research 得分为 38%,性能对标 Gemini Deep Think 等推理增强模型。


图片


  • 推理时间思维压缩(Thought Compression):在推理侧(Test-time reasoning),模型通过强化学习中的「时间惩罚」机制实现相位转换。模型在经历长路径思考后,能自动压缩思维链路,使用更少的推理 token 解决同等复杂度的 AIME 等数学问题

  • 原生多模态视觉推理:支持视觉思维链(Visual CoT)与动态标注,具备实体识别与精准定位能力。在健康领域,Meta 引入 1,000 名医师参与训练数据对齐,使其能够生成交互式的健康数据解读及生理指标可视化分析。


(@Meta)


2、MOSS-VL 开源发布:交叉注意力架构驱动视频理解新范式,Open MOSS 多模态生态再添核心拼图

OpenMOSS 团队正式开源 MOSS-VL 系列视觉理解模型,这是继 MOVA(音视频生成)、MOSS-TTS Family(语音合成)、MOSS-Transcribe-Diarize(语音识别)之后,OpenMOSS 多模态生态系统中的又一核心组件——这次 OpenMOSS,让 AI 真正学会了「看」。MOSS-VL 是一个 11B 参数的视觉理解大模型,采用全新的交叉注意力架构,在大幅降低推理延迟的同时,于 30 余项主流 Benchmark 上全面对标乃至超越 Qwen3-VL


其核心亮点主要有:


图片


  • 领先的视频智能:MOSS-VL 在视频理解维度显著超越 Qwen3-VL。在 VideoMME、MLVU、EgoSchema 以及 VSI-bench(领先 Qwen3-VL-8B-Instruct 达 8.3 个百分点)等基准测试中,它展现了出色的时序一致性和动作识别能力。

  • 卓越的多模态感知:MOSS-VL 展现了出色的通用图文理解能力,在 BLINK 和 MMBench 等评测中,其细粒度物体识别和空间推理表现突出。

  • 稳健的视觉推理:MOSS-VL 展现了扎实的逻辑推断能力,在 VisuLogic 等复杂推理任务中,与 Qwen 系列的最新版本保持高度竞争力。

  • 可靠的文档理解:虽然模型主要针对通用感知和视频能力进行了优化,但 MOSS-VL 在 OCR 和文档分析方面依然确保了在文本提取和结构化信息处理中的可靠性。

在罗永浩的星巴克"中杯、大杯、特大杯"名场面中,MOSS-VL 能够精确追踪多轮对话中人物的表情变化、情绪波动和核心矛盾。


问题:根据柜员的说法,柜台上三个杯子分别对应什么大小的?


  • Qwen3-VL:根据柜员的说法,柜台上三个杯子分别对应小杯、中杯、大杯。

  • MOSS-VL:中杯、大杯和特大杯


面对经典的《星球大战》开场滚动字幕,MOSS-VL 展现出卓越的视频 OCR 能力,能够在画面持续滚动的过程中逐行精准识别并完整还原大段英文文本,充分体现了模型在动态场景下的文字捕捉与长文本输出能力。


GitHub 链接:

https://github.com/OpenMOSS/MOSS-VL


HuggingFace 链接:

https://huggingface.co/OpenMOSS-Team/MOSS-VL-Instruct-0408


(@模思智能)


3、Seed 全双工语音大模型发布:懂倾听、抗干扰,走向更自然的交互


字节跳动 Seed 团队发布原生全双工语音大模型 Seeduplex,实现从「回合制」向「边听边说」实时交互的架构跨越。该模型通过语音语义联合建模,显著提升了复杂环境下的抗干扰能力与对话节奏控制,目前已在豆包 App 全量上线并实现规模化应用。


Seeduplex 弃用基于独立 VAD(语音活动检测)和传统降噪算法的级联方案,采用原生端到端建模,支持流式感知与 LLM 底座的实时特征处理,实现语音与语义的一体化表达。


  • 交互时延显著下降: 相比上一代半双工模型,Seeduplex 的判停延迟缩短约 250ms,针对用户打断需求的响应延迟缩短约 300ms,交互流畅度 MOS 分提升 12%。


  • 动态判停与抗干扰:结合声学特征与对话上下文进行意图判断,使复杂场景下的误回复率和误打断率降低 50%,抢话比例相对下降 40%,并在用户犹豫思考时具备更高的包容度。


  • 环境音解析与推理: 模型可将背景环境音(如导航声、他人闲聊)纳入推理上下文,具备指向性理解能力,可主动联动环境信息进行交互,非交互意图声音的识别准确性大幅提升。


(@字节跳动 seed)




02 有亮点的产品


1、HeyGen 发布 Avatar V:基于 DiT 与流匹配实现全序列视频参考,支持动态身份建模与长参考线性扩展

HeyGen Research 发布虚拟人视频生成系统 Avatar V。该模型基于具有流匹配(Flow Matching)的 Diffusion Transformer (DiT) 架构,通过直接条件化用户参考视频的全序列 Token,实现了超高清、任意长度且具备动态行为特征的虚拟人合成。

  • 全序列视频参考(Video-Reference Conditioning):摒弃将身份压缩为低维嵌入(Bottleneck Embeddings)的传统做法,模型在每个 Transformer 层直接对参考视频的完整 Token 序列进行条件化。这种架构支持随着参考视频长度增加而获取更丰富的身份信息,且推理时无需针对特定身份进行微调

  • 稀疏参考注意力(Sparse Reference Attention):引入结构化稀疏模式,消除不必要的 Token 间交互计算,使计算复杂度随参考长度呈近乎线性(Almost Linear)增长。该技术允许模型处理数分钟长的参考素材,从而提取深层的行为特征。

  • 静态与动态身份双建模:除建模牙齿结构、皮肤纹理等静态特征外,Avatar V 专门捕捉说话节奏、微表情习惯及手势倾向等「动态身份」。通过专用的运动表示(Motion Representation)联合优化,确保生成的视频在行为习惯上与真人高度一致

  • 基于 LLM 的音频驱动引擎:语音克隆引擎由 LLM 构建,仅需 10 秒音频即可通过离散音频标记(Discrete Audio Token)预测生成匹配音色、韵律与情感的语音。音频输出直接馈入运动编码器,实现音画同步的闭环驱动。

  • 五阶段递进式训练与蒸馏:训练涵盖 T2V/A2V 预训练、身份保持 SFT、蒸馏及 RLHF。其中蒸馏阶段采用分布匹配蒸馏(DMD)三模型架构,配合 CFG 蒸馏,将推理成本降低了一个数量级;最终利用组相对策略优化(GRPO)算法完成人类偏好对齐。


参考链接:

https://www.heygen.com/research/avatar-v-model


(@joshus_xu_@X)


2、ropet 完成超千万美元 A 轮融资:AI 宠物累计销量达 2 万台,90 天留存率超 80%

图片


萌友智能(ropet)完成由北京市人工智能产业投资基金、峰瑞资本等领投的超千万美元 A 轮融资


该公司通过「去工具化」的桌面级 AI 宠物硬件切入陪伴赛道,累计出货量近 2 万台,核心用户日均开机时长超过 20 小时,验证了以「生物感」为核心的硬件留存逻辑。


其产品定价约 2000 元,核心用户 90 天留存率达 80%–90%,日均深度互动时长超 2 小时。用户分布以美、日市场为主(占比约 70%–80%),国内占比约 20%–30%。


为了避免用户将其误认为语音助手,产品砍掉了 LLM 的常规对话功能。而是基于「亲密度系统」与「性格系统」的交互逻辑(如乐天、暴躁、爱哭),通过舵机旋转速度、声音表情幅度及响应频率模拟生物反馈。


硬件支持身份识别、面部情绪感知、手势识别、触摸感应及物理震动(陀螺仪)检测。系统可识别用户喂食(图片识别)等特定交互动作并转化为养成积分。


采用「硬件 + 增值服务」模式。主机随机配件购买率达 80%–90%,后期配件(毛皮、声音包、视觉皮肤等)复购率为 30%–40%。目前已与环球影业合作上线《驯龙高手》等 IP 定制化内容。


(@极客公园)

3、商汤发布 AI 智能体机器人「可悠」:端云协同架构,响应延迟 < 3s,打通人车家跨端记忆

图片


图片


商汤推出 AI 桌面智能机器人「可悠」(KeeeU),将其定位为具身智能实体化的 AI 智能体(Agent)。该产品通过自研的生长型家庭认知记忆框架,实现了在家庭桌面、车载座舱及移动端之间的任务与记忆无缝流转,旨在建立「一个灵魂,多个载体」的跨场景交互生态。


  • 端云协同计算架构边缘端部署轻量化视觉小模型,支持 100Hz 数据采集,可实时识别 50 组 Face ID 及 16 种动作姿态;云端大模型负责复杂意图理解与任务规划,系统端到端响应延迟控制在 3000ms 以内。

  • 三层生长型记忆框架:构建了由「感知记忆」(原始交互碎片)、「事实记忆」(常识抽象)及「认知记忆」(基于推理的人物画像)组成的记忆体系,支持以智能体第一视角记录并理解用户习惯

  • 跨场景多端协同(Multi-terminal Synergy):依托智人体协同中枢与统一记忆引擎,实现任务在智能座舱、桌面机器人、手机等终端间的实时流转,解决不同物理空间下的信息断层问题。

  • Skill 框架与数据闭环:采用模块化 Skill 开发框架,支持第三方技能扩展;内置 AI Agent 数据闭环系统,可实现异常行为自动发现、归类、数据集构建及模型自动训练评估。


(@智能车参考)



03 有态度的观点

1、牛津、MIT 最新研究:用 AI 做题 10 分钟,独立解题能力就开始下滑

图片


近日,来自卡内基梅隆大学、牛津大学、MIT 及加州大学洛杉矶分校的联合团队发布了一篇最新研究成果,通过迄今最大规模的随机对照实验提供因果证据:使用 AI 辅助解题,不仅让人独立解题能力下滑,还会让人更快放弃思考


研究团队招募 1222 名参与者,分为「有 AI 辅助」与「全程独立」两组,分别完成分数计算和阅读理解任务。在最终撤走 AI 的独立测试环节,AI 辅助组的答题正确率显著低于对照组(实验一:0.57 vs 0.73)。


更关键的是,他们直接放弃作答的比例也明显更高。这意味着 AI 的影响不只是「做不对」,而是「不想做了」——动力本身被侵蚀了。研究进一步拆解了 AI 的使用方式:


61% 的参与者选择直接向 AI 索要答案,这部分人的测试成绩在所有组别中垫底,且相比自身实验前的水平出现了明显退步;而那些只向 AI 要提示、自己推导答案的参与者,则几乎未受负面影响。


换句话说,「让 AI 替你想」和「让 AI 帮你想」,结果截然不同。上述效应仅需约 10 至 15 分钟的 AI 交互即可产生。研究者给出了两个解释:


  • 一是「参照点偏移」:习惯了 AI 秒出答案后,独立思考会感觉「反常地费力」,触发放弃冲动,且这一机制会自我强化;

  • 二是「自我认知剥夺」:人只有在独立克服困难的过程中,才能建立对自身能力的准确判断,AI 把这个过程全部跳过,导致人既不积累经验,也不敢相信自己能做到。


论文明确指出,这不是「别用 AI」的呼吁,但需要引起人们的警觉:当前 AI 系统更多是针对「让用户当下满意」优化,而非「帮用户长期成长」。


研究者认为,表层干预(如限制使用时间)只是治标,真正的解法是重新设计 AI 的协作方式——像好老师一样,有时候故意不给答案。


( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    // 相关帖子
    Coming soon...
    • 0
    Seed 全双工语音大模型发布:懂倾听、抗干扰,更自然的交互丨日报RTRTE_Dev_Comm