创智联合 Sand.ai 开源 15B 单流音视频基座模型;Plaud 原中国 CEO 莫子皓离职创业 AI 硬件丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Mistral 发布 Small 4:一个模型整合推理、编程与多模态能力
法国 AI 公司 Mistral 近日发布新一代开源模型 Mistral Small 4,最大亮点在于将此前分散在多款旗舰产品中的三项核心能力整合进单一模型:推理、多模态理解与智能体编程,用户无需在不同专用模型之间反复切换。
架构上,该模型采用混合专家(MoE)设计,总参数量为 119B,但每个 token 的激活参数仅约 6B,上下文窗口达 256k。与上一代相比,端到端完成时间缩短约 40%,每秒处理请求量提升至原来的 3 倍。模型还引入可配置推理强度参数,用户可在轻量快速响应与深度逐步推理两种模式间灵活切换。
性能测试方面,Mistral Small 4 在代码能力、数学推理等多项基准测试中均达到或超过 GPT-OSS 120B,且输出长度明显更短。在编程基准 LiveCodeBench 上,其成绩优于 GPT-OSS 120B,输出量却减少约 20%。输出越短意味着延迟越低、推理成本越少,对企业大规模部署而言尤为关键。
模型以 Apache 2.0 协议开源,现已上线 Mistral API、Hugging Face 及主流推理框架,支持针对特定业务场景进行微调。Mistral 同时宣布作为创始成员加入 NVIDIA Nemotron 联盟,双方在推理优化层面展开合作。
参考链接:
https://mistral.ai/news/mistral-small-4
( @APPSO)
2、Seeed Studio 在嵌入式世界大会中推出 reSpeaker 麦克风阵列系列产品:将 AI 感知从概念变为现实
在 Embedded World 2026 现场,Seeed Studio 展示了其最新的边缘 AI 集成系统,核心聚焦于从单一感知识别向多模态具身智能(Embodied AI)的演进。
以下为本次展出的 reSpeaker 麦克风阵列系列产品,其作为具身 AI 的智能耳朵,重点实现了人机之间自然、实时的交互。
核心硬件与音频处理管线
该系统采用 reSpeaker XMOS XVF3800 4 麦克风阵列作为物理层核心,实现远场语音捕获。其板载处理能力集成了以下关键算法:
AEC (回声消除):消除设备自身播放声。
Beamforming (波束成形):精确锁定声源方向。
Noise Suppression (噪声抑制):滤除环境背景干扰。
实时交互与 API 架构
系统通过 Agora Conversational AI API 接入实时对话智能。区别于传统的单向指令识别,该架构支持:
全双工对话:支持实时、连续的语音流交互。
意图驱动触发:解析自然语言语义,直接映射至物理世界的硬件动作执行。
该方案将 Vision AI 与 Voice AI 整合为多模态感知系统,采用生产级(Production-ready)模块化硬件,主要针对受监管行业和复杂物理环境,提供从数字智能到物理执行的标准化接口。
参考链接:
https://www.seeedstudio.com/blog/2026/03/20/vision-ai-voice-ai-at-embedded-world-2026-bringing-ai-sensing-from-concept-to-reality/
( @seeedstudio@X)
3、Scale AI 发布 Voice Showdown 语音模型真实场景基准测试
Scale AI 正式发布了名为 Voice Showdown 的全球首个基于人类真实偏好的语音 AI 基准测试,旨在解决传统基准测试依赖合成语音及静态脚本而脱离现实场景的问题。该测试依托于 Scale AI 的 ChatLab 平台,通过 60 多种语言、数千次包含背景噪声和口音的真实对话,生成了反映模型在复杂环境下表现的 Elo 排名。
截至 2026 年 3 月 18 日的榜单显示,在「语音转文本(Dictate)」模式下,Google 的 Gemini 3 Pro 与 Gemini 3 Flash 以超过 1070 的评分并列榜首;而在更复杂的「语音转语音(S2S)」模式中,经消除回复长度和格式偏见后的加权统计显示,GPT-4o Audio(1102 Elo)与 Grok Voice(1093 Elo)表现最为出色,位居前二。
该测试揭示了当前顶尖模型在多语言环境和长对话中的技术瓶颈。
数据显示,GPT Realtime 1.5在处理非英语指令时,有约 20% 的概率会因理解失效而强制切换回英语回复;而即使是性能最强的模型,其表现也会随对话轮次增加而显著衰减:第 11 轮后的内容质量故障率从初期的 23% 飙升至 43%。
此外,Voice Showdown 引入了「激励对齐投票」机制,用户在盲测中选择胜出的模型后,系统会自动将其后续对话切换至该模型,从而利用使用成本确保投票的真实性。
目前,Voice Showdown 已覆盖 11 款前沿模型,并计划下一步推出针对实时打断、多向交互的 Full Duplex(全双工) 评测模式。
对于开发者而言,该平台不仅提供了高密度的失效诊断数据(如音频理解、内容逻辑、语音表现三大维度的故障分布),还通过 ChatLab 开放了免费调用 GPT-4o、Gemini 等闭源模型名额,以换取真实场景下的偏好数据。
( @venturebeat.com)
4、创智刘鹏飞、Sand.ai 曹越团队联手,开源音视频基座模型 daVinci-MagiHuman
视频生成已成为当前生成式 AI 最前沿的方向,但在音视频联合同步生成领域,开源界仍面临音视频不同步,架构设计复杂、生成速度慢这三重局限。
由上海创智学院(SII)生成式人工智能研究实验室(GAIR)与 Sand.ai 联合研发的 daVinci-MagiHuman 正式开源发布,打破了开源界的这三重局限。
作为演绎级人像音视频的开源基座模型,daVinci-MagiHuman 以 150 亿参数的单流 Transformer 为核心,实现了文本、视频、音频在统一骨干网络下的联合建模,彻底告别了跨注意力和模态专属分支。
与许多依赖多流结构、跨注意力模块或模态专用融合分支的方案不同,daVinci-MagiHuman 采用了更为简洁的单流 Transformer 架构,以 150 亿参数的统一骨干网络联合建模文本、视频与音频三种模态,彻底告别跨注意力和模态专属分支。这一设计不仅降低了系统复杂度,也让训练与推理优化更加直接、统一。
在能力上,daVinci-MagiHuman 尤其擅长以人物为中心的生成任务,能够生成富有表现力的面部表情与自然语音,并实现精确的音视频同步,覆盖语音与口型协调、表情驱动、动作表现等场景。同时,模型具备较强的多语言泛化能力,支持中文(普通话与粤语)、英文、日文、韩文、德文、法文等多种语言的音视频生成。
在推理效率方面,daVinci-MagiHuman 结合单流骨干网络、隐空间超分辨率与 Turbo VAE 解码器,在单张 H100 上仅需 2 秒即可生成 5 秒 256p 视频。在与 LTX-2.3、Ovi 1.1 的全面对比中,daVinci-MagiHuman 在成对人工评测中取得了 70.5%的综合胜率,在客观基准上同样展现出领先表现。
(@机器之心)
02 有亮点的产品
1、腾讯 AI Lab 撤销,部分人员并入混元
腾讯 TEG 技术工程事业群组织架构发生了部分调整,AI Lab 被撤销,蒋杰不再担任 AI Lab 主任,但其他管理职责不变。
此次调整过后,原 AI Lab 部分人员调整至混元团队向姚顺雨汇报。产学研合作中心保留。多模态部负责人向 TEG 总裁卢山汇报。
腾讯 AI Lab 是腾讯的企业级 AI 实验室,其基础研究方向包括计算机视觉、语音技术、自然语言处理和机器学习。
不过,不同于只专注技术的实验室,腾讯 AI Lab 里面是自带应用的。应用探索结合了腾讯场景与业务优势,聚焦于游戏、数字人、内容和社交 AI 四类,技术已被微信、QQ、天天快报和 QQ 音乐等上百个腾讯产品使用,并探索 AI 与生命科学、医疗、农业、工业等行业的创新结合。
腾讯 AI Lab 在决策智能领域一度处于国际领先地位,最知名的成果之一是策略协作型 AI「绝悟」。通过在《王者荣耀》等复杂环境中的深度学习,AI 展现出了超越人类职业选手的决策与协作能力,这不仅推动了游戏工业化的进程,也为现实世界的复杂决策提供了模拟参考。
此外,实验室还积极探索了 AI 在生命科学领域的应用。
过去十年,腾讯 AI Lab 曾吸引了多位在全球人工智能领域具有深远影响力的顶级科学家,包括 2016 年牵头筹建 AI Lab 的姚星、2017 年被任命为 AI Lab 第一负责人的张潼、负责腾讯西雅图 AI 实验室的俞栋、长期兼任 AI Lab 和 Robotics X 机器人实验室主任的张正友等。
2019 年,张潼从腾讯 AI Lab 离职,返港任教。2025 年底,俞栋离职。
在 2024 年 6 月的组织调整中,张正友卸任腾讯 AI Lab 主任一职,由腾讯集团副总裁蒋杰接任,但他继续担任腾讯 Robotics X 实验室主任。
(@机器之心)
2、Plaud 中国区 CEO 莫子皓离职,瞄准 AI 硬件创业
获悉,Plaud AI 产研负责人兼中国区 CEO 莫子皓已于近期离职,知情人士透露其或将投身 AI 硬件创业。
2025 年 5 月 6 日,莫子皓正式加入 Plaud,出任合伙人兼中国区 CEO。此时 Plaud 已在海外市场验证成功——累计销量破百万台、ARR 达 2.5 亿美元。在职期间,莫子皓负责整个全球市场的大模型产研,中国区市场、业务、技术团队的组建,以及商业化和用户增长。
莫子皓离职之际,Plaud 正处于全球化扩张的关键窗口。
2025 年 9 月正式进入中国内地市场,标志着 Plaud 全球战略的进一步完善。但挑战也随之而来。国内市场上,钉钉 DingTalk A1、出门问问 TicNote、安克录音豆等产品加速布局,AI 录音笔赛道竞争白热化。如何在「AI 纪要」之上构建更深护城河,是 Plaud 中国团队面临的核心课题。
AI 硬件/Agent 赛道正处于爆发前夜。莫子皓的创业项目虽尚未曝光,但结合其在 Plaud 的 AI 硬件经验、百川智能的大模型落地背景,以及「工作流智能化」的一贯追求,创业方向或将瞄准提升效率的 AI 硬件工具。
(@鲸犀)
03 有态度的观点
1、陶哲轩:AI 已将科学想法生成的成本降至接近零
知名数学家陶哲轩公开表示,AI 技术已将科学想法生成的成本降至接近零,并使得理论验证与评估成为当前数学研究的新瓶颈。
陶哲轩将 AI 对数学界的影响比作汽车对城市发展的冲击。
其认为,现有的学术期刊与会议等基础设施是为人类建立的,人类寻找证明的过程虽然较慢,但能产生积累专业知识、探索新方向等有价值的副产品。相比之下,AI 辅助证明虽能高效地从假设推导至结果,却缺失了传统期刊所需的证明路径与逻辑叙事。
陶哲轩在强调,AI 驱动下生成科学假设的成本已趋近于零,这与互联网大幅降低通信成本的轨迹相似。
他明确表示,这导致科学研究的瓶颈发生实质性转移:由于现在面对单一科学问题即可瞬间生成数以千计的理论,学术界当前的核心挑战已从「提出理论」转向「验证与评估海量理论」。
针对这一技术演进带来的结构性矛盾,陶哲轩认为学术界不应该将 AI 强行塞入现有的学术评价体系,而是转向构建面向机器的全新数学基础设施。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考