Soul AI Lab 开源全双工语音对话控制模块 SoulX-Duplug;英伟达推出端到端实时全双工语音模型丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃

01 有话题的技术


1、Soul AI Lab 联合上交、西工大开源全双工语音对话控制模块 SoulX-Duplug

近日,Soul App AI 团队(Soul AI Lab)联合上海交通大学 X-LANCE Lab 和西北工业大学 ASLP@NPU 团队,正式开源 SoulX-Duplug —— 一款面向全双工语音对话系统(Full-Duplex Spoken Dialogue System) 的即插即用流式状态预测模块


与传统基于多模块级联的全双工语音系统不同,SoulX-Duplug 在单一模型框架中同时完成:


  • 语音活动检测(VAD)

  • 流式语音识别(ASR)

  • 对话状态预测(Dialogue State Prediction)


通过统一建模这些任务,SoulX-Duplug 能够在持续音频输入的情况下实时理解用户语音内容,并动态预测对话交互状态,从而实现更自然的全双工语音互动。


总体架构上,SoulX-Duplug 采用 GLM-4-Voice speech tokenizer 以 12.5Hz 的频率提取离散语音 token,取 160ms  (2 token)  的处理窗口流式交替生成语音识别文本与对话状态 token。这种设计使模型能够通过语音识别理解语义并判断当前对话状态,从而实现低延迟的交互控制


SoulX-Duplug 旨在解决当前语音对话系统中 实时交互能力不足、系统响应延迟高、模块耦合严重 等问题。通过将 语音活动检测(VAD)、语音识别(ASR)与对话轮次判断(Turn Detection)统一建模,SoulX-Duplug 可以帮助传统的半双工语音系统在 无需修改原有模型架构的情况下,快速获得全双工语音交互能力。


项目还开源了 SoulX-Duplug-Eval,一个面向全双工语音对话系统的双语评测基准,以促进该领域更标准化和可比较的研究。


GitHub 链接:

https://github.com/Soul-AILab/SoulX-Duplug


HuggingFace 链接: 

https://huggingface.co/Soul-AILab/SoulX-Duplug-0.6B


(@WeNet 开源社区)


2、OpenAI 发布「最强小模型」GPT-5.4 mini 与 nano

图片


今天,OpenAI 正式发布了 GPT-5.4 mini 与 GPT-5.4 nano 两款新模型,官方称其为「迄今为止能力最强的小型模型」。这两款模型将 GPT-5.4 的核心能力引入更轻量的架构,专为高吞吐量、对延迟敏感的工作负载而设计。


  • GPT-5.4 mini 在代码编写、推理、多模态理解及工具调用方面均较 GPT-5 mini 有显著提升,运行速度提升超过 2 倍。在多项基准测试中,其表现已接近体量更大的旗舰模型 GPT-5.4;

  • GPT-5.4 nano 则是 GPT-5.4 系列中最轻量、速度最快的版本,定位于分类、数据提取、内容排序以及处理简单辅助任务的子智能体场景。


定价方面,GPT-5.4 mini 的 API 定价为每 100 万输入 token 0.75 美元、每 100 万输出 token 4.50 美元,上下文窗口为 400K。相比之下,GPT-5.4 的定价为每 100 万输入 token 2.50 美元、输出 15.00 美元,成本差距悬殊。


GPT-5.4 nano 仅面向 API 用户开放,定价更低,每 100 万输入 token 0.20 美元,每 100 万输出 token 1.25 美元。


(@APPSO)


3、英伟达推出 120 亿参数 Nemotron 3 VoiceChat 语音模型

图片


NVIDIA 宣布推出 Nemotron 3 VoiceChat 抢先体验计划,这是一个拥有 120 亿(12B) 参数的端到端实时全双工语音转语音模型。


该模型采用混合Mamba/Transformer 架构,结合了快速 Conformer 语音编码器、Nemotron Nano V2 9B LLM 骨干网络以及 NVIDIA TTS 解码器,支持基于 NVIDIA PersonaPlex 的文本角色提示来控制 Agent 人设。


目前,合格开发者可以通过 NGC 获取该模型、参考部署容器及微调指南,用于评估和构建特定领域的全双工语音 Agent。


相关资料链接:


https://developer.nvidia.com/nemotron-voicechat-early-access


https://registry.ngc.nvidia.com/orgs/nim/teams/nvidia/models/nemotron-voicechat


https://build.nvidia.com/nvidia/nemotron-voicechat


(@橘鸦 Juya)


4、统一多模态生成编辑模型 DeepGen 1.0:5B 参数 +4060Ti,10 秒出图,全流程开源可复现

图片


近日,来自上海创智学院、复旦大学和中国科大等机构的研究团队联合发布了统一多模态生成编辑模型 DeepGen 1.0


5B 参数(3B VLM + 2B DiT)同时集成图像生成、图像编辑、推理生成、推理编辑和文字渲染五大能力。


社区实测 4060ti 16G 上仅需 10s 出图,多项质量指标超越大 4 倍的工业级生成模型。


更值得关注的是 DeepGen 1.0 的轻量化优势。仅 5B 参数的模型在一张家用级 4060ti 16G 上就能在 10 秒内完成出图,填补了」小模型、强能力」的空白,让高质量图像生成不再是 GPU 集群的专属。这种极低的部署门槛,为端侧设备的轻量部署和实时生成打开了可能。


DeepGen 1.0 的开源,补全了统一多模态生成编辑模型的开源版图,未来团队还将持续迭代,推动这一领域走向开源共创。


(@量子位)



02 有亮点的产品

1、清华开源教育龙虾 OpenMAIC,沉浸式互动课堂,运行成本仅为传统的千分之一

由清华开源的 OpenMAIC 平台,能把任何主题或文档转化成完整的互动课堂,包含幻灯片讲解、测验、交互模拟实验和项目制学习活动。AI 教师配合语音讲解和白板绘图,AI 同学还会主动发起讨论。


输入你想学的内容,比如从零学 Python,30 分钟写出第一个程序,或者上传一份 PDF 文档,平台会在几分钟内自动构建出一套完整的互动课堂。


图片


背后运行的是一套两阶段流水线。


第一阶段,AI 分析你的输入,生成结构化的课堂大纲。


第二阶段,每个大纲条目被转化为丰富的场景,包括幻灯片、测验、交互模块或项目制学习活动。


整个过程中你不需要做任何额外的配置,AI 会自动完成内容组织和教学设计。


其创新在于多智能体协作引擎


课堂里不只有一位 AI 老师,还有 AI 助教和 AI 同学,每个角色都有独立的职责和行为模式。这种设计打破了传统在线教育单一信息流的局限,让学习过程更加立体。


语音讲解由 TTS 技术驱动,支持多种语音服务商和自定义音色,你可以选择喜欢的声音风格。


整个多智能体系统通过 LangGraph 进行流程管理,支持接入 Qwen、GLM、OpenAI 等多种大模型担任不同角色。


平台还支持网络搜索功能,智能体能在课堂中实时获取最新信息,确保教学内容的时效性。


这套系统被称为国内首个 L4 级 AI 课堂,运行成本仅为传统 MOOC(Massive Open Online Courses,大规模开放在线课程)的千分之一。


GitHub 链接:

https://github.com/THU-MAIC/OpenMAIC


(@AIGC 社区)


2、软硬一体化演进:钉钉发布「悟空」AI 原生工作平台与配套硬件

钉钉正式推出首个以企业智能体为核心的 AI 原生工作平台「悟空(WuKong)」。该平台通过将钉钉全系能力(文档、审批、日程等)全面 CLI 化(命令行界面化),放弃了低效的「视觉模拟点击」,实现 AI 对业务流程的原生指令级调用。配合新发布的 Realbox 等硬件,悟空构建了「本地执行 + 远程可控」的 Agent 工作架构,支持通过手机远程唤起本地环境完成复杂工作流。


为了支撑这一套复杂的 AI 工作流,钉钉同步推出了多款深度耦合的 AI 原生硬件,将悟空的能力从云端延伸至物理空间与私有算力池:


核心硬件 Realbox(Real AI 硬件) 充当了悟空的「实体大脑壳」。


图片


单台 Realbox 内置了 1 个 PC 环境与 5 个手机环境,它通过硬件虚拟化技术,为企业提供了专属的算力沙箱。这意味着悟空不再依赖于用户个人的电脑开机状态,而是运行在 Realbox 集群中,支持多人并发和多任务并行,将 AI 算力变成了像水电一样的企业基础设施。


而在交互感知层面,DingTalk A1 Pro 录音卡和 Cleer H1 AI 耳机 则充当了悟空的「耳朵」。


图片
图片


A1 Pro 通过多麦克风阵列确保高保真拾音,将线下会议实时转化为结构化数据接入悟空的处理流;H1 耳机则实现了「语音直达」,用户无需打开屏幕即可随时向悟空下达指令。这三款硬件与悟空通过全新的 AI 原生文件系统 Realdoc 紧密相连,Realdoc 支持按行定位的精准修改与自动化版本 Diff 审计,不仅大幅压缩了 Token 消耗,更解决了企业级应用最核心的安全与归宿问题。


( @APPSO)




03 有态度的观点


1、 Netflix 联席 CEO:AI 不能只让影视「更便宜」,必须让内容「更好」才有意义

图片


据《商业内幕》报道,Netflix 联席 CEO Ted Sarandos 近日在接受 POLITICO 采访时表示,AI 对影视行业的真正价值并不在于降低成本或加快生产速度,而在于能否切实提升内容质量


更快更便宜,如果做出来的东西没有更好,那就毫无意义......现在是媒体史上竞争最激烈的时期,每一次出手都必须比上一次更好。


Sarandos 将 AI 定位为「创作者的工具」,类比于影视制作工具长期以来的技术演进。他强调,优质内容的产出依然离不开编剧、演员和灯光技师等人类创作者,AI 的角色是辅助而非取代。


在配音领域,Sarandos 明确指出 AI 目前仍无法替代人类演员


配音最重要的部分是表演,而表演是极具人类属性的能力。用 AI 配音确实便宜得多,但没有表演质感,反而会拉低整部作品的品质。


不过他同时看到了 AI 在该领域的务实应用空间——利用 AI 技术在拍摄结束数月后补录台词,无需召回全体演员重新录制,从而提升后期制作的灵活性与最终质量


( @APPSO)



04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)


1、OPENCLAW 二番战-创意实验场,3.20 周五晚·中关村见!

3.20 周五晚·中关村

OPENCLAW 二番战-创意实验场

60 分钟现场挑战秒搭应用

赢取 2000 元养虾基金/投资人午餐/实习 offer

报名方式:扫描图中二维码


图片


图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考​

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Soul AI Lab 开源全双工语音对话控制模块 SoulX-Duplug;英伟达推出端到端实时全双工语音模型丨日报RTRTE_Dev_Comm