Soul 开源实时数字人模型,0.87s 亚秒级延时;DeepL 发布 Voice API,支持实时语音到语音翻译丨日报

开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃


01 有话题的技术


1、Soul App 旗下 AI 团队开源 SoulX-FlashTalk:首个 14B 参数亚秒级实时数字人模型

Soul App AI 团队(Soul AI Lab)昨天正式开源实时数字人生成模型 SoulX-FlashTalk。该模型被描述为首个能够实现 0.87 秒亚秒级超低延时、32 FPS 高帧率,并支持超长视频稳定生成的 14B 参数级数字人模型。Soul App 方面表示,新模型不仅技术指标出色,更具备商用落地潜力,有望推动大参数量实时生成式数字人进入实际应用阶段。

SoulX-FlashTalk 通过以下四大关键指标,重塑了实时互动体验:


  • 0.87s 亚秒级延时:凭借全栈加速引擎将首帧延时降至 0.87 秒,赋予 14B 模型即时反应能力,消除滞后感,适配直播与客服等全场景。

  • 32 FPS 高帧率:模型推理吞吐量达 32 FPS,超越 25 FPS 的直播标准,兼顾高性能与画面流畅度。

  • 超长视频稳定生成:采用自纠正双向蒸馏技术与回溯机制,有效抑制身份漂移,确保长时间直播中面部、口型与背景一致。

  • 全身动作交互:突破单一“对口型”局限,支持音频驱动全身动作并消除手部畸形,在维持高身份一致性的同时实现自然动态。



在技术实现上,团队采用两阶段训练策略:先进行延迟感知时空适配,再结合 DMD 框架利用自纠正双向蒸馏进行优化。推理端则依托针对 8-H800 设计的全栈加速引擎,整合了混合序列并行、FlashAttention3 及 3D VAE 并行化技术。


根据 TalkBench-Short 和 TalkBench-Long 数据集评测,该模型在长短视频生成中均表现出优异的视觉保真度和口型同步精度。基于此,SoulX-FlashTalk 有望落地于电商直播、短视频制作、AI 教育及 NPC 交互等领域。继开源语音合成模型 SoulX-Podcast 后,该模型的发布标志着 Soul AI 在开源领域的进一步拓展。


目前,该项目的技术报告、源代码及模型权重已全面公开。


GitHub: 

https://github.com/Soul-AILab/SoulX-FlashTalk


HuggingFace: 

https://huggingface.co/Soul-AILab/SoulX-FlashTalk-14B


(@Soul 社交)



2、智谱 GLM-5、MiniMax M2.2 将至,春节成大模型发布高峰

图片


据《南华早报》报道,在春节前的最后冲刺阶段,国内多家前沿人工智能实验室正密集推出新一代大模型,试图在节日期间抢占曝光度与用户心智。


阿里与月之暗面上周率先发布 Qwen3-Max-Thinking 与 Kimi 2.5 后,智谱 AI 与 MiniMax 也被曝将于未来两周内更新旗舰模型


知情人士称,智谱 AI 计划在春节前推出 GLM-5,这是 GLM 系列的第五代迭代,预计在创意写作、编程、推理与智能 Agent 能力方面带来「全方位且显著」升级。


MiniMax 则将发布 M2.2,这是在 M2.1 基础上的小幅更新,重点强化编程能力。


与此形成对比的是,DeepSeek 今年春节档并不会推出外界期待的「大招」。


多位消息人士透露,DeepSeek 更可能只会对 V3 系列进行一次小幅更新。其下一代旗舰模型预计为万亿参数级基础模型,但由于规模膨胀导致训练速度放缓,发布时间被推迟。


此外,字节跳动也将在春节期间推出「三件套」:大语言模型 Doubao 2.0、图像生成模型 Seedream 5.0 与视频生成模型 SeedDance 2.0。阿里预计在春节期间发布旗舰模型 Qwen 3.5,重点强化复杂推理、数学与编码能力。


与此同时,春节科技巨头争夺用户的竞争已进入白热化阶段。


阿里、腾讯、百度等巨头正投入巨额资源推动 AI 应用增长:腾讯的「元宝」将发放 10 亿元数字红包,百度则通过文心 App 派发 5 亿元红包,阿里也于昨日宣布投入 30 亿元推广千问 App。


( @APPSO)



3、ElevenLabs 发布 v3 正式版:综合错误率降低 68%,实现符号与专业术语的上下文解析优化

图片


图片


ElevenLabs 宣布其最新 TTS 模型 「Eleven v3」 结束 Alpha 测试正式进入 GA 阶段。该版本重点解决了 TTS 模型在处理非标准文本(如符号、数字序列、专业术语)时的发音逻辑问题,显著提升了模型在多语言环境下的语义理解精度。


  • 大幅降低综合错误率:在涵盖 8 种语言、27 个类别的内部基准测试中,整体错误率从 15.3% 降至 4.9%,降幅达 68%;用户侧偏好度较 Alpha 版本提升 72%。

  • 精准化处理专业术语序列:针对高复杂度文本实现突破性改进,其中 ISBN 识别错误率降至 0%,化学公式与电话号码的错误率均降至 0.6%(错误缩减率达 99%)。

  • 深度优化上下文感知逻辑:模型增强了对同一符号在不同语境下的辨析能力。例如,能准确根据上下文将冒号「:」识别为体育比分(读作 「to」)、时间或比例,而非机械播报。

  • 强化数值量级与符号保护:修正了长数字序列(如电话号码与大额货币)的播报逻辑,避免了将电话号码误读为整数或在货币换算中出现量级错误(如将 250,000 误读为 25,000)。

  • 高效解析复杂非文本信息:显著提升了对 URL、电子邮件地址、地理坐标和数学表达式的解析效率,URL 错误率从 45.6% 降至 3.9%。


Eleven v3 现已在 ElevenLabs 全平台(包括网页端与 API)正式上线,支持所有订阅层级用户使用。


相关链接:

https://elevenlabs.io/v3


( @ElevenLabs Blog)



4、苹果公布 PCG 技术:质量零妥协、AI 语音生成提速 40%

科技媒体 9to5Mac 今天发布博文,报道称苹果公司携手特拉维夫大学,联合发表论文,提出名为「原则性粗粒度」(PCG)的语音生成新方法,从而解决 AI 文本转语音(TTS)技术的速度瓶颈。


目前,行业主流的语音生成多采用「自回归模型」,即通过「逐个预测」的方式,基于已有 token 预测下一个。然而,这种机制要求预测结果与预设 token 必须实现「精确匹配」,导致模型经常拒绝听感差异极小、实际完全可用的预测结果。这种严苛的验证标准直接拖慢了整体生成速度。


为了解决这一痛点,研究团队开发的 PCG 技术核心在于「求同存异」。研究人员发现,不同的声学 token 往往能产生几乎相同的听觉效果。PCG 不再将每个声音视为完全独立的个体,而是建立了「声学相似组」。只要模型生成的预测 token 落在正确的「相似组」范围内,系统即予以采纳。这种逻辑将严苛的「单点验证」升级为了容错率更高的「范围验证」。


图片


在实际运行层面,该方案采用了「投机解码」策略,构建了双模型协作架构:


  • 快速预测:由轻量级小模型先行快速「猜测」并提出候选语音 token;

  • 高效审核:由参数更大的「裁判模型」进行审核,只要候选 token 属于正确的声学组,大模型便会「放行」。



图片


这种分工在保留小模型高速度的同时,利用大模型保障了输出质量。实验数据显示,应用 PCG 技术后:


  • 性能提升:语音生成速度提升了约 40%,且并未牺牲音频质量;

  • 音质表现:在 5 分制的自然度评分中取得了 4.09 的高分;

  • 高稳定性:在极限压力测试中,即使将 91.4% 的语音 token 替换为同组其他成员,词错率仅增加 0.007,说话人相似度仅下降 0.027,人耳几乎无法察觉差异。


由于 PCG 属于「推理阶段」的优化方案,它无需对现有模型进行重新训练即可直接应用,且存储声学相似组仅需约 37MB 的额外内存。


相关链接:

https://machinelearning.apple.com/research/coarse-grained


(@IT 之家)



02 有亮点的产品


1、AI 翻译公司 DeepL 发布 Voice API:支持端到端实时音频流式翻译,同步生成 5 种语言翻译


DeepL 宣布正式上线 Voice API,支持开发者在应用程序中集成实时语音转录与翻译功能。该产品主要面向联络中心(Contact Centers)与业务流程外包(BPO)提供商,旨在通过低延迟的流式处理解决多语言语音交互的瓶颈。

  • 多路同步翻译输出:支持实时接收音频流,并在返回原语转录文本的同时,同步提供至多 5 种目标语言的翻译结果。

  • Voice-to-Voice 早期访问:同步开启为期 6 周的「语音到语音」功能内测计划(2 月中旬开始),允许接收端直接收听合成后的翻译音频。

  • 结构化合规审计支持:API 提供清晰的转录与翻译对齐文本,可直接集成至企业现有的质检(QA)、坐席评估及合规性检查流程。

  • 人力资本解耦:允许企业根据业务专长而非语言覆盖进行招聘,通过 API 实现全球 24/7 的多语言服务覆盖,降低特定语言坐席的运营成本。


相关链接:

https://www.deepl.com/zh/products/voice


( @MultiLingual)



2、语音 AI 平台 Speechify 升级 AI 助手:集成 ChatGPT 并引入 Snoop Dogg 等名人语音

图片


昨天,Speechify 宣布为其 AI 语音助手新增了名人语音选项,并同步上线了 ChatGPT 集成功能。


Speechify 的 AI 语音助手现已支持模仿 Snoop Dogg、Gwyneth Paltrow 和 MrBeast 等名人声音。几周前,Speechify 在 iOS 端推出了 Voice AI Assistant,用户可通过结合第三方模型及 Speechify 自研 AI 模型,在 iPhone 上通过多轮对话实现与文档交互、语音网络搜索,以及生成摘要、播客乃至讲座内容。


此次引入名人语音是 Speechify 推动其成为 ChatGPT、Gemini 和 Siri 之外「语音优先」替代方案的又一举措。自即日起,用户可将 Snoop Dogg、MrBeast 或 Gwyneth Paltrow 设置为 AI 助手的语音,这一功能在定制化方面领先了竞争对手一步


Speechify 首席财务官 Pankaj Agarwal 称,公司目前与 Gemini、ChatGPT 和 Grok 并列为 App Store 四大 AI 助手之一。他表示,通过与全球最具辨识度的声音建立合作关系,Speechify 将为用户带来前所未有的 AI 助手体验。


此外,Speechify 当日还正式推出了与 ChatGPT 的集成。这一系列动作反映了当前 AI 实验室和生产力平台正日益关注将语音优先交互引入日常工作流,覆盖从无障碍辅助到免提生产力的广泛场景。


相关链接:

https://speechify.com/


( @9to5mac)



03 有态度的观点 


1、iPod 之父:当爹之后重新开始审视隐私风险


据《商业内幕》报道,「iPod 之父」托尼 · 法德尔(Tony Fadell)近日在播客访谈中表示,成为父母后,他本人以及硅谷多位科技创始人对隐私问题的看法出现明显转变。


他指出,在拥有孩子之前,许多科技从业者对隐私的态度更为激进,愿意在技术创新的推动下牺牲个人数据;但在面对深度伪造、社会工程学等风险后,这种态度正在发生变化。


法德尔提到,Meta CEO 马克 · 扎克伯格、Google 联合创始人拉里 · 佩奇与谢尔盖 · 布林在成为父母后,对世界的理解方式「完全不一样」。


他表示,许多创始人如今会重新思考自己愿意交出多少数据,以及如何保护家庭与孩子的隐私


法德尔特别强调了 AI 时代的隐私挑战。


他认为,未来真正具有革命性的 AI 设备往往需要大量个人数据与实时输入,这将迫使社会与企业领导者在创新与隐私之间做出更艰难的取舍。


他透露,部分科技创始人甚至产生了「如果能重来就好了」的反思,但过去的决策已无法逆转。


与此同时,全球监管机构正加强对 AI 与隐私议题的审查。


xAI 因其模型生成未授权的真实人物(包括未成年人)性化图像而遭到多地调查;Meta 也因聊天机器人与未成年人互动方式受到质询。隐私保护与 AI 技术发展之间的张力正在加速显现。


( @APPSO)


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考​

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    // 相关帖子
    Coming soon...
    • 0
    Soul 开源实时数字人模型,0.87s 亚秒级延时;DeepL 发布 Voice API,支持实时语音到语音翻译丨日报RTRTE_Dev_Comm