Fish Audio 开源 S2:支持多角色多轮对话和长上下文推理;Hume AI 开源新语音模型:超低延迟零幻觉率丨日报

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃


01 有话题的技术

1、杨立昆创办,世界模型公司 AMI 完成超 10 亿美元融资

图片


3 月 10 日,世界模型研究所/创业公司 AMI 已完成 10.3 亿美元融资,投前估值 35 亿美元


该公司由图灵奖得主、前 Meta 首席 AI 科学家杨立昆 (Yann LeCun) 创办


据悉,AMI  全称 Advanced Machine Intelligence「先进机器智能」,以世界模型 (world models) 为主要研发方向,力求开发出能够从真实世界中学习抽象表征的世界模型。


AMI 本轮融资得到了多个极为重要的投资方支持:


  • 本轮融资凯辉创新、Greycroft、Hiro Capital、HV Capital、贝索斯远征共同领投;

  • 战略投资人当中包括英伟达、丰田创投、淡马锡、软银、马克·库班、穆里耶家族等;

  • 跟投方包括埃里克·施密特、阳狮集团、三星、蒂姆·博纳斯·李等。


值得一提的是:谢赛宁,AI 基础研究方面的顶级专家,也是杨立昆的老朋友、学校同事,已经正式加入了 AMI 担任首席科学官。


根据融资纪要,AMI 本轮融资将用于支持长期科研、全球范围招聘工作,以及世界模型方向上的可靠产品。


(@APPSO)


2、Hume AI 开源 TADA:基于文本-声学双向对齐架构的实时语音合成模型,超低延迟零幻觉率


Hume AI 正式开源 TADA (Text-Acoustic Dual Alignment),核心突破在于通过一种新型 Tokenization 方案实现了文本与音频符号的 1:1 同步对齐。该架构解决了传统 LLM-based TTS 系统中音频 Token 数量远超文本 Token 导致的上下文窗口耗尽与幻觉问题,其轻量化特征支持在移动端及边缘设备实现低延迟的非云端部署。


核心技术参数与性能指标


  • 同步机制:采用单文本 Token 对应单连续声学向量的流式处理,使每秒音频仅需 2-3 个帧(Tokens)处理,远低于同类系统的 12.5-75 Tokens。


图片


  • 推理速度:实时率(RTF)达到 0.09,较同级别 LLM-based TTS 提升 5 倍以上。


图片


  • 可靠性:通过物理架构强制映射,在 LibriTTSR 测试集中幻觉率(CER > 0.15)为 0

  • 上下文效率:在 2048 Token 窗口内可容纳约 700 秒音频,处理效率较传统方案提升 10 倍。

  • 生成质量:基于 Flow-matching 头部生成声学特征,说话人相似度 4.18/5.0,自然度 3.78/5.0


在工程实践中,TADA 的轻量化架构使其能够脱离云端 API 依赖,直接在终端设备运行,极大降低了推理成本并提升了隐私性;同时,其极高的内容一致性使其适用于医疗、金融等对「幻觉」零容忍的严苛场景。


但开发者仍需注意,目前开源的模型主要针对语音续写(Speech Continuation)场景,若应用于智能助手则需进行下游微调,且在处理超过 10 分钟的长文本时,建议通过重置上下文来规避潜在的音色漂移(Speaker Drift)问题。


Huggingface 链接:

https://huggingface.co/collections/HumeAI/tada


Blog 链接:

https://www.hume.ai/blog/opensource-tada


( @hume_ai@X)


3、Fish Audio 开源 S2:Dual-AR 架构实现 <100ms 延迟与多角色长语音生成

Fish Audio 正式开源 S2 文本转语音模型,基于 4.4B 参数的双自回归(Dual-AR)架构与 1000 万小时音频数据。该模型实现了生产级的低延迟流式推理,并支持通过自然语言标签进行词级情感控制,以及多角色、跨段落的长音频生成。

图片


  • 自然语言精细化行内控制:支持在文本中嵌入自由格式的指令标签(如 [astonished][voice up]),实现词级的音调、情感和语速控制。在 EmergentTTS-Eval 中,副语言控制胜率达 91.61%,优于 GPT-4o-mini-tts。

  • 多角色多轮对话支持:通过 <speaker:0><speaker:1> 等标签语法,支持一键生成复杂的多人对话。系统支持多 Prompt 音频输入,可快速完成多音色的克隆与切换。

  • 高效率流式推理性能:实测首包延迟(TTFT)小于 100ms,实时因子(RTF)低于 0.195。在单张 NVIDIA H200 上,系统可在维持 RTF < 0.5 的前提下,实现每秒 3000+ 声学 token 的吞吐量。

  • 长文本上下文推理稳定性:支持长上下文推理(Long Context Inference),确保在生成跨段落的长文本故事或演讲时,音色与语气保持一致,避免传统 TTS 模型在长序列下的质量衰减。

  • Dual-AR 非对称架构优化:采用 4B 参数的 Slow AR 处理语义 codebook,400M 参数的 Fast AR 处理残差声学细节。该设计与标准 LLM 同构,可无缝利用 SGLang 的连续批处理、RadixAttention(前缀缓存命中率达 86.4%)等优化手段。


模型权重、微调代码及 SGLang 推理栈已在 GitHub 和 Hugging Face 开源;S2 Pro 版本已在官方平台上线。


GitHub:

https://github.com/fishaudio/fish-speech/


HF:

https://huggingface.co/fishaudio/s2-pro


官网 blog:

https://fish.audio/zh-CN/blog/fish-audio-open-sources-s2/


信息来源

(@Fish Audio Blog)

(@Fish Audio Blog / arXiv:2603.08823)


图片


GitHub 链接:

https://github.com/fishaudio/fish-speech/?tab=License-1-ov-file#readme


( @FishAudio@X)



02 有亮点的产品


1、「幕间」连续完成两轮千万美元融资,用「世界模拟器」突围 AI 娱乐

图片


AI 互动娱乐平台「幕间」已于近期连续完成两轮融资,累计融资金额达千万美元。两轮融资分别由锦秋基金、云九资本领投,包括前网易副总裁少云、原沐瞳 CEO 袁菁(Justin)在内的多位游戏行业资深人士跟投。


创始人 Roi 曾任职于乐元素、莉莉丝;随后进入字节跳动教育线,负责游戏化产品设计。在创办「幕间」之前,她的身份是 LiblibAI 的联合创始人及产品负责人。在那里,她亲历了 AI 工具从 0 到 1 的爆发与激烈的算力补贴战,并主导开发了早期的 AI 自由画布设计工具。


她认为,做「幕间」是对 AI 如何服务于人类娱乐进一步思考后做出的选择


离开 LiblibAI 后,Roi 希望通过「幕间」,以一个更具感性色彩与想象力的方式切入人类与 AI 之间的互动关系:基于 UGC 的 AI 模拟器平台。有些类似刚获得 1 亿美元融资、基于「斯坦福小镇」逻辑的社交沙盒 Simile,让用户作为「上帝」观察 Agent 在系统规则下的自主演化。


用一种更好理解的方式来解释「幕间」到底是什么,可以说,它并非传统意义上的游戏,更像是一个集成密室、剧本杀、短剧、游戏的线上综合游乐园。平台上的创作者通过使用提供的 AI 制作工具创造不同的世界,用户通过平台选择、进入、并沉浸其中。较传统游戏来说,「幕间」更轻量、更碎片,也更强调完全个性化的反馈。


「和 AI 聊天久了会乏味,而互动剧、互动小说的选项又太过单调。」因此,她希望打造一个人类与 AI 新的互动娱乐系统。


最出乎 Roi 意料的是,平台很快凝聚起来的、最核心的一批创作者并非专业游戏从业者或程序员,竟然多是来自一二线城市的「00 后」女生。与此同时,这些创作者也是玩家。


为了能够凝聚这群创作动力蓬勃的核心资产,「幕间」为这些创作者提供了一整套工具链,使其能像搭建乐高积木一样搭建 Agent:用户可以基于 Producer Agent,通过组合导演、玩法、交互等多种 Skills 构建高可玩性的系统。同时,幕间为 Agent 提供了多模态渲染、MJV 变量、跨端的 LUI、Cloud Identity 等工具,让 Agent 可以创造出惊艳的多模态体验和易用的交互方式。


在即将到来的 3 月中下旬,「幕间」计划开启更大规模的测试和模拟器开发大赛,世界模拟器的「品类」也将拓宽至修仙、职场、历史演化等更广泛的领域。


(@锦秋集)


2、Intercom 融资 2.5 亿美元发力「客户智能体」:基于自有模型与服务栈的架构演进

图片


Intercom 宣布通过 Hercules Capital 完成 2.5 亿美元债务融资。此轮资金将专项用于研发其下一代 Customer Agent(客户智能体),旨在将 AI 从单一的 FAQ 检索工具升级为具备销售、顾问及专家职能的端到端业务模块。


技术差异化与工程路径


  • 垂直领域大模型 (Proprietary AI):不同于依赖通用底座的竞争对手,其智能体运行在基于数十亿级专有客户体验数据训练的自有模型之上。该模型由其 60 人规模的 AI 实验室开发,针对客服场景的响应精度与业务对齐进行了深度优化。

  • 产品形态:平台化而非顾问模式:区别于传统的交付型服务,提供标准化、自助化的 Purpose-built Platform。支持企业自主管理 Agent 逻辑,通过 API 与现有服务栈(如 Zendesk、Service Cloud 等)或原生 Intercom + Fin 组合进行深度集成。

  • 新型对话范式:引入全新的交互逻辑,支持智能体记忆用户全生命周期的上下文,实现从简单的「单次交互」向长程业务逻辑处理的跨越。

  • 业务闭环能力:支持智能体执行复杂动作,如 Pipeline 自动生成。目前已有企业通过该系统实现数千万美元规模的销售增量。


Intercom 正通过「自有数据+自有模型+自有 Help Desk 栈」的垂直集成,试图建立起相对于基于 OpenAI/Anthropic 开发的薄层 Agent 的技术壁垒。


据悉,该项投资将直接对标初创公司数亿美元级的研发投入,重点攻关「Customer Agent」在复杂决策、多轮对话稳定性及业务自动化方面的能力。


( @egohan@X)


3、Dify 完成 3000 万美元 Pre-A 轮融资:加速生产级 Agentic Workflow 平台建设

图片


开源 AI 应用开发平台 Dify 宣布完成 3000 万美元 Pre-A 轮融资,由红杉领投,GL Ventures、Alt-Alpha Capital(Bessemer Venture Partners 新孵化基金)、五源资本、瑞穗力合投资和 NYX Ventures 跟投。


作为目前 GitHub 星标排名第 51 位的开源项目,Dify 已在全球超过 140 万台机器上运行,核心定位于模型层与业务系统之间的「逻辑层」,提供可视化编排与生产级基础设施


本轮融资将专项用于提升 Agentic Workflow 的生产可靠性,重点优化构建块(Building Blocks)的可预测性及长链路调试机制。研发方向涵盖企业级基础能力的强化,包括高并发性能调优、合规性审计及精细化权限控制。


同时,Dify 将进一步降低构建门槛,使非开发背景的领域专家能直接编排业务逻辑,并持续扩展插件、连接器及社区模版生态。


( @Dify)



03 有态度的观点 


1、黄仁勋:AI 与电力一样同等重要

图片


昨天,英伟达公布了 CEO 黄仁勋发表署名文章提出 AI 「五层蛋糕」架构模型,并明确将 AI 定性为与电力同等重要的现代基础设施。


黄仁勋在文章中指出,计算技术正从传统的预制软件向实时生成的智能转变,这种底层逻辑的演进要求整个计算架构进行彻底重构。他将工业视角的 AI 架构自下而上拆解为五个层级:能源、芯片、基础设施、模型与应用。


文中强调,能源是制约智能系统产出规模的首要瓶颈;芯片层决定了 AI 的扩展速度与效率;基础设施层表现为旨在「制造智能」的 AI 工厂;模型层正从语言扩展至生物化学、物理模拟等前沿领域;顶层的应用层(如自动驾驶、人形机器人)则负责创造经济价值。


这五个层级相互强化,任何顶层应用的成功都会对底层设备与能源产生强烈的需求拉动。


在行业动向层面,该文章肯定了开源模型对激活全栈算力需求的关键作用。黄仁勋以 DeepSeek-R1 为例指出,高性能推理模型的广泛开放直接加速了应用层的普及,并逆向带动了底层训练、算力设施及能源的规模化增长。


(@APPSO)



04 社区黑板报 


招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)


1、Physical AI 系列活动硅谷站!探讨和上手全模态与硬件智能丨 Meetup+Workshop,3 月 19 日

湾区硅谷的开发者和创业者们,3 月 19 日见!


GTC 期间,来一场动脑又动手的 Physical AI 全天候嘉年华!同一场地,两场硬核活动无缝衔接:


上午 09:30|Meetup:对话真实世界


Agora | RiseLink | MiniMax | HumanTouch | EverMind | Resonance Ventures 等大咖齐聚,拆解全模态与端侧智能的机会与未来。


图片


下午 13:30|Workshop:手搓语音 AI 硬件


基于 TEN 框架,实操接通语音 AI Agent。重点来了现场备有 40 套 Agora R1 开发板,代码跑通直接把硬件带回家!


图片


上下午活动需分开独立报名,名额有限,拼手速:


上午 Meetup 报名:

https://luma.com/8we6qyma


下午 Workshop 报名:

https://luma.com/onc0xr9y


地点:

Sunnyvale (审核后发具体定位)


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Fish Audio 开源 S2:支持多角色多轮对话和长上下文推理;Hume AI 开源新语音模型:超低延迟零幻觉率丨日报RTRTE_Dev_Comm