小红书开源 FireRedTTS-2;全栈开源应用+嵌入式+电路设计:BUDDIE AI 语音交互方案丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、小红书 FireRedTeam 开源 FireRedTTS-2:革新长对话语音合成,实现超低延迟多语言智能对话
「FireRedTTS-2」是一款面向多说话者对话生成的长篇流式文本转语音(TTS)系统,旨在提供稳定、自然的语音输出,同时实现可靠的说话人切换和语境感知的韵律。该系统在支持多语言、实现超低延迟方面取得了显著突破,使其成为长对话、实时交互场景的理想选择,推动了语音合成技术在复杂对话环境中的应用。
关键亮点:
长对话语音生成能力: 「FireRedTTS-2」目前已支持生成长达 3 分钟的四说话者对话,并通过扩展训练语料可轻松扩展至更长、更多说话者的对话场景,满足复杂、长时间交互的需求。
广泛的多语言支持: 该系统支持包括英语、中文、日语、韩语、法语、德语和俄语在内的多种语言。同时,它还支持零样本(zero-shot)语音克隆,可应用于跨语言及语码转换(code-switching)场景。
超低延迟流式生成: 基于新型 12.5Hz 流式语音分词器和双 Transformer 架构,「FireRedTTS-2」实现了灵活的逐句生成,显著降低了首包延迟。在 L20 GPU 上,其首包延迟可低至 140ms,同时保持高质量音频输出。
卓越的稳定性与音质: 在独白和对话测试中,「FireRedTTS-2」均展现出高相似度、低词错误率(WER)/字符错误率(CER)的强大稳定性,确保了生成语音的清晰度和自然度。
随机音色生成功能: 提供随机音色生成能力,这对于创建大量多样化的自动语音识别(ASR)或语音交互训练数据,具有极高的实用价值。
GitHub:
https://github.com/FireRedTeam/FireRedTTS2
相关链接:
https://huggingface.co/FireRedTeam/FireRedTTS2(@GitHub@FireRedTeam)
2、ComfyUI 集成 Stable Audio 2.5:解锁企业级多模态音频生成新范式
ComfyUI 近日宣布,正式为 Stability AI 的「Stable Audio 2.5」提供 API 支持。作为首个专为大规模企业级声音制作设计的音频生成模型,「Stable Audio 2.5」在生成质量、速度和控制方面实现了显著提升,并确保商业安全。此次集成使其能够深度融入 ComfyUI 的多模态工作流,为广告、游戏、电影等专业领域带来前所未有的定制化音频创作潜力。
关键亮点
极速生成长音频: 「Stable Audio 2.5」仅需 3 秒即可生成长达 2 分钟的音频曲目,大幅提升了音频内容创作的效率。
智能结构与多声部: 模型支持更丰富的多声部结构,包含清晰的前奏、发展和结尾,能够生成更具艺术性和智能构图的音乐作品。
音频修复与扩展: 用户可以上传自己的音频剪辑,模型能够无缝地进行扩展或重新混合,为创意迭代和未完成作品的完善提供强大工具。
商业用途安全保障: 「Stable Audio 2.5」基于完全许可的数据集进行专业用途训练,确保其生成的所有音频均可安全用于商业和专业项目。
ComfyUI 多模态集成: 通过在 ComfyUI 中将音频与图像、视频、文本管道相结合,创作者能够构建真正集成的多模态体验,将定制声音直接嵌入到广告、游戏、电影和沉浸式品牌体验等工作流程中。
用户现已可通过更新 ComfyUI 至最新版本,并搜索「Stability AI audio」来访问三个相关的 API 节点。ComfyUI 还提供了预设模板,方便用户快速开始使用。
相关链接:
https://blog.comfy.org/p/stable-audio-25-is-now-in-comfyui
(@ComfyUI Blog)
3、ElevenLabs 推出「Voice Remixing」功能:革新角色创作与智能体设计
ElevenLabs 宣布推出「Voice Remixing」功能,允许用户重新定义已创建的语音角色,调整性别、年龄、口音等属性。这一创新功能不仅提升了创意故事创作的灵活性,还为智能体设计提供了更精准的语音定制选项。其重要性在于,它进一步拓展了 AI 语音技术的应用边界,特别是在游戏、动画和企业智能体领域。
关键亮点:
技术突破:「Voice Remixing」支持对语音角色的性别、年龄和口音进行动态调整,例如将女性语音转换为男性语音,或为同一角色创建不同年龄段的语音版本。
用户影响/应用场景: 这一功能特别适合游戏开发者、动画制作人和企业用户,用于创建更丰富的角色语音或优化智能体的交互体验。例如,用户可以让一个英国口音的智能体在美式环境中切换为加州口音。
「Voice Remixing」目前以 Alpha 版本发布,适用于 ElevenLabs 平台上通过「Voice Design」或「Voice Cloning」创建的语音。用户可通过平台内的「Voice Library」开始体验。
相关链接:
https://x.com/elevenlabsio/status/1965806127897264300(@elevenlabsio)
02有亮点的产品
1、爱诗科技完成 6000 万美元融资,阿里巴巴领投
9 月 10 日,AI 视频生成企业爱诗科技宣布完成超过 6000 万美元 B 轮融资。据悉,爱诗科技本次融资由阿里巴巴领投,达晨财智、深创投、北京市人工智能产业投资基金、湖南电广、巨人网络和 Antler 等投资方跟投。
爱诗科技介绍,目前公司全球用户规模突破 1 亿,自研视频生成大模型 PixVerse V5 位居 Artificial Analysis 图生视频榜首,产品 PixVerse(拍我 AI)入选 a16z「全球 Top 50 生成式 AI 消费移动应用」榜单第 25 位。对于此次融资,爱诗科技创始人兼 CEO 王长虎表示:视频生成技术的诞生并非偶然,是内容与交互方式长期演进的必然产物,它正在开启全新的时代。前行路上,我们倍感荣幸能获得来自全球顶级互联网公司、国内顶级投资机构、 顶尖内容产业合作方以及国际知名投资机构的认可和支持。(@APPSO)
2、支付宝发布 AI 就业助手「晓叶」:实现全流程智能化
9 月 10 日,支付宝数字就业团队正式发布 AI 就业助手「晓叶」。官方介绍,晓叶依托人工智能大模型与数字人技术,进一步提升企业招聘与求职者找工的体验,旨在打造 AI 时代高效、智能、可信赖的就业服务新模式。据悉,此次发布的 AI 就业助手「晓叶」将通过 4 大核心能力,包括撮合匹配岗位、在线面试、职业规划和培训推荐,提升就业市场两端的服务:
AI 撮合匹配:可以实现「岗位找人」;与 AI 助手的智能交互,可深度了解求职者需求,更精准地推荐相关岗位,解决求职者在海量岗位中苦苦搜寻的痛点。目前,支付宝就业频道 1200 万的岗位已接入 AI 匹配功能。
AI 在线面试可以实现免等待,直通面试环节:通过「晓叶」推荐报名岗位后,可免等待免奔波直通 AI 在线面试间,让面试不再受地域和时间所限,求职效率进一步提升。
AI 还可以用于职业规划,根据求职者个人特点、过往经验、技能/证书、个人意向等,给出可落地的行动建议,助力短、中、长期的职业发展规划。
在职业培训方面,AI 也可以识别求职者当前能力与目标岗位的差距,精准推荐高品质严选课程,改变传统职业培训「供需错配」「学用脱节」的痛点。目前,青团社、海纳 AI、兼职猫、鱼泡直聘、灵工龙兼职、青年社职场、吉有缘日结、淘鲜生、工自在、闪客日结等生态伙伴已经与 AI 就业助手「晓叶」达成合作。
(@APPSO)
3、Airlearn 上线,突破语言教育壁垒,引领个性化互动式学习
Unacademy 创始人 Gaurav Munjal 宣布推出「Airlearn」,一款全球首创的「Iconic AI Tutor」,旨在通过智能体驱动的 1:1 语言学习,打破传统教育壁垒。这款产品从语言学习入手,未来计划扩展至更多学科领域。其重要性在于,它代表了 AI 在教育领域的又一次突破,特别是在个性化学习和交互式体验上的创新。
Airlearn 现已全球发布,初期聚焦语言学习领域,未来计划扩展至其他学科。产品目前为免费使用,无广告干扰,具体定价和高级功能尚未公布。
关键亮点 :
技术突破/核心功能: Airlearn 采用智能体技术,提供实时、个性化的语言学习体验,强调实际对话能力而非传统应用的「虚荣指标」(如积分和天数)。
战略合作/市场动态: 作为 Unacademy 的姊妹产品,Airlearn 瞄准全球 150 多个国家的用户,计划逐步扩展至其他学科领域。
用户影响/应用场景: 对于普通用户而言,Airlearn 提供了一种低成本、高效的语言学习方式,特别适合那些希望快速掌握实际会话技能的人群。对于企业客户,这可能意味着更高效的员工语言培训解决方案。
官网链接:
https://airlearn.com/(@Gaurav Munjal)
03有态度的观点
1、Transformer 作者:我们可能走错了 AI 发展的路
日前,论文《Attention is All You Need》(提出了 Transformer 架构)的第一作者 Ashish Vaswani 接受了彭博社专访,并提出了深刻反思:当前由少数科技巨头主导的 AI 发展模式,可能正在扼杀真正的技术突破。
Vaswani 认为,AI 领域巨大的商业利益,导致 Google、OpenAI 等少数公司将巨额资金投入到对现有 Transformer 模型的渐进式改良上,而非探索全新的、可能带来革命性突破的路径。这种「军备竞赛」的本质是商业竞争,而非纯粹的科学探索。
业界曾普遍信奉「规模定律」(Scaling Laws)—— 即投入更多数据和算力,模型就会变得更强。然而,备受期待的 GPT-5 发布后,其「挤牙膏式」的提升被许多专家视为该定律回报递减的信号。
但 Vaswani 认为,现在下结论说 AI 的进步已经停滞还为时过早。但他也表示,GPT-5 发布后的讨论加强了他对人工智能开发方式的担忧。
同时,他认为在教育和医疗保健等领域应用人工智能确实有真正的科学可以追求,「我们不能让封闭式的 AI 开发阻止我们探索这些新的前沿领域。」(@APPSO)
04社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、社区项目推荐丨BUDDIE:首个全栈开源软硬件 AI 语音交互方案,赋能个性化智能伴侣构建
BUDDIE 是首个全栈开源 AI 语音交互解决方案,提供从硬件设计到软件应用的完整端到端系统。在这里,你可以找到涵盖从 PCB 和嵌入式固件到应用程序的全面解决方案。通过这个项目,我们旨在帮助每个人创建自己的个性化 24/7 语音伙伴——一个倾听你所听、思考你所想、担忧你所忧、与你一起成长、一起探索世界的伙伴。让《她》的未来成为现实。
功能特性
智能语音移动应用
完整的 AI 语音交互解决方案,包含开源 AI 交互逻辑和语音模型,与嵌入式固件数据传输无缝集成,提供一体化智能语音体验!
开源 AI 语音引擎: 访问和定制核心 AI 交互逻辑和语音模型,以适应你独特的应用需求。
无缝嵌入式集成: 轻松连接嵌入式固件进行实时数据交换,实现硬件和软件之间的流畅通信。
端到端语音体验: 从语音捕获到智能响应,在单一平台内享受统一和流畅的语音交互过程。
嵌入式固件源代码
专为 Jieli 芯片定制的完整固件,集成音频协议、压缩算法和系统控制模块,与 PCB 完美匹配,实现轻松扩展和适配!
全面的音频协议支持: 内置支持广泛的音频协议,确保与各种音频设备和外设的无缝兼容性。
先进的压缩算法: 高效的音频数据压缩,减少延迟并优化存储,即使在资源受限的硬件上也能实现高质量的语音交互。
强大的系统控制集成: 与系统控制模块和 PCB 设计的深度集成,允许轻松的硬件扩展、灵活的功能升级,以及在不同应用场景下的可靠性能。
电路设计原理图
完全开源的 PCB 设计!电路布局、原理图和 BOM 清单全部公开可用——支持 DIY 组装、快速原型制作和个性化开发,拥有完全的自由度!
模块化扩展就绪: 轻松定制和扩展硬件功能,以适应你独特的项目需求。
全面的文档: 分步指南和详细资源,支持各种经验水平的创客。
详细链接:
https://github.com/Buddie-AI/Buddie

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么