StepAudio 2.5 TTS:将语境理解能力引入语音生成全流程丨日报

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃

01 有话题的技术

1、Google 发布 Gemini 3.1 Flash TTS 模型,高音质与低成本平衡

图片


图片


Google 推出新一代文本转语音(TTS)模型 Gemini 3.1 Flash TTS。该模型通过引入自然语言「音频标签」实现了对语音风格、节奏和多角色交互的精细化控制,在维持低延迟与低成本的同时,显著提升了合成语音的表现力


  • 基准测试性能:在 Artificial Analysis TTS 排行榜取得 1,211 Elo 评分,位居高音质与低成本平衡点的「最具吸引力象限」。

  • 内联音频标签(Audio Tags):支持将自然语言指令(指令式标签)直接嵌入文本输入,实现句子中途的语速、音调、口音和情感状态的毫秒级切换。

  • 场景化编排(Scene Direction):开发者可定义环境背景与对话上下文,确保多角色在多轮对话中维持特定的人设一致性(In-character)与自然互动。

  • 音频配置文件与代码导出:支持通过 Audio Profiles 固化角色特征,调节后的参数可直接导出为 Gemini API 调用代码,确保跨平台部署的语音一致性。

  • 全球化与安全合规:原生支持 70 多种语言;所有输出音频均强制嵌入 SynthID 不可感知水印,用于 AI 生成内容的溯源与检测。


参考链接:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/


( @google blog)


2、Cloudflare 发布 @cloudflare/voice:为智能体提供原生语音管道,支持单 WebSocket 流式交互与 SQLite 状态持久化

Cloudflare 为其 Agents SDK 推出实验性扩展包 @cloudflare/voice,允许开发者在不改变现有智能体架构的前提下,为基于 Durable Object 的 Agent 直接添加实时语音能力。该工具链通过减少跨服务跳转和引入流式分句合成技术,显著降低了语音交互的端到端延迟


  • 基于 Durable Object 的统一状态模型:语音被视为与文本对等的输入流,共享相同的 Agent 类实例、Durable Object 生命周期及内置的 SQLite 会话历史。开发者无需为语音功能构建独立的后端架构,即可实现文本与语音输入的无缝切换。

  • 优化的流式传输与低延迟响应:客户端通过单一 WebSocket 连接流式传输 16 kHz 单声道 PCM 音频;服务端支持 「sentence-chunking」 技术,即在 LLM 输出流式文本时同步进行按句合成,实现首包音频(TTFA)的快速响应。

  • 内置 Workers AI 驱动程序:预集成 Deepgram 系列模型,包括用于实时对话的 Flux STT、用于高精度听写的 Nova 3 STT 以及 Aura TTS。通过 Workers AI 绑定直接调用,开发者无需管理外部 API 密钥即可完成实时语音转录与合成。

  • 多协议适配与 Provider 接口抽象:提供 withVoice(全双工对话)和 withVoiceInput(仅听写/语音搜索)两种高阶组件;内置 Twilio 适配器以支持电话回呼;同时开放轻量级 Transcriber 和 TTSProvider 接口,支持开发者对接 AssemblyAI、Cartesia 或 WebRTC 传输层。


(@cloudflare)


3、阿里 ATH 事业群发布世界模型产品 Happy Oyster,主打实时世界创建与交互,可生成动态三维环境,支持影视制作、游戏开发等场景

图片


阿里巴巴 ATH 事业群推出开放式世界模型产品「Happy Oyster」,主打实时世界创建与交互


该产品可生成动态三维环境,支持影视制作、游戏开发等场景。其与 HappyHorse 同属 ATH 旗下 AI 创新事业部。目前已开启内测,用户可通过官网 happyoyster.cn 加入候补名单。


Happy Oyster 基于原生多模态架构,其背后是支持多模态输入与音视频联合生成的流式生成世界模型


加入等候列表:happyoyster.cn


(@潇湘晨报)


4、阶跃 StepAudio 2.5 TTS 上线,将语境理解能力引入语音生成全流程

今天,阶跃正式发布新一代语音生成模型StepAudio 2.5 TTS。围绕全局语境控制、文中语境控制、零样本复刻与全音色控制三项核心能力,StepAudio 2.5 TTS 让语音生成更自然、更灵活也更有表现力。


  • 全局语境控制:支持自定义整段语音的情绪基调、角色状态与场景氛围,使表达更统一、更连贯。

  • 文中语境控制:不仅能控制一句话怎么说,还能进一步调节语气、节奏、停顿、轻重变化、角色感和场景感,让声音表达更有分寸。

  • 适配多场景、多人设:StepAudio 2.5 TTS 支持 Zeroshot TTS,任意用户音色无需重新训练,即可满足从沉浸式有声书到专业影视配音全场景高品质语音生成需求。同时也可为每个音色构建完整的「声音角色档案」,实现从声纹到人格的全面提升。

无论是角色配音、有声内容创作,还是智能语音交互,StepAudio 2.5 TTS 都能帮助开发者和创作者更高效地生成自然、细腻、接近真人的语音内容。


文档:

https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-tts


(@阶跃星辰)


02 有亮点的产品

1、X 独立通讯应用「X Chat」重新上线语音消息功能

图片


图片


社交平台 X(原 Twitter)近日宣布,其私密消息服务「X Chat」已正式恢复对「语音笔记(Voice Notes)」功能的支持。用户现在可以在一对一私信和群聊中,再次畅快地发送音频消息。


据悉,在此前 X Chat 的升级中,语音功能的短暂移除曾引发部分用户不满。如今功能回归,用户只需按住聊天文本框右侧的麦克风图标即可录音,或者通过「长按并向上滑动」的手势实现免提录制。


这一变动背后,折射出 X 平台产品战略的微妙转变。此前,埃隆·马斯克(Elon Musk)曾多次强调要将 X 打造成一个无所不包的「万能超级应用(Everything App)」。然而近期,X 似乎正倾向于将核心功能剥离,提供独立的 App 体验。除了近期已作为独立应用运营的 X Chat 外,其支付服务「X Money」目前也正在作为独立 App 进行测试。


业内分析认为,X Chat 恢复语音消息,是其作为独立通讯应用补齐基础体验、增强市场竞争力的必要举措。目前,X Chat 已配备消息编辑/删除、音视频通话及截图通知等主流通讯功能。


( @TechCrunch)

2、Fathom 发布 botless 会议模式:支持视频录制并集成 MCP

图片


Fathom 推出重大更新,允许用户在无需 AI 助手(Bot)进入虚拟会议室的情况下完成录制与转录。该版本通过系统级采集解决了会议室「过度拥挤」的问题,并首次引入 Model Context Protocol (MCP) 支持,将会议数据转化为可供外部 AI 工具调用的结构化上下文


  • Bot-less 录制与原生视频采集:区别于 Granola 等竞品仅抓取音频,Fathom 支持在无机器人模式下同步录制视频,并提供多种录制模式选择。

  • 优化发言人辨识(Speaker Diarization):通过模型更新,解决了多月前历史会议记录中常见的「发言归属错误」问题,提升了长周期上下文检索的准确性。

  • 集成 Model Context Protocol (MCP) 服务端:发布 MCP Server 接口,允许开发者和用户将 Fathom 存储的会议数据直接接入各类支持该协议的 AI 智能体或工作流工具。

  • 全量会议数据库 AI 查询:新增针对企业级用户的统一查询接口,支持通过 AI 对整个会议历史数据库进行跨篇章的语义搜索与背景关联


( @TechCrunch)


3、药房技术服务商 Lumistry 发布 Voice AI 助手:对话式 AI 替代数字按键 IVR,深度集成 PMS 实现处方自动化处理

图片


药房技术服务商 Lumistry 推出 Voice AI 助手,作为其 Lumistry Voice 通信套件的核心组件。该产品旨在利用对话式 AI 彻底取代传统的数字按键式 IVR 系统,通过与药房管理系统(PMS)实时联动,实现自动化的处方续订与状态查询。


  • 从 DTMF 向自然语言交互(NLI)演进:放弃传统的菜单式数字按键逻辑,支持患者以自然语言描述需求,系统可自动识别并执行处方状态查询、药房营业信息咨询等高频任务。

  • 药房管理系统(PMS)深度集成:通过 API 接入主流 PMS,助手具备识别合规续订(Eligible Refills)的能力,并能直接在后台提交续订请求,无需人工干预处方处理流程。

  • 多语言与人工平滑切换逻辑:系统支持多语种对话,并内置智能路由算法,在识别到复杂语义或非预设用例时,可将通话上下文同步推送至药房工作人员进行人工接管。

  • 存量市场覆盖与迁移:该助手基于原 Vow IVR 架构升级,目前已整合进 Lumistry 覆盖的全美 9,000 多家药房服务网络,重点解决药房高峰期 70% 以上的重复性行政呼入压力。


( @Yahoo Finance)



03 有态度的观点

1、领英 CEO:AI 时代,这四项软技能正在升值

图片


领英 LinkedIn CEO Ryan Roslansky 近日在接受《工具和武器》播客采访时表示,随着 AI 加速接管职场中的重复性工作,人类的「软技能」正在获得前所未有的重视。


他具体点名了四项以沟通为核心的能力:好奇心(curiosity)、勇气(courage)、沟通力(communication)与同理心(compassion)


Roslansky 认为,AI 正在重塑人们理解工作的方式,推动职场人将自身角色视为「一系列任务的集合」,而非固定的职位头衔。


他将这些任务划分为三类:可被 AI 完全自动化的、可被 AI 辅助增强的,以及仍需人类主导的——如化解冲突、说服团队、制定战略等。


这些技能很重要,但过去一直被称为软技能......在一个人们真正精通这些技能的职业世界里,我认为一切都会变得更好。


他表示,随着 AI 智能体承担更多自动化职责,人们将有更多时间用于同事之间的真实沟通,这进一步抬高了沟通能力、判断力与情商的溢价。


有时候当你深陷技术之中,尤其是 AI,当你勾勒出它可能走向的方向,会把你带到一些黑暗的地方。但我相信,人类在塑造这项技术的走向上扮演着不可或缺的角色。


( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    StepAudio 2.5 TTS:将语境理解能力引入语音生成全流程丨日报RTRTE_Dev_Comm