音频评估模型 Tyto:前置环境感知和拦截低质量音频;ASLP 开源 2100 小时中文全双工语音对话数据集丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Hugging Face 联合 Treble 推出 FFASR 基准:覆盖 9 大复杂信噪比场景,引入 WER 与 RTFx 帕累托前沿评估
FFASR 推出针对远场语音识别的全新基准排行榜,专门评估模型在嘈杂、混响及低信噪比等实际物理环境中的鲁棒性。该基准通过统一的留存测试集和文本正则化处理,在服务器端闭源运行,直接解决 ASR 模型在学术纯净数据集与真实工业部署场景之间的表现断层问题。
9 大复杂声学场景覆盖:评估场景包括近场语音、实验室测量、实验室模拟、高/中/低信噪比,以及三种动态移动信噪比,全面摆脱了传统基准仅依赖录音室纯净语音的评测局限。
物理级声学特性仿真:测试集采用由 Treble Technologies 支持的声学模拟数据,其房间冲激响应模拟标准与 Treble10 数据集对齐,确保远场物理特性的真实性。
多维度性能权衡机制:每项提交均报告 WER、RTFx 及参数量,并在「分析」工具箱中自动绘制 WER 与 RTFx 的帕累托前沿,便于开发者在识别精度与推理速度之间进行工程折中。
无泄漏的安全评估机制:采用服务器端运行评分的黑盒测试模式,用户仅需在提交界面输入 Hugging Face 模型 ID,评估音频不对外公开,从根本上杜绝了针对测试集的过拟合与作弊行为。
https://huggingface.co/spaces/treble-technologies/ffasr
( @Tu7uruu@X)
2、ASLP 实验室 开源 2100 小时中文全双工语音开源对话数据集 SmoothConv 与 DuplexConv
ASLP 实验室与上海元音矩阵科技有限公司联合开源了面向全双工人机交互的中文长音频对话双子星数据集 SmoothConv 与 DuplexConv。该数据集提供共计 2100 小时的真实多通道对话语料及多维度副语言标签,旨在解决中文开源社区缺乏高拟人度、流式交互训练数据的痛点。
100 小时人工精标数据集 SmoothConv:由专业团队进行高密度、多维度标注,提供毫秒级音字对齐时间戳、发言权流转时序、话轮重叠状态,并精准标注了笑声、咳嗽、吸气、背景杂音等非言语声音事件。
2000 小时大模型自动打标数据集 DuplexConv:通过大模型自动化打标链路,对同源海量自然对话音频进行深度的语义与上下文理解,全自动沉淀并保留了与 SmoothConv 类似的话轮流转、语气及情绪氛围等副语言标签。
多通道真实非结构化交互录制:数据覆盖深度教育与通用闲聊场景,完整保留了多方交谈、话语交叠、自然停顿等真实世界的口语生态,而非录音棚朗读或人工拼接音频。
直接支持全双工交互策略训练:数据集标签可直接用于训练 VAD、话轮预测、情感计算、多说话人语音识别、口语语言模型预训练、通用声音表征学习及对话理解等多种下游任务。
https://github.com/qualialabsAI/SmoothConv-DuplexConv
https://huggingface.co/datasets/qualialabsAI/SmoothConv
https://huggingface.co/datasets/qualialabsAI/DuplexConv
(@AI 语音 AI 思考)
3、ai-coustics 推出轻量音频评估模型 Tyto:前置拦截低质量音频,提升语音智能体可观测性
语音智能体的失败往往并非 LLM 或 ASR 脑力不足,而是输入音频质量极差,且团队缺乏原生音频层面的观测工具。ai-coustics 推出轻量化音频风险评估模型 Tyto,部署在 VAD 和 ASR 最前端,直接针对原始音频进行物理级分析。它能预测并输出下游模型失效的风险评分,将传统的「事后抽样猜测」转变为「事前拦截」与「实时自适应控制」。
前置管线拦截设计:部署于 VAD、ASR 甚至文本转语音模块的最上游。在音频物理信号层面直接计算,无需转译文本或调用 LLM,从源头降低诊断延迟与计算成本,避免「垃圾输入导致垃圾输出」。
0-1 细粒度正交诊断矩阵:除输出 risk_score 总分外,还提供 6 个近似正交(互不干扰)的维度评分。涵盖:Noise(环境噪声)、Speaker Reverb(区分近场干声与远场混响)、Speaker Loudness(响度电平,作为中性参考)、Interfering Speech(他人干扰)、Background Media(电视手机等媒体音)以及 Packet Loss(丢包或 CPU 过载导致的音频中断)。
双重运行模式支持:
实时流媒体模式:可根据音频条件动态调整 VAD 灵敏度、在噪声环境下禁用打断(Barge-in)或提示用户调整麦克风。
批处理分析模式:可自动筛选并归因通话归档中因音频退化导致失败的会话,替代人工抽样听音。
( @ai_coustics)
02 有亮点的产品
1、telli 发布语音智能体构建工具 Charlie:支持多源输入建站与全自动优化回滚
语音 AI 平台 telli 推出全新智能体构建工具 Charlie,旨在将语音智能体的开发、调试、故障分析及版本迭代全流程自动化。该工具支持通过提示词、流程图或语音笔记快速构建智能体,并利用内置的闭环分析系统实现自动诊断与即时自优化。
多源异构输入生成:支持通过自然语言提示词、流程图、对话剧本或语音笔记直接生成语音智能体,大幅降低初始构建门槛。
通话自诊断与即时改进:Charlie 可自动审查并分析通话录音,精准定位对话中断或逻辑故障的具体位置,并针对性地自动修改并优化智能体行为。
行级差异比对与一键回滚:修改后的方案支持通过真实通话进行沙盒测试,系统提供行级差异比对(diff)功能,并支持一键回滚至历史任一稳定版本。
模型无关与多语言架构:系统采用模型无关(Model Agnostic)架构,支持 20 多种语言的本地流利对话,提供声音克隆与企业知识库(文档及 FAQ)上传功能。
企业级数据集成:提供原生接口与 API,支持与 Salesforce、HubSpot 等主流 CRM 系统无缝对接,实现通话触发、线索状态变更与预约日程的自动双向同步。
( @tellidotcom@X)
2、曝追觅生态品牌 Eclix 9 月发布无 App AI 手机
追觅生态品牌 Eclix 负责人俞雷称,Eclix 第一代 AI 手机预计 2026 年 9 月发布、双十一前上市,主打 5000 元以上高端价位。团队已与国内头部大模型厂商达成深度合作,核心研发接近完成,即将进入整机测试。
这款手机的产品目标是弱化传统 App 入口。俞雷称,Eclix 首代产品会主动把出货量控制在 5 万至 10 万台,先面向偏极客的先锋数码用户交付;销售端目前收到的订单已突破 10 万台。
商业模式上,Eclix 计划把 AI 算力服务作为订阅收入来源,按用户调用不同大模型消耗的 token 实时计费。俞雷也承认,首代产品仍会为微信、银行 App 等保留传统 App 界面作为兼容方案。
( @APPSO)
03 有态度的观点
1、微软 CEO 纳德拉:并非所有问题都需要最强 AI 模型
据《纽约时报》报道,微软 CEO 萨提亚 · 纳德拉近日在旧金山参加《Hard Fork》播客现场录制活动时,针对当前行业及公司内部过度依赖高性能 AI 模型的现象进行了反思。
纳德拉指出,并非所有问题都需要动用最强大的 AI 模型,员工应当根据实际工作选择适配的模型。他在活动中坦言,公司内部盛行堆砌算力(tokenmaxxing)的行为「相当普遍」。
我自己也热衷于一味堆砌算力,这确实容易让人上头。但当新鲜感褪去,大家必须冷静下来思考:我真正想要实现的目标是什么......非前沿类问题,没必要动用顶尖前沿模型。我们不能一味跟风,做那些毫无实际价值的事。
关于与 OpenAI 的关系,纳德拉称双方的合作伙伴关系依然重要,但微软已通过重新谈判降低了双方的相互依赖性。他还透露自己近期利用 AI 开发了一款自动化工具,能够同步沟通并自动更新代码,从而让他本人无需参与相关会议。
( @APPSO)
04 Real-Time Demo
1、开发者推出吉他交互网页应用:基于 Web Audio API 与 WebGL 稳定流体求解器实现实时音频转水彩笔触
开发者@measure_plan 制作了一个网站,可以将用户的麦克风变成画笔来使用。
这是一款能够监听麦克风输入的应用程序,它可以将你实时播放的音乐转化为水彩画的笔触效果。
它与《贪吃蛇》、《水果忍者》、《俄罗斯方块》等其他小游戏一起,被发布在 https://strumsurfer.com 平台上。这些游戏都能帮助你练习吉他技巧。
该技术利用 Web 音频 API 来实时监听浏览器中的音频信号,并识别其中的和弦与音符。
音频数据被输入到 WebGL 水彩流体模拟系统中,该系统采用了稳定的流体模拟算法以及水彩混合技术来处理数据。
( @measure_plan@X)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考