从通用智能到场景实战:如何定义好用的「Voice Agent」?

在过去的一年里,Voice Agent 的开发者们经历了一场集体“祛魅”。一个被反复提及、逐渐成型的行业共识是:“Evals are back”(测评回归)。


这是因为行业遇到了共同的瓶颈:基础模型在通用学术榜单上卷得难解难分,一进到真实的业务电话里,表现往往不如人意。一个能写出精美诗歌的 Agent,可能听不懂带口音的“退款”请求,或者在用户情绪激动时不知道该如何安抚。这就带来一个更现实的问题:在充斥着打断、噪音和情绪波动的真实通话中,我们到底需要什么样的 Voice Agent?


图片


最近,美团、声网 与 Xbench 三方联合构建了一个名为 VoiceAgentEval 的基准测试,主要解决现有测试方法的三个关键问题:数据集多样性不足、用户模拟不真实、评估指标不准确。


测试结果表明,大语言模型在外呼对话场景中已经达到了相当的基础能力,并展现出了各自的适用性。这说明,Voice Agent 的发展已经跨过了“参数为王”的阶段,进入了“场景适配”的新时期。


论文链接: 

https://xbench.org/reports/zmbbhdtfc5ui5qx5xjgquusj


VoiceAgentEval 在做什么

在人机对话场景中,用户不仅关注 Agent 是否提供了正确的反馈,如解答疑问、完成任务等;良好的、更像真人间交互体验也是非常重要的评估指标。


因此,区别于传统测评, VoiceAgentEval 不再执着于考察 Agent 到底“会不会说话”,而是同时从“有没有说对”和“说的好不好”两个层面来评估:


  1. 任务流程遵循度(Task Flow Compliance,TFC): AI 客服是否按照业务流程办事,是否真正解决用户的问题

  2. 一般交互能力(General Interaction Capability,GIC):  AI 客服的响应是否自然,回复内容是否与谈话主题相关,是否能响应用户的负面情绪等。


换句话说,这套评估不是在挑“谁最聪明”,而是看谁最适合在真实通话场景下干活


在 VoiceAgentEval 中,这两类能力通过三个紧密衔接的设计进行评估:


基准构建(Benchmark)


从真实外呼业务中抽象出 6 大商业领域(客服、销售、招聘,金融风控、调研以及主动关怀)、 30 个子场景,包括银行投诉、电商退货、面试邀约等在真实世界里出现频率最高的情况。丰富了数据集的多样性与种类,覆盖业务中多样的场景,也就是现实中最容易出现问题的对话。


用户模拟器(User Simulator)


本次测评用 LLM 模拟了 5 个性格、背景、沟通风格都不相同的用户,结合 30 个真实业务的子场景,形成 150 种情况下的虚拟用户对话评估。这些虚拟用户有的态度友好,有的犹豫不决,甚至有的情绪抗拒。通过用户模拟器,输出每一个 Agent 在这 150 种真实场景中的 TFC 和 GIC 得分并加权计算出最终测试结果,能够有效的评估 Agent 在复杂场景下遵循任务流程与交互能力的平衡程度。


评估方法(Evaluation)


VoiceAgentEval 通过文本和语音,对 Agent 进行 TFC 和 GIC 的双维度评估


在 TFC 层面,重点关注:

  • 按业务流程推进对话

  • 最终把事情“办成”


在 TIC 层面,评测关注的是:

  • 在口音、噪音或打断下,是否还能听清关键需求

  • 回应是否自然、简洁、不制造额外负担

  • 在被打岔、被质疑时,是否还能保持对话连贯


也就是说,这套评测是在模拟一通真实业务电话,看看它能不能把事办完、还能不能让人愿意继续聊


需要说明的是,VoiceAgentEval 并非在离线环境中对模型进行脚本化测试,而是基于声网在实时语音与对话式 AI 领域长期积累的工程能力,搭建出一套真实可运行的 Agent 架构来完成评测流程。因此,评测中的语音交互、流程切换与被打断后的恢复,均通过一条的真实 Voice Agent 链路完成,而非通过静态对话拼接。这也是 VoiceAgentEval 能够在实验条件下逼近真实业务通话复杂度的基础。


测评启示:没有最好,只有最合适

在这套实时语音交互评测环境中,测试结果并不意味着 Agent 的绝对高低,而是它们在特定外呼任务设计、用户模拟方式以及评分权重设定 下所呈现出的行为差异。


即便如此,这些差异依然为开发者理解模型在高度贴近真实外呼场景中的“行为倾向”提供了一张有价值的参考图谱:


  • 均衡的“多面手”——在“完成办事流程”和“闲聊”之间取得了极佳的平衡。它们既能按流程推进业务,又能顺滑地接住客户的闲聊。如果你需要一个适应性强的通用型 Agent,它们值得优先考虑。

  • 严谨的“执行者”——流程合规性得分高但交互能力相对低一些。就像一个处理金融业务、一丝不苟的银行柜员,绝不随意发挥,但也绝不出错。对于合规性要求极高的严肃场景,它是安全的选择。

  • 温情的“倾听者”——在交互体验上表现优异,极善于安抚沟通,提供情绪价值。如果你的场景是心理咨询或陪伴,它可能比那些“死磕流程”的模型更懂用户的心。


不仅在外呼场景,随着 Voice Agent 越来越多地走向 AIoT、情感陪伴等日常生活场景,对交互的评测,也正在从“是否听清需求、是否能顺畅对话”,延伸到更底层的环境与语境理解能力。


在这一层面上,评测维度将不可避免地扩展到对掌声、敲门声等声学事件的感知,对所处环境的声学场景判断,以及对方言、间接表达和语境变化的识别。这些能力决定的,不只是一次对话能否完成,而是 Voice Agent 是否具备在真实环境中持续交互的基础条件。

共同的目标:从探索走向落地

这套评测体系的发布,其意义不在于分出高下,而在于展示了 Voice Agent 进化的必经之路:场景 + 技术的双重融合


  • 场景上: 评测设计基于美团外呼业务中长期积累的真实场景经验与典型问题抽象而来,使得测试不再停留在理想化设定中,而是带有明显的“泥土味”。

  • 技术上: 通过声网的音视频技术积累和架构支持,验证了一套可复用的“生产级”技术栈。


对于整个开发者社区而言,这传达了两个积极的信号:


  1. 选型更从容: 我们不必再盲目追求“最强”模型,而是可以根据业务需求(是重逻辑还是重体验)找到最匹配的那一块拼图。

  2. 研发更聚焦: 开发者不必重复造轮子,可以将宝贵的精力投入到对业务逻辑的打磨上。


结语:共建行业的“度量衡”

AI 的进化速度太快,单打独斗的时代已经过去。


我们解读这篇论文,是希望所有 Voice Agent 的从业者关注这种“场景化测评”的趋势。VoiceAgentEval 给出了外呼场景的一种答案,更像是一次示范:如何把一个具体业务,拆解成可被复用的评测单元。


当 Evals 从“纸上谈兵”回归到“实战演练”,当底层的实时交互框架逐步成熟,Voice Agent 才有可能真正走出实验室,接受千行百业的复杂检验。这扇门是否能被真正推开,最终取决于行业能否持续围绕具体场景,持续形成可被复用、可被讨论、也可被不断修正的共同度量。


参考链接

xbench 官网: https://xbench.org/

VoiceAgentEval 新闻稿:

https://xbench.org/reports/zmbbhdtfc5ui5qx5xjgquusj

声网对话式 AI 引擎:

https://www.shengwang.cn/ConversationalAI/

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

图片

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    分类
    关键词
    // 相关帖子
    Coming soon...
    • 0
    从通用智能到场景实战:如何定义好用的「Voice Agent」?RTRTE_Dev_Comm