跳到内容

对话式 AI 智能体测试

了解如何通过完善的评估标准和对话模拟,高效测试和优化对话式 AI 智能体。

Abstract

当对话式 语音智能体上线后,如何大规模监控?如何及时发现异常行为?修改后又该如何测试?

这些问题推动了我们对 El,一款由 对话式 AI驱动的文档助手,不断优化。在 El 迭代过程中,我们搭建了一套监控、评估测试智能体的系统,基于评估标准和对话模拟。

基础建设:可靠的评估标准

优化智能体,首先要了解其实际表现。因此我们不断完善评估标准,确保其足够准确、可靠,能有效监控智能体表现。我们将失败的对话定义为:智能体提供了错误信息,或未帮助用户达成目标。

Flow chart

我们制定了以下评估标准:

  • 互动:对话是否有效,用户是否提出相关问题,对话是否合理?
  • 积极互动::用户是否满意,还是感到困惑或沮丧?
  • 定位根本原因::智能体是否正确识别用户的真实需求?
  • 解决用户问题: :智能体是否解决了用户的问题,或提供了其他支持方式?
  • 幻觉::智能体是否生成了知识库中不存在的信息?

如果互动不达标,对话本身就无效。其他标准未通过时,则需进一步排查。排查结果会指导我们如何优化智能体。有时需要调整工具使用或时机,有时则需增加限制,防止不支持的操作。

持续迭代:对话模拟 API

明确改进方向后,下一步就是测试。这时就用到了我们的对话模拟 API。它能模拟真实用户场景——既可端到端,也可针对特定片段——并用生产环境同样的标准自动评估结果。支持工具模拟和自定义评估,灵活测试特定行为。

我们采用两种方式:

  • 完整模拟:从头到尾测试整段对话。
  • 部分模拟:从对话中间开始,验证关键决策点或子流程。这是我们常用的单元测试方法,便于快速迭代和精准排查。

清晰聚焦的场景让我们能精准控制 LLM 的测试内容,确保覆盖边界情况、工具使用和兜底逻辑。

自动化扩展:集成到 CI/CD 流程

最后一步是自动化。我们通过 ElevenLabs 开放 API,将评估和模拟集成到 GitHub DevOps 流程的 CI/CD 流水线。每次更新都会自动测试,防止回归,及时反馈真实表现。

结果:更强大的 El

这一流程彻底改变了我们构建和维护 El 的方式。我们建立了从真实使用到结构化评估、针对性测试和自动验证的闭环,能更快、更有信心地持续优化。

这套方法同样适用于我们开发的任何智能体

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作