
全新 ElevenLabs UI:面向 Web 的开源音频与智能体组件
- 分类
- ElevenAPI
- 日期
当对话式 语音智能体上线后,如何大规模监控?如何及时发现异常行为?修改后又该如何测试?
这些问题推动了我们对 El,一款由 对话式 AI驱动的文档助手,不断优化。在 El 迭代过程中,我们搭建了一套监控、评估和测试智能体的系统,基于评估标准和对话模拟。
优化智能体,首先要了解其实际表现。因此我们不断完善评估标准,确保其足够准确、可靠,能有效监控智能体表现。我们将失败的对话定义为:智能体提供了错误信息,或未帮助用户达成目标。

如果互动不达标,对话本身就无效。其他标准未通过时,则需进一步排查。排查结果会指导我们如何优化智能体。有时需要调整工具使用或时机,有时则需增加限制,防止不支持的操作。
明确改进方向后,下一步就是测试。这时就用到了我们的对话模拟 API。它能模拟真实用户场景——既可端到端,也可针对特定片段——并用生产环境同样的标准自动评估结果。支持工具模拟和自定义评估,灵活测试特定行为。
清晰聚焦的场景让我们能精准控制 LLM 的测试内容,确保覆盖边界情况、工具使用和兜底逻辑。
最后一步是自动化。我们通过 ElevenLabs 开放 API,将评估和模拟集成到 GitHub DevOps 流程的 CI/CD 流水线。每次更新都会自动测试,防止回归,及时反馈真实表现。
这一流程彻底改变了我们构建和维护 El 的方式。我们建立了从真实使用到结构化评估、针对性测试和自动验证的闭环,能更快、更有信心地持续优化。
这套方法同样适用于我们开发的任何智能体。



.webp&w=3840&q=80)