본문 바로가기

대화형 AI 에이전트 테스트

견고한 평가 기준과 대화 시뮬레이션을 활용해 대화형 AI 에이전트를 효과적으로 테스트하고 개선하는 방법을 알아보세요.

Abstract

대화형 보이스 에이전트가 실제로 운영될 때, 어떻게 대규모로 모니터링할 수 있을까요? 의도와 다르게 동작할 때는 어떻게 알아챌 수 있을까요? 그리고 변경 후에는 어떻게 테스트할 수 있을까요?

이런 질문들이 저희가 El, 문서 어시스턴트( 대화형 AI)를 개발하는 데 큰 영향을 주었습니다. El이 발전하면서, 저희는 평가 기준과 대화 시뮬레이션을 기반으로 에이전트를 모니터링하고 평가하며 테스트하는 시스템을 구축했습니다.

기초 다지기: 신뢰할 수 있는 평가 기준

에이전트를 개선하려면 실제 환경에서 어떻게 동작하는지 파악하는 것이 먼저입니다. 이를 위해 평가 기준을 다듬고, 에이전트 성능을 정확하고 신뢰성 있게 모니터링할 수 있도록 했습니다. 저희는 에이전트가 잘못된 정보를 제공하거나 사용자가 원하는 목표를 달성하지 못하게 할 때를 실패한 대화로 정의합니다.

Flow chart

저희가 개발한 평가 기준은 다음과 같습니다:

  • 상호작용: 유효한 대화였는지, 사용자가 관련된 질문을 했는지, 대화가 자연스러웠는지 확인합니다.
  • 긍정적 상호작용: 사용자가 만족스럽게 대화를 마쳤는지, 아니면 혼란스럽거나 답답했는지 확인합니다.
  • 근본 원인 파악: 에이전트가 사용자의 근본적인 문제를 제대로 파악했는지 확인합니다.
  • 사용자 문의 해결: 에이전트가 사용자의 문제를 해결했거나 대체 지원 방법을 제공했는지 확인합니다.
  • 환각(Hallucination): 에이전트가 지식 베이스에 없는 정보를 만들어내지 않았는지 확인합니다.

만약 상호작용이 실패하면 대화 자체가 유효하지 않습니다. 다른 기준에서 실패가 발생하면 추가로 원인을 조사합니다. 이 조사가 에이전트 개선 방향을 결정합니다. 때로는 도구 사용법이나 타이밍을 다듬는 것이고, 때로는 지원하지 않는 행동을 막기 위한 가드레일을 추가하는 일입니다.

신뢰를 더하는 반복: 대화 시뮬레이션 API

개선할 점을 찾았다면, 다음 단계는 테스트입니다. 여기서 저희의 대화 시뮬레이션 API가 활용됩니다. 실제와 유사한 사용자 시나리오를 전체 또는 특정 구간별로 시뮬레이션하고, 운영 환경과 동일한 기준으로 결과를 자동 평가합니다. 도구 모킹과 맞춤 평가도 지원해 특정 행동 테스트에 유연하게 사용할 수 있습니다.

저희는 두 가지 접근 방식을 사용합니다:

  • 전체 시뮬레이션: 대화 전체를 처음부터 끝까지 테스트합니다.
  • 부분 시뮬레이션: 대화 중간부터 시작해 의사결정 지점이나 하위 플로우를 검증합니다. 이 방식은 유닛 테스트에 주로 사용하며, 빠른 반복과 집중적인 디버깅이 가능합니다.

명확하고 집중된 시나리오를 통해 LLM이 어떤 부분을 테스트받는지 통제할 수 있어, 예외 상황, 도구 사용, 폴백 로직까지 꼼꼼하게 검증할 수 있습니다.

규모 확장을 위한 자동화: CI/CD에 테스트 내장

마지막 단계는 자동화입니다. ElevenLabs의 오픈 API를 활용해 GitHub DevOps 플로우와 연동하고, 평가와 시뮬레이션을 CI/CD 파이프라인에 내장했습니다. 모든 업데이트는 배포 전에 자동으로 테스트되어, 성능 저하를 방지하고 실제 환경에서의 빠른 피드백을 받을 수 있습니다.

성과: 더 강력하고 똑똑해진 El

이 과정을 통해 El을 개발하고 관리하는 방식이 완전히 달라졌습니다. 실제 사용과 구조화된 평가, 집중 테스트, 자동 검증이 연결된 피드백 루프를 만들어, 더 빠르고 자신 있게 개선 사항을 적용할 수 있게 되었습니다.

이 프레임워크는 이제 저희가 만드는 모든 에이전트에 적용할 수 있습니다.

ElevenLabs 팀의 다른 글 보기

최고 품질의 AI 오디오로 창작하세요