본문 바로가기

ElevenAgents 실험 기능 소개

실제 환경에서 에이전트 성능을 데이터 기반으로 개선하는 가장 효과적인 방법

Cover, says "Experiments in ElevenAgents"

오늘 ElevenAgents에 실험 기능을 새롭게 선보입니다.ElevenAgents - 실제 트래픽에서 A/B 테스트를 안전하게 실행하고, 전체 적용 전 효과를 미리 측정할 수 있는 기능입니다.

대화형 에이전트가 지원, 영업, 운영 등 다양한 분야에서 중요한 역할을 하면서, 작은 설정 변경도 비즈니스 결과에 큰 영향을 줄 수 있습니다. 프롬프트 구조, 워크플로우 분기, 새로운 보이스, 더 엄격한 가드레일 등 작은 변화가 CSAT, 컨테인먼트, 전환율, 지연 시간, 비용을 바꿀 수 있습니다.

실험 기능을 사용하면 팀이 실제 트래픽과 측정 가능한 결과를 바탕으로 이러한 변경 사항을 구조적으로 테스트할 수 있습니다. 안전성과 통제권도 그대로 유지됩니다.

exp

설정 변경에서 측정 가능한 성과까지

구조적인 실험 없이 최적화를 시도하면 결국 직감에 의존하게 됩니다. 프롬프트를 조금 바꾸면 '더 나아진 것 같다'고 느끼고, 워크플로우를 조정하면 '컨테인먼트가 개선될 것 같다'고 생각하게 됩니다. 새로운 에스컬레이션 경로도 '더 효율적일 것 같다'고 느낄 뿐입니다.

실험 기능은 이런 추측을 근거 있는 데이터로 대체합니다. 팀은 통제된 변형을 도입하고, 실제 고객 상호작용의 일정 비율에 적용해 비즈니스 및 운영 지표에 미치는 영향을 측정할 수 있습니다.

이제 대화형 에이전트에도 최신 A/B 테스트 방식을 적용할 수 있습니다. 주관적 판단이 아닌 실제 운영 데이터를 활용합니다.

실험 기능은 이렇게 작동합니다

실험 기능은 ElevenLabs Agents에 직접 내장되어 있으며, 간단하고 검증 가능한 워크플로우를 따릅니다.

1. 새로운 변형 생성

기존 에이전트 버전에서 시작해 변형을 만듭니다.

프롬프트, 워크플로우, 도구, 보이스, 지식 베이스, 가드레일 등을 수정할 수 있습니다. 각 변경 사항은 특정 버전의 설정과 연결되며, 변경 내역과 책임자가 명확하게 기록됩니다.

2. 트래픽 일부를 통제하여 분배

실제 대화 중 몇 퍼센트를 새 변형에 분배할지 설정합니다.

트래픽 분배는 통제되고 검증 가능하게 관리되어, 대부분의 사용자에게 영향을 주지 않고 안전하게 테스트할 수 있습니다.

3. 주요 지표별 영향 측정

실제 운영 대화를 활용해 변형별 성능을 비교합니다.

팀은 다음과 같은 결과를 측정할 수 있습니다:

  • CSAT
  • 컨테인먼트율
  • 전환율
  • 평균 처리 시간
  • 중앙값 에이전트 응답 지연 시간
  • 에이전트 해결당 비용

실제 트래픽에서 테스트가 진행되기 때문에, 결과는 인위적인 벤치마크가 아닌 실제 사용자 행동을 반영합니다.

4. 우수 변형 적용

변형이 측정 가능한 개선 효과를 보이면, 더 많은 트래픽을 성능이 더 좋은 버전으로 점진적으로 이전할 수 있습니다.

전체 버전 기록이 보존되어, 필요할 때 빠르게 롤백할 수 있습니다.

팀별 다양한 활용 사례

실험 기능은 고객 대응 및 운영 워크플로우 전반에서 지속적인 최적화를 지원합니다.

  • CX 팀은 에스컬레이션 플로우를 수정해 CSAT이 개선되는지, 처리 시간이 늘어나지 않는지 테스트할 수 있습니다.
  • 매출 팀은 더 직접적인 톤이나 다른 자격 심사 논리가 전환율을 높이는지 실험할 수 있습니다.
  • 운영 팀은 도구 논리 변경이 평균 처리 시간이나 인프라 비용을 줄이는지 측정할 수 있습니다.

각 실험은 특정 에이전트 버전과 연결되어, 모든 성능 변화가 명확한 설정 변경에 기인함을 보장합니다.

엔터프라이즈 환경에 최적화된 설계

실험 기능은 ElevenLabs Agents의 버전 관리와 감사 추적 기능을 기반으로 구축되었습니다.

모든 실험에는 다음이 포함됩니다:

  • 통제되고 검증 가능한 트래픽 분배
  • 특정 에이전트 버전에 대한 명확한 책임 추적
  • 구조적인 롤백
  • 버전 상태와 연결된 전체 대화 기록

이로써 팀은 컴플라이언스, 추적성, 거버넌스를 유지하면서도 빠르게 움직일 수 있습니다.

속도와 통제 중 하나를 선택할 필요 없이, 두 가지 모두를 누릴 수 있습니다.

대화형 에이전트의 지속적인 최적화

대화형 에이전트는 정체되어 있으면 안 됩니다. 운영 데이터를 바탕으로 지속적으로 개선되어야 합니다.

이 워크플로우를 통해 팀은 체계적으로 반복하고, 효과를 수치로 확인하며, 더 뛰어난 대화형 에이전트를 자신 있게 배포할 수 있습니다.

이제 팀은 실제 운영 데이터를 활용해 대화형 에이전트를 자신 있게 설정, 배포, 최적화할 수 있습니다.

자세히 알아보기: https://elevenlabs.io/docs/eleven-agents/operate/experiments

ElevenLabs 팀의 다른 글 보기

최고 품질의 AI 오디오로 창작하세요