Poznaj Eleven Music. Stwórz idealną piosenkę na każdą okazję.

Dowiedz się więcej

Testowanie agentów Conversational AI

Dowiedz się, jak skutecznie testować i ulepszać agentów Conversational AI, używając solidnych kryteriów oceny i symulacji rozmów.

Abstract

Kiedy agenci konwersacyjni są uruchamiani, jak monitorujesz ich na dużą skalę? Jak wykrywasz, kiedy nie działają zgodnie z oczekiwaniami? A po wprowadzeniu zmian, jak je testujesz?

Te pytania kształtowały naszą pracę nad El, Alexis, Conversational AI. W miarę rozwoju El stworzyliśmy system monitorowania, oceny i testowania agentów, oparty na kryteriach oceny i symulacjach rozmów.

Podstawy: Wiarygodne Kryteria Oceny

Poprawa działania agenta zaczyna się od zrozumienia jego zachowania w praktyce. Oznaczało to dopracowanie naszych kryteriów oceny i upewnienie się, że są wystarczająco dokładne i wiarygodne, aby monitorować wydajność agenta. Definiujemy nieudaną rozmowę jako taką, w której agent podaje błędne informacje lub nie pomaga użytkownikowi osiągnąć celu.

Flow chart

Opracowaliśmy następujące Kryteria Oceny:

  • Interakcja: czy to była ważna rozmowa, czy użytkownik zadawał istotne pytania, czy rozmowa miała sens?
  • Pozytywna interakcja: czy użytkownik był zadowolony, czy może był zdezorientowany lub sfrustrowany?
  • Zrozumienie przyczyny: czy agent poprawnie zidentyfikował podstawowy problem użytkownika?
  • Rozwiązanie zapytania użytkownika: czy agent rozwiązał problem użytkownika lub zaproponował alternatywną metodę wsparcia?
  • Halucynacja: czy agent wymyślił informacje, które nie znajdują się w bazie wiedzy?

Jeśli Interakcja zawiedzie, sama rozmowa nie jest ważna. Jeśli jakiekolwiek inne kryteria zawiodą, badamy to dalej. Dochodzenie wskazuje, jak poprawić agenta. Czasami chodzi o dopracowanie użycia narzędzi lub czasu. Innym razem o dodanie zabezpieczeń, aby zapobiec nieobsługiwanym działaniom.

Iteracja z pewnością: API Symulacji Rozmów

Gdy już zidentyfikujemy, co poprawić, następnym krokiem jest testowanie. Tutaj wkracza nasze API Symulacji Rozmów symuluje realistyczne scenariusze użytkownika - zarówno end-to-end, jak i w wybranych segmentach - i automatycznie ocenia wyniki według tych samych kryteriów, które stosujemy w produkcji. Obsługuje symulację narzędzi i niestandardową ocenę, co czyni go wystarczająco elastycznym do testowania specyficznych zachowań.

Używamy dwóch podejść:

  • Pełne symulacje: Testuj całe rozmowy od początku do końca.
  • Częściowe symulacje: Rozpocznij w środku rozmowy, aby sprawdzić punkty decyzyjne lub podprocesy. To nasza metoda do testów jednostkowych, umożliwiająca szybkie iteracje i ukierunkowane debugowanie.

Jasne, skoncentrowane scenariusze pozwalają nam kontrolować, co jest testowane w LLM, zapewniając pokrycie przypadków brzegowych, użycia narzędzi i logiki awaryjnej.

Automatyzacja na dużą skalę: Wbudowanie testów w CI/CD

Ostatnim elementem jest automatyzacja. Użyliśmy otwartych API ElevenLabs, aby połączyć się z naszym przepływem GitHub DevOps, wbudowując ocenę i symulację w nasz pipeline CI/CD. Każda aktualizacja jest automatycznie testowana przed wdrożeniem. To zapobiega regresjom i daje nam szybki feedback na temat wydajności w rzeczywistych warunkach.

Rezultaty: Silniejszy, mądrzejszy El

Ten proces zmienił sposób, w jaki budujemy i utrzymujemy El. Stworzyliśmy pętlę zwrotną, która łączy rzeczywiste użycie z oceną, testowaniem i automatyczną walidacją, co pozwala nam szybciej wprowadzać ulepszenia z większą pewnością.

I to jest ramy, które teraz możemy zastosować do każdego agenta, którego budujemy.

Przeglądaj artykuły zespołu ElevenLabs

ElevenLabs

Twórz z najwyższą jakością dźwięku AI