Przedstawiamy Eleven v3 Alpha

Wypróbuj v3

Testowanie agentów Conversational AI

Dowiedz się, jak skutecznie testować i ulepszać agentów Conversational AI, używając solidnych kryteriów oceny i symulacji rozmów.

Abstract

Kiedy agenci konwersacyjni są uruchamiani, jak monitorujesz ich na dużą skalę? Jak wykrywasz, kiedy nie działają zgodnie z oczekiwaniami? A po wprowadzeniu zmian, jak je testujesz?

Te pytania kształtowały naszą pracę nad Alexis — naszym asystentem dokumentacji zasilanym przez Conversational AI. W miarę rozwoju Alexis stworzyliśmy system do monitorowania, oceny i testowania agentów, oparty na kryteriach oceny i symulacjach rozmów.

Podstawy: Wiarygodne Kryteria Oceny

Poprawa każdego agenta zaczyna się od zrozumienia, jak działa w rzeczywistości. Oznaczało to dopracowanie naszych kryteriów oceny — upewnienie się, że są wystarczająco dokładne i wiarygodne, aby monitorować wydajność agenta. Nieudaną rozmowę definiujemy jako taką, w której agent podaje błędne informacje lub nie pomaga użytkownikowi osiągnąć celu.

Flow chart

Opracowaliśmy następujące Kryteria Oceny:

  • Interakcja: czy to była ważna rozmowa, czy użytkownik zadawał istotne pytania, czy rozmowa miała sens?
  • Pozytywna interakcja: czy użytkownik był zadowolony, czy może był zdezorientowany lub sfrustrowany?
  • Zrozumienie przyczyny: czy agent poprawnie zidentyfikował podstawowy problem użytkownika?
  • Rozwiązanie zapytania użytkownika: czy agent rozwiązał problem użytkownika lub zaproponował alternatywną metodę wsparcia?
  • Halucynacja: czy agent wymyślił informacje, które nie znajdują się w bazie wiedzy?

Jeśli Interakcja zawiedzie, sama rozmowa nie jest ważna. Jeśli jakiekolwiek inne kryteria zawiodą, badamy to dalej. Dochodzenie wskazuje, jak poprawić agenta. Czasami chodzi o dopracowanie użycia narzędzi lub czasu. Innym razem o dodanie zabezpieczeń, aby zapobiec nieobsługiwanym działaniom.

Iteracja z pewnością: API Symulacji Rozmów

Gdy już zidentyfikujemy, co poprawić, następnym krokiem jest testowanie. Tutaj wkracza nasze API Symulacji Rozmów. Symuluje realistyczne scenariusze użytkowników — zarówno end-to-end, jak i w wybranych segmentach — i automatycznie ocenia wyniki, używając tych samych kryteriów, które stosujemy w produkcji. Obsługuje symulację narzędzi i niestandardową ocenę, co czyni go wystarczająco elastycznym do testowania konkretnych zachowań.

Używamy dwóch podejść:

  • Pełne symulacje — Testuj całe rozmowy od początku do końca.
  • Częściowe symulacje — Rozpocznij w środku rozmowy, aby zweryfikować punkty decyzyjne lub podprocesy. To nasze podstawowe podejście do testów jednostkowych, umożliwiające szybką iterację i ukierunkowane debugowanie.

Jasne, skoncentrowane scenariusze pozwalają nam kontrolować, co jest testowane w LLM — zapewniając pokrycie przypadków brzegowych, użycia narzędzi i logiki awaryjnej.

Automatyzacja na dużą skalę: Wbudowanie testów w CI/CD

Ostatnim elementem jest automatyzacja. Wykorzystaliśmy otwarte API ElevenLabs do połączenia z naszym przepływem DevOps na GitHubie — wbudowując ocenę i symulację w nasz pipeline CI/CD. Każda aktualizacja jest automatycznie testowana przed wdrożeniem. To zapobiega regresjom i daje nam szybki feedback na temat wydajności w rzeczywistych warunkach.

Rezultaty: Silniejsza, mądrzejsza Alexis

Ten proces zmienił sposób, w jaki budujemy i utrzymujemy Alexis. Stworzyliśmy pętlę zwrotną, która łączy rzeczywiste użycie z uporządkowaną oceną, ukierunkowanym testowaniem i automatyczną walidacją — pozwalając nam szybciej wprowadzać ulepszenia z większą pewnością.

I to jest ramy, które teraz możemy zastosować do każdego agenta, którego budujemy.

Zobacz więcej

ElevenLabs

Twórz z najwyższą jakością dźwięku AI