Kiedy agenci konwersacyjni są uruchamiani, jak monitorujesz ich na dużą skalę? Jak wykrywasz, kiedy nie działają zgodnie z oczekiwaniami? A po wprowadzeniu zmian, jak je testujesz?
Te pytania kształtowały naszą pracę nad El, Alexis, Conversational AI. W miarę rozwoju El stworzyliśmy system monitorowania, oceny i testowania agentów, oparty na kryteriach oceny i symulacjach rozmów.
Podstawy: Wiarygodne Kryteria Oceny
Poprawa działania agenta zaczyna się od zrozumienia jego zachowania w praktyce. Oznaczało to dopracowanie naszych kryteriów oceny i upewnienie się, że są wystarczająco dokładne i wiarygodne, aby monitorować wydajność agenta. Definiujemy nieudaną rozmowę jako taką, w której agent podaje błędne informacje lub nie pomaga użytkownikowi osiągnąć celu.
Opracowaliśmy następujące Kryteria Oceny:
- Interakcja: czy to była ważna rozmowa, czy użytkownik zadawał istotne pytania, czy rozmowa miała sens?
- Pozytywna interakcja: czy użytkownik był zadowolony, czy może był zdezorientowany lub sfrustrowany?
- Zrozumienie przyczyny: czy agent poprawnie zidentyfikował podstawowy problem użytkownika?
- Rozwiązanie zapytania użytkownika: czy agent rozwiązał problem użytkownika lub zaproponował alternatywną metodę wsparcia?
- Halucynacja: czy agent wymyślił informacje, które nie znajdują się w bazie wiedzy?
Jeśli Interakcja zawiedzie, sama rozmowa nie jest ważna. Jeśli jakiekolwiek inne kryteria zawiodą, badamy to dalej. Dochodzenie wskazuje, jak poprawić agenta. Czasami chodzi o dopracowanie użycia narzędzi lub czasu. Innym razem o dodanie zabezpieczeń, aby zapobiec nieobsługiwanym działaniom.
Iteracja z pewnością: API Symulacji Rozmów
Gdy już zidentyfikujemy, co poprawić, następnym krokiem jest testowanie. Tutaj wkracza nasze API Symulacji Rozmów symuluje realistyczne scenariusze użytkownika - zarówno end-to-end, jak i w wybranych segmentach - i automatycznie ocenia wyniki według tych samych kryteriów, które stosujemy w produkcji. Obsługuje symulację narzędzi i niestandardową ocenę, co czyni go wystarczająco elastycznym do testowania specyficznych zachowań.
Używamy dwóch podejść:
- Pełne symulacje: Testuj całe rozmowy od początku do końca.
- Częściowe symulacje: Rozpocznij w środku rozmowy, aby sprawdzić punkty decyzyjne lub podprocesy. To nasza metoda do testów jednostkowych, umożliwiająca szybkie iteracje i ukierunkowane debugowanie.
Jasne, skoncentrowane scenariusze pozwalają nam kontrolować, co jest testowane w LLM, zapewniając pokrycie przypadków brzegowych, użycia narzędzi i logiki awaryjnej.
Automatyzacja na dużą skalę: Wbudowanie testów w CI/CD
Ostatnim elementem jest automatyzacja. Użyliśmy otwartych API ElevenLabs, aby połączyć się z naszym przepływem GitHub DevOps, wbudowując ocenę i symulację w nasz pipeline CI/CD. Każda aktualizacja jest automatycznie testowana przed wdrożeniem. To zapobiega regresjom i daje nam szybki feedback na temat wydajności w rzeczywistych warunkach.
Rezultaty: Silniejszy, mądrzejszy El
Ten proces zmienił sposób, w jaki budujemy i utrzymujemy El. Stworzyliśmy pętlę zwrotną, która łączy rzeczywiste użycie z oceną, testowaniem i automatyczną walidacją, co pozwala nam szybciej wprowadzać ulepszenia z większą pewnością.
I to jest ramy, które teraz możemy zastosować do każdego agenta, którego budujemy.