
Avidio scales personalised outreach with hyper-personalized video
Delivering authentic ad-style videos powered by human-sounding AI voices by ElevenLabs
Dowiedz się, jak skutecznie testować i ulepszać agentów Conversational AI, używając solidnych kryteriów oceny i symulacji rozmów.
Kiedy konwersacyjne
Te pytania kształtowały naszą pracę nad El, Alexis, Conversational AI. W miarę rozwoju El stworzyliśmy system monitorowania, oceny i testowania agentów, oparty na kryteriach oceny i symulacjach rozmów.
Poprawa działania agenta zaczyna się od zrozumienia jego zachowania w praktyce. Oznaczało to dopracowanie naszych kryteriów oceny i upewnienie się, że są wystarczająco dokładne i wiarygodne, aby monitorować wydajność agenta. Definiujemy nieudaną rozmowę jako taką, w której agent podaje błędne informacje lub nie pomaga użytkownikowi osiągnąć celu.
Jeśli Interakcja zawiedzie, sama rozmowa nie jest ważna. Jeśli jakiekolwiek inne kryteria zawiodą, badamy to dalej. Dochodzenie wskazuje, jak poprawić agenta. Czasami chodzi o dopracowanie użycia narzędzi lub czasu. Innym razem o dodanie zabezpieczeń, aby zapobiec nieobsługiwanym działaniom.
Gdy już zidentyfikujemy, co poprawić, następnym krokiem jest testowanie. Tutaj wkracza nasze API Symulacji Rozmów symuluje realistyczne scenariusze użytkownika - zarówno end-to-end, jak i w wybranych segmentach - i automatycznie ocenia wyniki według tych samych kryteriów, które stosujemy w produkcji. Obsługuje symulację narzędzi i niestandardową ocenę, co czyni go wystarczająco elastycznym do testowania specyficznych zachowań.
Jasne, skoncentrowane scenariusze pozwalają nam kontrolować, co jest testowane w LLM, zapewniając pokrycie przypadków brzegowych, użycia narzędzi i logiki awaryjnej.
Ostatnim elementem jest automatyzacja. Użyliśmy otwartych API ElevenLabs, aby połączyć się z naszym przepływem GitHub DevOps, wbudowując ocenę i symulację w nasz pipeline CI/CD. Każda aktualizacja jest automatycznie testowana przed wdrożeniem. To zapobiega regresjom i daje nam szybki feedback na temat wydajności w rzeczywistych warunkach.
Ten proces zmienił sposób, w jaki budujemy i utrzymujemy El. Stworzyliśmy pętlę zwrotną, która łączy rzeczywiste użycie z oceną, testowaniem i automatyczną walidacją, co pozwala nam szybciej wprowadzać ulepszenia z większą pewnością.
I to jest ramy, które możemy teraz zastosować do każdego
Delivering authentic ad-style videos powered by human-sounding AI voices by ElevenLabs
Italy’s leading property marketplace adds 24/7 voice support with AI
Napędzane przez ElevenLabs Agenci