Pomiń

Jak budować trwałe voice agenty: lekcje z wdrożeń inżynierskich

Praktyczny sposób wdrażania i skalowania voice agentów, którzy naprawdę rozwiązują problemy klientów – na podstawie realnych wdrożeń.

A voice selection interface showing a carousel of distinct, named voices, with pro voices visually differentiated from standard ones.

W większości firm wsparcie techniczne od lat mierzy się liczbą spraw, które udało się „odbić” od obsługi. Chodzi o to, żeby ograniczyć liczbę połączeń i kontaktów z konsultantami. Ale samo odbicie sprawy to nie to samo co jej rozwiązanie – i właśnie tu często psuje się doświadczenie klienta. Żeby to naprawić, agenci muszą mieć dostęp nie tylko do danych, ale też do narzędzi, które pozwalają działać. Dzięki temu mogą np. zwrócić pieniądze, przeprowadzić klienta przez proces zakupu albo przekazać sprawę człowiekowi, gdy jest taka potrzeba – i to z pełnym kontekstem. To pozwala firmom obsługiwać klientów na dużą skalę, odciążać zespoły wsparcia i jednocześnie poprawiać doświadczenie po obu stronach rozmowy.najnowszych wdrożeń z Revolut, fintechu obsługującym 70 milionów klientów na świecie, przełożyło się to na 8-krotne skrócenie czasu rozwiązania sprawy i 99,7% skutecznych połączeń.

Tak duże zmiany trzeba wprowadzać stopniowo, w zgodzie z misją firmy i przy wsparciu zarządu. Technicznie – praca w nieuporządkowanym środowisku wiąże się z ryzykiem, które trzeba dobrze kontrolować. Jeśli agent może działać w CRM, zmieniać zamówienia czy eskalować sprawy, to model zarządzania jest równie ważny jak sam model AI. Kluczowe pytanie nie brzmi więc, czy agent poradzi sobie z realnymi zadaniami, ale jak wdrażać go bezpiecznie i powtarzalnie.

W tym artykule dzielimy się naszym doświadczeniem – co sprawia, że voice agent działa od pierwszego wdrożenia aż po skalowanie na całą obsługę klienta.

Wdrażanie agentów vs. wdrażanie oprogramowania

Zanim przejdziemy do budowania agentów, warto porównać wdrożenie voice agentów z klasycznym oprogramowaniem, które firmy rozwijają od lat. Z tej perspektywy agent składa się z dwóch części: tradycyjnego oprogramowania i głównego orkiestratora.

Oprogramowanie:

A set of deployment channels for voice and messaging agents, spanning telephony, contact center platforms, digital surfaces, and messaging apps through to flexible SDK and API integrations.

Oprogramowanie: obserwowalność i zarządzanie

A full suite of observability and governance tools for managing agent quality in production, from evaluations, testing, and simulations to compliance, PII redaction, and continuous improvement.

Główny orkiestrator

A diagram showing how the Voice Engine handles audio orchestration (speech-to-text, turn taking, interruption detection) and passes transcripts to the Agent Orchestration layer, where an LLM reasons over a system prompt, knowledge base, and RAG to drive workflows and routing.

Elementy Core Orchestrator są z natury trudniejsze do przewidzenia, ale to one decydują o tym, jak agent działa na żywo – zarówno jeśli chodzi o jakość odpowiedzi, jak i odczuwalne opóźnienia. W przeciwieństwie do tradycyjnego oprogramowania, tu pracujemy na języku naturalnym i dźwięku, gdzie możliwych wejść jest nieskończenie wiele, a drobne zmiany w sformułowaniu, kontekście, hałasie w tle czy zachowaniu użytkownika mogą dać zupełnie inne wyniki. Przez to zwykłe testy nie wystarczą: agent może przejść setki testów, a i tak zawieść w produkcji w nieoczekiwany sposób.wersjonowanie, testy A/B, telefonia i konfiguracja pierwszej wiadomości. Te elementy po wdrożeniu praktycznie się nie zmieniają, więc ich działanie jest przewidywalne. Dzięki dobrym praktykom inżynierskim można je szybko rozwijać i dokładnie monitorować przez metryki, logi i ślady. Poprawa wydajności w tej warstwie to znane schematy: cache, pule połączeń, skalowanie infrastruktury czy optymalizacja protokołów – wszystko daje przewidywalne efekty.

Opóźnienia w tej warstwie są mniej przewidywalne – zależą od czasu działania modelu, pojawiania się artefaktów dźwiękowych, łańcuchów wywołań narzędzi i zmienności typowej dla systemów generatywnych. Żeby dobrze tym zarządzać, trzeba podejść inaczej: korzystać z frameworków ewaluacyjnych, monitorować produkcję i stale ulepszać agenta na podstawie prawdziwych rozmów, a nie tylko założeń sprzed wdrożenia.

To rozróżnienie wpływa na to, jak firmy powinny wdrażać takie rozwiązania: zacząć od zastosowań ważnych dla organizacji, ale niskiego ryzyka, a potem stopniowo zwiększać skalę wraz ze wzrostem zaufania do systemu.

Cykl wydawniczy

Wybór pierwszych wdrożeń

Dla zespołów, które zaczynają pracę z agentami głosowymi, wybór odpowiednich pierwszych wdrożeń to jedna z najważniejszych decyzji. I wcale nie chodzi tu głównie o technologię. Zespoły, które szybko odnoszą sukcesy i nie utkną w wiecznym POC, mają jedną wspólną cechę: potrafią jasno odpowiedzieć na kilka kluczowych pytań.

Dla zespołów, które zaczynają z voice agentami, wybór odpowiednich pierwszych przypadków to jedna z najważniejszych decyzji. I wbrew pozorom nie chodzi tu głównie o technologię. Zespoły, które szybko odnoszą sukcesy i nie grzęzną w wiecznych POC, mają jedną wspólną cechę: potrafią jasno odpowiedzieć na kilka kluczowych pytań.

  • Jak ten przypadek przynosi realną wartość biznesową? Najlepszy przypadek na start to nie ten najciekawszy technicznie, tylko taki, który realnie wpływa na to, co już jest ważne dla firmy. Liczy się wpływ na przychody, koszty czy satysfakcję klienta – czyli to, co liderzy już mierzą i za co odpowiadają. Bez tego trudno uzasadnić kolejne iteracje, a projekt może utknąć zanim technologia się sprawdzi.
  • Czy użytkownik od razu wie, czym zajmuje się agent?Niejasny zakres działania to najczęstszy powód rozjazdu między testami a produkcją. Jeśli użytkownik nie wie, co agent potrafi, będzie testować jego granice w sposób, którego nie przewidziano. Dobry agent jasno określa zasady od pierwszej wiadomości i umie grzecznie obsłużyć prośby spoza zakresu.
  • Jak wyglądają dobre i złe interakcje – i czy da się je opisać konkretnymi kryteriami oceny?Dobra interakcja to nie tylko wykonanie zadania, ale też poczucie, że użytkownik został wysłuchany, eskalacja nastąpiła w odpowiednim momencie, a efekt jest zgodny z celem firmy. Kryteria oceny dzielą się na dwie grupy: ilościowe (np. skuteczność zadań, liczba eskalacji) i jakościowe, wymagające analizy rozmów. Jasne określenie tych drugich daje zespołowi konkretny cel i naturalny próg wdrożenia. Jeśli agent spełnia kryteria i metryki są stabilne, można przejść do produkcji. Bez nich decyzja jest uznaniowa.
  • Jakie są kompromisy między wydajnością a kontrolą – i co jest ważniejsze na tym etapie?Im więcej autonomii ma agent, tym bardziej naturalne i elastyczne są rozmowy, ale rośnie ryzyko wyjścia poza ustalone granice. Większa kontrola przez ograniczone promptowanie i ostrzejszą logikę eskalacji zmniejsza to ryzyko, ale agent może wydawać się sztywny. Żadne z tych skrajności nie jest dobre. Jeśli firma za wcześnie wszystko blokuje, kończy z rozbudowanym IVR-em. Jeśli idzie za szybko, zanim zbuduje zaufanie, tworzy sobie więcej problemów niż korzyści. To, gdzie ustawić tę granicę na każdym etapie, wpływa na konfigurację modelu, logikę eskalacji i to, ile wiedzy agenta jest w promptach, a ile w źródłach zewnętrznych.

Budowa pierwszej wersji

Przy przejściu do działania można korzystać z metod znanych w IT od lat. Test Driven Development (TDD) daje ramy, by agent był zgodny z kluczowymi metrykami przez cały proces.

Przy wdrożeniu warto sięgnąć po metody znane z klasycznego IT. Test Driven Development (TDD) daje ramy, by agent cały czas spełniał kluczowe metryki.

The agent development lifecycle, where scoping feeds into a continuous cycle of defining tests, building, and deploying, with both pre-production and production failures looping back to expand the test suite over time.

Mając pierwszy zestaw testów, zaczynamy od promptu systemowego. Tu określamy zasady, ton i sposób działania agenta: co ma robić, czego nie, jak zachowywać się na granicy swojej roli. Dobry prompt to nie tylko treść, ale i struktura – jasne sekcje, logiczne grupowanie wskazówek i unikanie warunkowych sformułowań sprawiają, że agent działa przewidywalnie. Na tym etapie często wracamy do przewodnika po promptowaniu.Testy agenta, które wielokrotnie sprawdzają konkretne zachowania agenta. Kryteria najlepiej ustalać na podstawie prawdziwych rozmów ludzi. Testy buduje się stopniowo – zaczynając od podstawowych zachowań i rozszerzając o nowe przypadki i edge case’y.

Równolegle konfiguruje się kluczowe elementy agenta: LLM, model Text to Speech (TTS) i głos. Wybór LLM to głównie kompromis między szybkością a jakością – szybsze modele zwykle mają słabsze rozumowanie i odwrotnie. W TTS liczy się to, czego wymaga przypadek użycia: ekspresja, niskie opóźnienia czy obsługa wielu języków. Głos to już decyzja nie tylko techniczna, ale i wizerunkowa – wpływa na to, jak firma jest odbierana przez każdego dzwoniącego, więc wybór należy zarówno do marketingu, jak i inżynierów. Dzięki temu wybór głosu może odbywać się równolegle z resztą prac, a nie blokować startu czy końca projektu. ElevenAgents daje dostęp do ponad 10 000 głosów, a jeśli żaden nie pasuje, zespół może sklonować lub stworzyć własny.

Na tym etapie agenta można opcjonalnie rozbudować o Bazę wiedzy,

Mając te podstawy, agent jest gotowy do testów.Bazy wiedzy, narzędzi i konfiguracji kanałów. Każdy dodatek daje nowe możliwości, ale też wymaga nowych testów. Niezależnie czy chodzi o integrację telefonii, dostęp do zewnętrznych baz czy możliwość działania w imieniu klienta – warto sprawdzić te decyzje pod kątem kryteriów oceny, zanim rozszerzysz zakres. Gdy dodajesz narzędzia, prompt systemowy i opis narzędzia jasno określają, kiedy i jak ich używać, by agent robił to konsekwentnie i w odpowiednim kontekście.

Przygotowanie do produkcji

Gdy testy i kryteria oceny zdefiniowane na etapie budowy są już uruchomione na gotowym agencie, praca zamienia się w szybkie iteracje: dodajemy testy, szukamy błędów, poprawiamy prompt lub konfigurację i testujemy ponownie. Większość błędów na tym etapie to nie błędy modelu, tylko promptu – instrukcja, która wydawała się jasna, okazuje się niejednoznaczna w trakcie rozmowy. Pojawiają się edge case’y, których nie przewidziano w pierwszym zestawie testów. Każdy z nich to nowy test Next Turn, który można stworzyć na podstawie rozmowy. Kiedy przestać iterować? Gdy agent konsekwentnie przechodzi kryteria oceny w wielu testach, a metryki (np. skuteczność realizacji zadań, liczba eskalacji) są stabilne w akceptowalnych granicach. Dlatego tak ważne jest ustalenie tych kryteriów przed budową – bez nich gotowość do produkcji to tylko subiektywna ocena.

W praktyce większość zespołów zauważa, że kilka powtarzających się wzorców błędów odpowiada za większość problemów. Najczęstsze to: niejasny prompt (agent dostaje sprzeczne lub zbyt ogólne instrukcje i zachowuje się nieprzewidywalnie), złe użycie narzędzi (agent używa narzędzia w złym kontekście lub nie używa go, gdy powinien) i błędy w eskalacji (agent eskaluje zbyt szybko lub za długo trzyma rozmowę). Każdy z tych problemów można naprawić na poziomie promptu – doprecyzować instrukcję, dodać jasny przykład lub zmienić próg eskalacji. Ważne, by wyłapać je przed wdrożeniem.

Najczęstszy błąd to traktowanie przejścia testów jako gwarancji, a nie sygnału. Testy, które sprawdzają tylko idealny scenariusz, przejdą łatwo, ale niewiele znaczą. Liczy się pokrycie odmów, zmian tematu w trakcie rozmowy, niejasnych wejść i interakcji z wieloma narzędziami. Podobnie, jeśli zespół pomija testy symulacyjne i polega tylko na testach pojedynczych tur, przeoczy błędy, które wychodzą dopiero w pełnej rozmowie – np. utrata kontekstu czy narastające błędy. Gdy powtarzające się błędy są już rozwiązane, a agent radzi sobie z nietypowymi przypadkami, dalsze iteracje w stagingu mają coraz mniejszą wartość. Wtedy najwięcej dają już prawdziwe rozmowy.

Wdrożenie na produkcję nie kończy iteracji – po prostu źródłem wiedzy stają się rozmowy z użytkownikami, a nie testy syntetyczne. Kryteria oceny, które wyznaczyły moment wdrożenia, stają się teraz punktem odniesienia do mierzenia wyników na żywo i cykl się powtarza.

Pętle feedbacku, ewaluacja i kiedy przestać iterować

Gdy testy są już zdefiniowane i działają, szybko widać, gdzie są luki. Dzięki

Najważniejsze na tym etapie jest sprawdzanie zmian, a nie zakładanie, że działają. Poprawka, która rozwiązuje jeden problem, może niepostrzeżenie wprowadzić inny. ElevenAgents wspiera wersjonowanie, dzięki czemu można testować nowe wersje na małej grupie użytkowników, zanim trafią do wszystkich. To pozwala upewnić się, że poprawki naprawdę poprawiają wyniki, a nie tylko przesuwają problem gdzie indziej.

Co może pójść nie takwersjonowanie, więc możesz testować nowe wersje na małej grupie użytkowników, zanim wdrożysz je szeroko. Dzięki temu masz pewność, że poprawki naprawdę poprawiają wyniki, a nie tylko przesuwają problem gdzie indziej.

Największy błąd na tym etapie to pominięcie wdrożeń etapowych i wprowadzenie zmian od razu dla wszystkich użytkowników. Bez etapowych rolloutów tracisz możliwość sprawdzenia, jaki wpływ ma konkretna zmiana, a przy dużej skali trudno wtedy zrozumieć, co naprawdę poprawia lub pogarsza metryki. Traktowanie wszystkich użytkowników jako środowiska testowego to nie tylko ryzyko – to także utrata kontroli nad tym, co się dzieje.

Poza strategią rolloutów są jeszcze dwa typowe błędy. Pierwszy to nadmierne skupienie na ostatnich błędach – gdy jedna głośna rozmowa pójdzie źle, pojawia się pokusa, by od razu poprawić prompt, ale takie zmiany bez pełnych testów często psują to, co wcześniej działało. Każda zmiana, nawet drobna, to nowa iteracja i wymaga testów. Drugi błąd to rozmycie kryteriów oceny – z czasem zespół może nieświadomie obniżać poprzeczkę, zwłaszcza pod presją wdrożenia. Kryteria ustalone na początku powinny być punktem odniesienia. Jeśli wydają się zbyt ostre, trzeba je świadomie zaktualizować, a nie pozwalać, by standardy się rozmyły.

Skalowanie z pewnością

Zwiększanie ruchu to decyzja oparta na zaufaniu, nie na czasie. Sygnał do skalowania to moment, gdy agent konsekwentnie przechodzi kryteria oceny w wielu testach, metryki są stabilne, a rollouty etapowe nie pokazują pogorszenia względem grupy kontrolnej.

Częste pytanie na tym etapie: ile połączeń wystarczy, by wyciągnąć wnioski? Partie poniżej 100 połączeń na rollout dają zbyt duże wahania, by ocenić wyniki. 60% skuteczności na 25 połączeniach i 60% na 100 połączeniach to zupełnie inny poziom pewności. Poza liczbą ważne, by partia obejmowała pełen przekrój realistycznych wejść – także edge case’y, nietypowe intencje i błędy, które wychodzą dopiero przy większej skali.

Większy ruch uwypukla zarówno to, co działa, jak i to, co nie działa. Skalowanie przed rozwiązaniem kluczowych problemów prowadzi do trudnych do cofnięcia obciążeń wsparcia.

Powtarzaj cykl

Wiedzieć, kiedy przestać, jest równie ważne jak wiedzieć, co poprawić. Iteracje mają malejącą wartość, a sygnałem do przerwy jest moment, gdy agent konsekwentnie spełnia kryteria ustalone na początku. Dalsze zmiany to wtedy większe ryzyko niż korzyść.

To, jak wygląda „konsekwentne spełnianie kryteriów”, zależy od kontekstu. Zespoły z ograniczonym dostępem do danych lub niepełnymi integracjami mogą uznać, że 50% eskalacji to realny sufit, dopóki nie rozwiążą tych ograniczeń. Tam, gdzie dane są pełne, najlepsze wdrożenia celują w ponad 80% skuteczności i poniżej 20% eskalacji. Najważniejsza jest jednak stabilność: powtarzalne wyniki przez kilka tygodni ruchu produkcyjnego, bez pogorszenia w testach, to prawdziwy sygnał. Gdy kolejna iteracja daje mniejszy zysk niż ryzyko pogorszenia, czas się zatrzymać.

To nie znaczy, że praca się kończy. Gdy pojawią się nowe wymagania, proces zaczyna się od nowa. Pytania z pierwszego wdrożenia są tak samo ważne przy kolejnym. Różnica jest taka, że zespół w drugim cyklu ma już testy, bazę oceny i doświadczenie operacyjne, których wcześniej nie miał. Ta przewaga sprawia, że niektóre firmy wyciągają trwałą wartość z agentów głosowych, a inne zostają na etapie POC.

Podsumowanie

Zespoły, które naprawdę rozwiązują problemy klientów, to te, które najpierw definiują, co znaczy „dobrze”, trzymają się tego przez cały cykl iteracji i traktują każde wdrożenie jako bazę pod kolejne. Agenci konwersacyjni to nie jednorazowe wdrożenie – prawdziwe rozmowy zawsze pokażą nowe edge case’y, których nie przewidzisz w testach, a praca nad ulepszaniem nie kończy się na wdrożeniu.

ElevenAgents powstał z myślą o tej rzeczywistości. Testy agentów, analiza rozmów i rollouty etapowe to podstawa, która pozwala przejść od POC do systemu, który naprawdę rozwiązuje problemy klientów na dużą skalę – a nie tylko je odbija. To jest luka, którą warto zamknąć.

ElevenAgents powstał z myślą o tej rzeczywistości. Testy agentów, analiza rozmów i rollouty etapowe to fundament, który zamienia POC w system naprawdę rozwiązujący problemy klientów na dużą skalę – a nie tylko je omijający. To właśnie tę lukę warto zamknąć.

Przeglądaj artykuły zespołu ElevenLabs

Twórz z najwyższej jakości audio AI