
Jak działa silnik orkiestracji ElevenAgent
Zajrzyj pod maskę i zobacz, jak ElevenAgents zarządza kontekstem, narzędziami i workflow, by prowadzić rozmowy w czasie rzeczywistym na poziomie firmowym.
Przegląd pięciu architektur agentów głosowych i kompromisów między zaufaniem, możliwością konfiguracji a jakością rozmowy.
ElevenAgents napędza silnik orkiestracji o niskich opóźnieniach, stworzony specjalnie do rozmów w czasie rzeczywistym i dodający mniej niż 100 ms opóźnienia. Ta architektura łączy nasze badania z najnowszymi LLM-ami od liderów takich jak OpenAI, Google czy Anthropic oraz wybrane modele open-source hostowane przez ElevenLabs. Dzięki użyciu kilku modeli na różnych etapach generowania odpowiedzi agent zapewnia szybkie i trafne rozmowy z zachowaniem kontekstu. Dynamicznie wykorzystując mocne strony każdego modelu, osiągamy niezawodność i skalowalność w różnych zadaniach i scenariuszach, optymalizując równowagę między inteligencją, szybkością i kosztami.
Architektura agenta decyduje o tym, czy będzie działał niezawodnie, dostosuje się do wymagań firmy i zabrzmi naturalnie w rozmowie. Architektura oparta na fuzji, jak model Realtime od OpenAI, może brzmieć bardzo realistycznie w krótkich wymianach. Ale jeśli zespół musi zadbać o zgodność z przepisami, znaleźć przyczynę błędu lub podmienić LLM na lepszy, gdy taki się pojawi, pojedyncza sieć fuzjowana nie daje na to dużych szans.
W tym artykule omawiamy pięć głównych architektur, ich mocne strony, ograniczenia i nasze podejście do budowania agentów do kluczowych zastosowań.narzędzi i bazy wiedzy. Warto wybrać niezależnych agentów zamiast workflow, gdy nie trzeba pilnować ścisłej kolejności kroków lub gdy ważne jest unikanie silosów wiedzy między agentami. Silosy powstają, gdy niektóre narzędzia, dokumenty lub kontekst historyczny są dostępne tylko dla części subagentów. To naturalne w workflow z wieloma agentami i oznacza kompromis między elastycznością a przewidywalnością.
Na co zespoły zwracają uwagę przy wyborze architektury
Zespoły zwracają też uwagę na takie rzeczy jak równoczesność, integracje czy jakość głosu, ale to architektura agenta najbardziej wpływa na powyższe aspekty. Najlepsze zespoły dopasowują architekturę do swojego zastosowania, by zoptymalizować te elementy.

Architektury kaskadowe składają się z połączonych wyspecjalizowanych komponentów: , dużego modelu językowego oraz Text to Speech. Każdy etap można osobno optymalizować, testować i aktualizować.poprzednim wpisie. Dzięki temu agent skutecznie znajduje dokumenty nawet wtedy, gdy ostatnia wypowiedź użytkownika to np. dopytanie, potwierdzenie lub nie zawiera wyraźnego pytania.
Czy mogę mu zaufać w produkcji?
Kompromisy między architekturą kaskadową a fuzjowaną Im więcej narzędzi, tym większe wyzwanie dla modelu, by wybrać właściwą sekwencję. W Agent Builder opis narzędzia wyjaśnia, do czego służy i jakie pola zwraca. To na tej podstawie model rozumie kontekst użycia. Warunki wywołania narzędzia powinny być już w systemowym promptcie agenta. Przykład:
Dzięki temu architektury fuzjowane lepiej zachowują i odtwarzają prozodię, bo model przetwarza wymowę i intonację bezpośrednio. Jednak trudniej je testować i kontrolować, bo nie ma dostępu do wyników pośrednich. Zwykle korzystają też z lżejszych LLM-ów, co ogranicza rozumowanie i korzystanie z narzędzi w porównaniu do kaskadowych podejść, gdzie można użyć najmocniejszych dostępnych modeli.Przewodniku po promptowaniu. W tym systemie można zdefiniować różne typy narzędzi, m.in.:
Od lat zarzuca się architekturom kaskadowym, że tracą wskazówki prozodyczne. Mowa zamienia się w tekst, a intonację, rytm i emocje trzeba odtworzyć na wyjściu. Da się to częściowo odzyskać przez modelowanie, ale nie jest to tak naturalne jak w podejściu fuzjowanym. Inne aspekty, jak opóźnienie czy zmiana kolejności wypowiedzi, można zwykle zoptymalizować do podobnego poziomu w obu podejściach.zmienną dynamiczną. Te dane są przechowywane jako proste pary klucz-wartość, wyciągane z odpowiedzi narzędzia według ustalonych mapowań. Po ustawieniu zmienne mogą być użyte w systemowym promptcie, parametrach narzędzi i warunkach workflow. Dzięki temu agent zyskuje coś w rodzaju pamięci roboczej, która zmienia się w trakcie rozmowy.
1. Podstawowa kaskadowa
Architektury fuzjowane działają zupełnie inaczej. Rozpoznawanie, rozumowanie i generowanie odbywa się w jednej sieci multimodalnej. Audio wchodzi, audio wychodzi – bez żadnej warstwy pośredniej.
Pięć architekturZbieranie danych i Kryteria oceny. Zbieranie danych pozwala wyciągnąć uporządkowane informacje z transkrypcji rozmowy do dalszej analizy. Klienci często eksportują te dane do własnych hurtowni na potrzeby raportów lub workflow. Przykładowo agent sprzedażowy może automatycznie wyciągnąć dane potencjalnego klienta i utworzyć lub zaktualizować lead w CRM. Z kolei kryteria oceny określają, czy rozmowa była udana. Jeśli wszystkie kryteria są spełnione, rozmowa jest oznaczona jako udana; w przeciwnym razie jako nieudana. Dzięki temu rozmowy zawsze spełniają ustalone standardy jakości i spójności, a feedback jest szybki. Po zakończeniu rozmowy i wywołaniu webhooka agent przetwarza finalną transkrypcję (wraz z wykonaniami narzędzi i metadanymi) przez LLM razem ze wszystkimi punktami zbierania danych i kryteriami oceny. Model na tej podstawie sprawdza, czy każde kryterium jest spełnione i wyciąga wskazane dane do dalszej analizy. Ponieważ LLM interpretuje te ustawienia bezpośrednio z promptu, ważne jest, by były jasne i spójne – wtedy model dobrze je zrozumie i zastosuje. Dlatego polecamy te praktyki przy pisaniu kryteriów oceny i opisów zbierania danych.
1. Kaskadowa podstawowa
Audio jest transkrybowane, LLM generuje odpowiedź tekstową, a TTS ją odczytuje. Każdy etap działa na czystym tekście, więc wszystko można zobaczyć, przetestować i kontrolować.
Przykładowe zastosowania:
Tak działa
Obsługi klienta to wizualny interfejs do projektowania złożonych ścieżek rozmów. Tworzy logiczny obiekt, którym orkiestrator zarządza wieloma subagentami, narzędziami i przekierowaniami pod jednym identyfikatorem agenta. Workflows wprowadzają dodatkowe elementy, o których trzeba pamiętać poza tymi z niezależnych agentów, m.in. jak:
Architektura zachowuje wszystko z podstawowej kaskady: pełną przejrzystość, zabezpieczenia na poziomie tekstu, możliwość wymiany komponentów, dostrajanie do branży i dostęp do najmocniejszych modeli rozumowania i obsługi narzędzi. Dodatkowo daje lepszą prozodię, niższe opóźnienia i płynniejszą zmianę kolejności wypowiedzi. Zespół może wdrożyć nowy LLM od razu po premierze albo dostroić STT do słownictwa medycznego bez przebudowy reszty.

Na tej bazie Workflows wprowadzają wyspecjalizowane subagenty działające w grafie skierowanym. Każdy subagent ma wąsko określony cel i rozszerza bazową konfigurację o dodatkowe instrukcje, narzędzia i źródła wiedzy potrzebne tylko w swojej roli. Zamiast definiować całą rozmowę od nowa, subagenty nakładają swój cel na bazowego agenta przez kompozycję promptu i selektywne rozszerzanie kontekstu. Historia rozmowy jest zachowana przy przejściach między subagentami, by utrzymać ciągłość, ale każdy subagent działa z celowo ograniczonym widokiem systemu. Bazy wiedzy i narzędzia są udostępniane wybiórczo, tworząc wyraźne silosy i zapobiegając mieszaniu się odpowiedzialności. By to wzmocnić, obiekt orkiestratora jest przebudowywany przy każdym przejściu, jakby to był niezależny agent. Dzięki temu prompt, konfiguracja i możliwości aktywnego subagenta są w pełni przewidywalne. Takie podejście pozwala Workflows zachować globalną spójność przy jednoczesnej lokalnej specjalizacji – daje przewidywalność, jasny podział ról i precyzyjną kontrolę nad kontekstem, wiedzą i akcjami na każdym etapie rozmowy.
3. Hybryda kaskadowa i fuzjowana
Niektóre architektury przekazują cechy akustyczne (wymowa, emocje, ton) z mowy bezpośrednio do LLM jako embeddingi, zamiast najpierw zamieniać je na tekst. TTS pozostaje modułowy.
Dzięki temu LLM dostaje więcej informacji o
Przykładowe zastosowania:
4. Fuzjowana sekwencyjna
Jeden model multimodalny obsługuje rozpoznawanie, rozumowanie i generowanie w jednym przebiegu, po jednej turze. Tak działa np. model Realtime API od OpenAI.
Ale trudno tu wdrożyć zabezpieczenia bez warstwy tekstu, brakuje wyników pośrednich do debugowania i nie da się łatwo wymienić LLM ani dostroić STT do branży. Rdzenie rozumowania są zwykle lżejsze niż czołowe LLM-y, więc złożone zadania i obsługa narzędzi wypadają słabiej. Gdy zadanie wymaga rozwiązania trudnego problemu, sama prozodia nie wystarczy.
Przykładowe zastosowania:
5. Fuzjowana dupleksowa
Nasz zespół Forward Deployed Engineering ściśle współpracuje z klientami, by te możliwości rozwijały się razem z realnymi wdrożeniami. Kolejna generacja agentów zapewni jeszcze większą przejrzystość, przewidywalność i elastyczność bez utraty niskich opóźnień, które umożliwiają rozmowy w czasie rzeczywistym.

Zajrzyj pod maskę i zobacz, jak ElevenAgents zarządza kontekstem, narzędziami i workflow, by prowadzić rozmowy w czasie rzeczywistym na poziomie firmowym.

Bardziej ekspresyjni agenci głosowi, stworzeni do rozmów z klientami w prawdziwym świecie.