
Så fungerar ElevenAgents orkestreringsmotor
En inblick i hur ElevenAgents hanterar kontext, verktyg och arbetsflöden för att leverera samtal i realtid på företagsnivå.
En genomgång av de fem vanligaste röstagent-arkitekturerna och avvägningarna mellan resonemang, kontroll och naturlighet.
ElevenAgents drivs av en låglatens orkestreringsmotor som är byggd för samtal i realtid och lägger till mindre än 100 ms fördröjning. Arkitekturen kombinerar det bästa från ElevenLabs forskning med avancerade LLM:er från ledande leverantörer som OpenAI, Google och Anthropic, samt utvalda open source-modeller som hostas av ElevenLabs. Genom att använda flera modeller i olika steg av svarskedjan säkerställer agenten att samtalen blir både snabba och kontextmedvetna. Genom att dynamiskt utnyttja varje modells styrkor tillsammans uppnår vi pålitlig och skalbar prestanda för olika företagsuppgifter och samtalsscenarier, samtidigt som vi optimerar balansen mellan intelligens, hastighet och kostnad.
Agentens arkitektur avgör hur naturliga, smarta och konsekventa svaren blir, och om agenten beter sig förutsägbart över tid. Till exempel kan en agent med fusionbaserad arkitektur låta väldigt verklighetstrogen i korta samtal, men ha svårare att resonera eller hålla sig konsekvent i längre konversationer.
I det här inlägget går vi igenom de fem vanligaste arkitekturerna för konversationsagenter idag, förklarar deras grundidéer, för- och nackdelar, och hur team väljer mellan dem beroende på mål.verktyg och en kunskapsbas. Självständiga agenter passar bäst när ditt användningsområde inte kräver att du följer en strikt sekvens av steg, eller när det är viktigt att undvika kunskapssilor mellan agenter. Kunskapssilor uppstår när vissa verktyg, dokument eller historik bara är tillgängliga för vissa underagenter. Detta är vanligt i multi-agent arbetsflöden och innebär en avvägning mellan flexibilitet och förutsägbarhet.
Vad team optimerar för när de bygger agenter
Även om team också bryr sig om saker som samtidighet, integrationer och röstkvalitet, kan faktorerna ovan påverkas mer direkt av agentens arkitektur. De mest framgångsrika teamen anpassar sin arkitektur för att optimera dessa faktorer för sitt användningsområde.

Kaskadbaserade arkitekturer byggs genom att koppla ihop specialiserade komponenter: , en Large Language Model och Text to Speech. Varje steg kan optimeras, testas och uppgraderas separat.tidigare inlägg. Det gör att dokument kan hämtas pålitligt även när det senaste användarinlägget är en följdfråga, ett bekräftande svar eller saknar en tydlig fråga.
Att hämta information är dock bara ett sätt för agenter att interagera med externa system.
Fusion-baserade metoder slår istället ihop dessa steg i en enda multimodal modell. Ljud går in och ljud kommer ut, med taligenkänning, resonemang och generering i samma nätverk. Ju fler verktyg som läggs till, desto större blir modellens ansvar att välja rätt verktyg i rätt ordning. I Agent Builder beskriver verktygets beskrivning vad verktyget gör och vilka fält det returnerar. Det är denna information som språkmodellen använder för att förstå kontexten kring användningen. När det är definierat ska de specifika villkoren för att använda verktyget anges i agentens systemprompt. Till exempel:
Den här designen gör att fusion-baserade arkitekturer kan bevara och återskapa prosodi mer effektivt, eftersom modellen bearbetar uttal och intonation direkt. Men fusionsmodeller är svårare att testa och styra, eftersom mellanresultat inte syns. De bygger ofta också på lättare LLM-kärnor, vilket begränsar resonemang och verktygsanvändning jämfört med kaskadmetoder där man kan använda de starkaste modellerna som finns.Prompting Guide. Inom detta ramverk kan flera typer av verktyg definieras, främst:
De fem möjliga arkitekturernadynamisk variabel. Denna information sparas som enkla nyckel-värde-par, hämtade från verktygets svar med fördefinierade mappningar. När de är satta kan dessa variabler användas i agentens systemprompt, framtida verktygsparametrar och arbetsflödesvillkor. Denna återkoppling ger agenten ett slags arbetsminne som utvecklas under interaktionen.
1. Grundläggande kaskad
När exekvering och orkestrering är på plats är nästa steg att förstå hur man mäter prestanda.
Agenten uppfattar dock inte nyanser i talet som ton, rytm och känsla, vilket kan göra samtalet mindre naturligt.Datainsamling och Utvärderingskriterier in i bilden. Datainsamling låter dig extrahera strukturerad information från en samtalstranskription för vidare analys och sammanställning. Kunder exporterar ofta dessa resultat till sitt företags datalager för rapportering eller vidare bearbetning. Till exempel kan en Sales Development Agent automatiskt extrahera prospektinformation från ett samtal för att skapa eller uppdatera ett lead i CRM-systemet. Utvärderingskriterier avgör om ett samtal anses lyckat. Om alla kriterier är uppfyllda markeras samtalet som lyckat, annars flaggas det som misslyckat. Det säkerställer att samtalen alltid håller uppsatta kvalitets- och integritetskrav och ger snabb återkoppling. När ett samtal avslutas och webhooken triggas bearbetar agenten den slutliga transkriptionen, inklusive verktygsanrop och metadata, genom en LLM tillsammans med alla konfigurerade datainsamlingspunkter och utvärderingskriterier. Modellen använder denna kombinerade prompt för att avgöra om varje kriterium är uppfyllt och för att extrahera angivna datapunkter för vidare analys. Eftersom LLM:en tolkar dessa konfigurationer direkt i sin prompt är det viktigt att de är tydligt och konsekvent formulerade så att modellen kan förstå och tillämpa dem korrekt. Vi rekommenderar därför följande bästa praxis för att skriva utvärderingskriterier och datainsamlingsbeskrivningar.
Möjliga användningsområden:
2. Avancerad kaskad
Avancerade kaskadarkitekturer inför kontextuell TTS, där LLM:en inte bara bestämmer vad som ska sägas utan även hur, och skickar instruktioner som "säg detta lugnande" eller "svara med betoning" till TTS-modellen. Agenten talar mer realistiskt och varierat, men behåller samma skyddsräcken, deterministiska flöden, verktygsanvändning och spårbarhet som en enkel kaskad.
Detta är metoden bakom
Kundsupport ger ett visuellt gränssnitt för att designa komplexa samtalsflöden. Det resulterar i det logiska objekt som orkestratorn använder för att hantera flera underagenter, verktyg och överföringar under en självständig agentidentitet. Workflows innebär ytterligare komponenter utöver de som redan beskrivits för självständiga agenter, bland annat hur:
Vissa kaskadarkitekturer skickar akustiska egenskaper (t.ex. uttal, känsla, ton) från det inkommande talet direkt in i LLM:en som inbäddningar. Det här bevarar mer av användarens ursprungliga avsikt samtidigt som TTS förblir modulärt. Verktygsanvändning och regler är fortfarande möjliga, men den sammanslagna ASR+LLM-blocket är svårare att granska än en ren texthantering, och LLM:en kan inte bytas ut lika enkelt som i en kaskadmodell.

Ovanpå denna gemensamma grund introducerar Workflows specialiserade underagenter som verkar i en riktad graf. Varje underagent får ett smalt definierat mål och utökar grundkonfigurationen med ytterligare promptinstruktioner, verktyg och kunskapskällor som bara är relevanta för dess roll. Istället för att omdefiniera hela samtalsinställningen lägger underagenter till sin avsikt ovanpå basagenten via promptkomposition och selektiv kontextutökning. Samtalshistoriken bevaras mellan underagentövergångar för att hålla kontinuitet, men varje underagent arbetar med en avsiktligt begränsad vy av systemet. Kunskapsbaser och verktyg exponeras selektivt, vilket skapar tydliga silor och förhindrar läckage mellan ansvarsområden. För att förstärka denna isolering byggs orkestratorobjektet om vid varje övergång, som om det vore en självständig agent. Det säkerställer att den aktiva underagentens prompt, konfiguration och tillgängliga funktioner är helt förutsägbara. Denna design gör att Workflows kan bibehålla global konsekvens samtidigt som lokal specialisering stöds, vilket ger förutsägbart beteende, tydlig ansvarsfördelning och exakt kontroll över hur kontext, kunskap och åtgärder används i varje steg av interaktionen.
4. Sekventiell Fusion
I sekventiella fusionsarkitekturer hanterar en enda multimodal modell igenkänning, resonemang och talgenerering. Modellen lyssnar tills användaren är klar och producerar sedan ljud direkt. Genom att bearbeta ljudet från början till slut fångar dessa arkitekturer naturligt signaler som uttal, tempo och intonation, vilket ofta ger mer flytande och uttrycksfullt tal.
Nackdelen är att skyddsräcken är svårare att sätta utan textlager, verktygsanvändning begränsas av enklare resonemangskärnor och insynen är begränsad utan tydliga mellanresultat.
När ett samtal går vidare till ett nytt steg aktiveras en version av agenten som är anpassad för just det steget. Varje steg har egna instruktioner och tillgång bara till den kunskap och de verktyg som är relevanta för dess ansvar. Till exempel kan ett återbetalningssteg hänvisa till återbetalningspolicy utan att ärva irrelevant kontext från onboarding eller triage. Förflyttning mellan steg styrs av tydliga övergångsvillkor. Dessa avgör när ansvaret ska flyttas och gör att routingbeslut kan ske naturligt under samtalets gång. För att hålla kontinuitet är användarupplevelsen sömlös över övergångarna, där varje steg ärver relevant samtalskontext utan att visa överlämningsmekaniken. Skyddsmekanismer övervakar också övergångarna för att förhindra icke-produktiva loopar, så att arbetsflödet förblir stabilt och målinriktat.
5. Duplex Fusion
I duplex fusionsarkitekturer behandlar modellen in- och utdata samtidigt. Det kan ge det mest mänskliga samtalsflödet, med mer äkta överlappande tal i korta samtal, men innebär också stor komplexitet. Skyddsräcken är svårare att sätta, prat i munnen och avbrott kan orsaka fel, och insynen är minimal jämfört med kaskadbaserade arkitekturer.
Ibland kan talare dela känslig information med en agent som omfattas av särskilda lagrings- och hanteringskrav, till exempel medicinska data som kräver HIPAA-anpassad hantering. För dessa fall erbjuder vi Zero Retention Mode (ZRM) på agent- eller arbetsytanivå. När det är aktiverat behandlas all samtalsdata endast i minnet och sparas aldrig permanent. När samtalet och bearbetningen är klar sparas ingen information av ElevenLabs. Det innebär att transkriptioner, ljudinspelningar och analysresultat inte finns tillgängliga i Agents Dashboard, och policyn gäller både kundsystem och interna loggar. Även om data inte sparas behandlas den under samtalet, och eventuella konfigurerade webhooks efter samtalet får utdata, så att kunder kan lagra transkriptioner eller analysresultat i sina egna system om det behövs.
Välja rätt arkitektur för ditt användningsområde
I det här inlägget har vi gått igenom hur ElevenLabs Agents hanterar samtalskontext, verktyg, utvärdering och strukturerade arbetsflöden för att leverera pålitliga upplevelser i realtid i stor skala. När kunder använder agenter i allt mer komplexa miljöer fortsätter vi att utveckla vår orkestreringsmotor – från konfigurerbara utvärderingsmodeller och bättre övergångskontroller till djupare insyn i promptkomposition och tokenanvändning i olika steg.
Vårt Forward Deployed Engineering-team samarbetar nära med kunder för att säkerställa att dessa funktioner utvecklas i takt med verkliga behov. Nästa generations agenter kommer att ge ännu större transparens, förutsägbarhet och flexibilitet – utan att kompromissa med den låga latens som möjliggör samtal i realtid.

En inblick i hur ElevenAgents hanterar kontext, verktyg och arbetsflöden för att leverera samtal i realtid på företagsnivå.

Mer uttrycksfulla röstagenter, skapade för verkliga kundsamtal.