
Så fungerar ElevenAgents orkestreringsmotor
En inblick i hur ElevenAgents hanterar kontext, verktyg och arbetsflöden för att leverera samtal i realtid på företagsnivå.
En genomgång av de fem vanligaste röstagent-arkitekturerna och avvägningarna mellan tillit, anpassningsmöjligheter och samtalskvalitet.
ElevenAgents drivs av en låglatens orkestreringsmotor som är byggd för samtal i realtid och lägger till mindre än 100 ms fördröjning. Arkitekturen kombinerar det bästa från ElevenLabs forskning med avancerade LLM:er från ledande leverantörer som OpenAI, Google och Anthropic, samt utvalda open source-modeller som hostas av ElevenLabs. Genom att använda flera modeller i olika steg av svarskedjan säkerställer agenten att samtalen blir både snabba och kontextmedvetna. Genom att dynamiskt utnyttja varje modells styrkor tillsammans uppnår vi pålitlig och skalbar prestanda för olika företagsuppgifter och samtalsscenarier, samtidigt som vi optimerar balansen mellan intelligens, hastighet och kostnad.
Agentens arkitektur avgör hur pålitlig den är i drift, hur väl den kan anpassas till specifika affärskrav och hur naturligt den låter i samtal. En fusionsbaserad arkitektur som OpenAIs Realtime-modell kan låta imponerande verklighetstrogen i korta utbyten. Men när team behöver säkerställa regelefterlevnad, felsöka ett misslyckat svar eller byta till en starkare LLM när en sådan lanseras nästa månad, ger en enda fuserad nätverksmodell få möjligheter att göra förändringar.
Den här artikeln går igenom de fem huvudarkitekturerna, vad de är bra på, var de brister och hur vi ser på grunden för agenter som används i viktiga arbetsflöden.verktyg och en kunskapsbas. Självständiga agenter passar bäst när ditt användningsområde inte kräver att du följer en strikt sekvens av steg, eller när det är viktigt att undvika kunskapssilor mellan agenter. Kunskapssilor uppstår när vissa verktyg, dokument eller historik bara är tillgängliga för vissa underagenter. Detta är vanligt i multi-agent arbetsflöden och innebär en avvägning mellan flexibilitet och förutsägbarhet.
Vad team utvärderar när de väljer arkitektur
Även om team också bryr sig om saker som samtidighet, integrationer och röstkvalitet, kan faktorerna ovan påverkas mer direkt av agentens arkitektur. De mest framgångsrika teamen anpassar sin arkitektur för att optimera dessa faktorer för sitt användningsområde.

Kaskadbaserade arkitekturer byggs genom att koppla ihop specialiserade komponenter: , en Large Language Model och Text to Speech. Varje steg kan optimeras, testas och uppgraderas separat.tidigare inlägg. Det gör att dokument kan hämtas pålitligt även när det senaste användarinlägget är en följdfråga, ett bekräftande svar eller saknar en tydlig fråga.
Kan jag lita på den i produktion?
Avvägningar mellan kaskad- och fuserade arkitekturer Ju fler verktyg som läggs till, desto större blir modellens ansvar att välja rätt verktyg i rätt ordning. I Agent Builder beskriver verktygets beskrivning vad verktyget gör och vilka fält det returnerar. Det är denna information som språkmodellen använder för att förstå kontexten kring användningen. När det är definierat ska de specifika villkoren för att använda verktyget anges i agentens systemprompt. Till exempel:
Den här designen gör att fusion-baserade arkitekturer kan bevara och återskapa prosodi mer effektivt, eftersom modellen bearbetar uttal och intonation direkt. Men fusionsmodeller är svårare att testa och styra, eftersom mellanresultat inte syns. De bygger ofta också på lättare LLM-kärnor, vilket begränsar resonemang och verktygsanvändning jämfört med kaskadmetoder där man kan använda de starkaste modellerna som finns.Prompting Guide. Inom detta ramverk kan flera typer av verktyg definieras, främst:
Den vanligaste kritiken mot kaskadarkitekturer är att de tappar prosodiska signaler. Talet omvandlas till text, och intonation, rytm och känsla måste återskapas i utdata. Dessa signaler kan delvis återskapas genom explicit modellering, men de fångas inte lika naturligt som i fuserade lösningar. Andra aspekter, som fördröjning och turordning, kan oftast optimeras till likvärdig nivå i båda tillvägagångssätten.dynamisk variabel. Denna information sparas som enkla nyckel-värde-par, hämtade från verktygets svar med fördefinierade mappningar. När de är satta kan dessa variabler användas i agentens systemprompt, framtida verktygsparametrar och arbetsflödesvillkor. Denna återkoppling ger agenten ett slags arbetsminne som utvecklas under interaktionen.
1. Grundläggande kaskad
Fuserade arkitekturer fungerar på ett helt annat sätt. I en enda multimodal nätverksmodell sker igenkänning, resonemang och generering. Ljud in, ljud ut – utan någon insyn mellan stegen.
De fem arkitekturernaDatainsamling och Utvärderingskriterier in i bilden. Datainsamling låter dig extrahera strukturerad information från en samtalstranskription för vidare analys och sammanställning. Kunder exporterar ofta dessa resultat till sitt företags datalager för rapportering eller vidare bearbetning. Till exempel kan en Sales Development Agent automatiskt extrahera prospektinformation från ett samtal för att skapa eller uppdatera ett lead i CRM-systemet. Utvärderingskriterier avgör om ett samtal anses lyckat. Om alla kriterier är uppfyllda markeras samtalet som lyckat, annars flaggas det som misslyckat. Det säkerställer att samtalen alltid håller uppsatta kvalitets- och integritetskrav och ger snabb återkoppling. När ett samtal avslutas och webhooken triggas bearbetar agenten den slutliga transkriptionen, inklusive verktygsanrop och metadata, genom en LLM tillsammans med alla konfigurerade datainsamlingspunkter och utvärderingskriterier. Modellen använder denna kombinerade prompt för att avgöra om varje kriterium är uppfyllt och för att extrahera angivna datapunkter för vidare analys. Eftersom LLM:en tolkar dessa konfigurationer direkt i sin prompt är det viktigt att de är tydligt och konsekvent formulerade så att modellen kan förstå och tillämpa dem korrekt. Vi rekommenderar därför följande bästa praxis för att skriva utvärderingskriterier och datainsamlingsbeskrivningar.
1. Grundläggande kaskad
Ljud transkriberas, LLM genererar ett textsvar och TTS läser upp det. Alla steg arbetar med ren text, så du kan se, testa och styra allt.
Exempel på användningsområden:
Detta är metoden bakom
Kundsupport ger ett visuellt gränssnitt för att designa komplexa samtalsflöden. Det resulterar i det logiska objekt som orkestratorn använder för att hantera flera underagenter, verktyg och överföringar under en självständig agentidentitet. Workflows innebär ytterligare komponenter utöver de som redan beskrivits för självständiga agenter, bland annat hur:
Arkitekturen behåller allt från grundläggande kaskad: full transparens, skyddsräcken på textnivå, möjlighet att byta ut komponenter, domänanpassning och tillgång till de starkaste modellerna för verktygsanvändning och resonemang. Den lägger till betydligt bättre prosodi, lägre fördröjning och smartare turordning. Team kan integrera en ny LLM samma vecka den släpps, eller finjustera STT för vårdtermer, utan att behöva bygga om andra delar.

Ovanpå denna gemensamma grund introducerar Workflows specialiserade underagenter som verkar i en riktad graf. Varje underagent får ett smalt definierat mål och utökar grundkonfigurationen med ytterligare promptinstruktioner, verktyg och kunskapskällor som bara är relevanta för dess roll. Istället för att omdefiniera hela samtalsinställningen lägger underagenter till sin avsikt ovanpå basagenten via promptkomposition och selektiv kontextutökning. Samtalshistoriken bevaras mellan underagentövergångar för att hålla kontinuitet, men varje underagent arbetar med en avsiktligt begränsad vy av systemet. Kunskapsbaser och verktyg exponeras selektivt, vilket skapar tydliga silor och förhindrar läckage mellan ansvarsområden. För att förstärka denna isolering byggs orkestratorobjektet om vid varje övergång, som om det vore en självständig agent. Det säkerställer att den aktiva underagentens prompt, konfiguration och tillgängliga funktioner är helt förutsägbara. Denna design gör att Workflows kan bibehålla global konsekvens samtidigt som lokal specialisering stöds, vilket ger förutsägbart beteende, tydlig ansvarsfördelning och exakt kontroll över hur kontext, kunskap och åtgärder används i varje steg av interaktionen.
3. Hybrid kaskad och fuserad
Vissa arkitekturer skickar akustiska egenskaper (uttal, känsla, ton) från talet direkt in i LLM som inbäddningar, istället för att först omvandla till text. TTS förblir modulär.
Detta ger LLM rikare information om
Exempel på användningsområden:
4. Sekventiell fuserad
En enda multimodal modell hanterar igenkänning, resonemang och generering i ett svep, en tur i taget. Det är arkitekturen bakom modeller som OpenAIs Realtime API.
Men det är svårt att införa skyddsräcken utan textlager, det finns få mellanresultat för felsökning och det är svårt att byta till en bättre LLM eller finjustera STT för din bransch. Resonemangskärnorna är ofta lättare än de starkaste LLM:erna, så komplexa verktygsanrop och flerstegsuppgifter blir lidande. När uppgiften kräver att lösa ett komplext problem räcker inte bara prosodi.
Exempel på användningsområden:
5. Duplex fuserad
Vårt Forward Deployed Engineering-team samarbetar nära med kunder för att säkerställa att dessa funktioner utvecklas i takt med verkliga behov. Nästa generations agenter kommer att ge ännu större transparens, förutsägbarhet och flexibilitet – utan att kompromissa med den låga latens som möjliggör samtal i realtid.

En inblick i hur ElevenAgents hanterar kontext, verktyg och arbetsflöden för att leverera samtal i realtid på företagsnivå.

Mer uttrycksfulla röstagenter, skapade för verkliga kundsamtal.