Gå till innehåll

Bygg röstagenter som håller: några lärdomar från praktisk ingenjörserfarenhet

En modell för att lansera och skala upp röstagenter för företag som faktiskt löser kundproblem istället för att bara avleda dem, baserat på verkliga implementationer.

A voice selection interface showing a carousel of distinct, named voices, with pro voices visually differentiated from standard ones.

För de flesta organisationer har supportlösningar länge mätts på hur mycket de minskar antalet samtal och kontakt med liveagenter. Men att minska samtal betyder inte att problemen blir lösta, och det är i det glappet som kundupplevelsen brister. För att täppa till det krävs agenter som inte bara har tillgång till data, utan också till systemen som behövs för att agera på informationen. Då kan agenter till exempel hantera återbetalningar, guida kunder genom ett köpflöde och lämna över till en mänsklig agent med full koll när det behövs. Det gör att företag kan hantera kundkontakter i stor skala, minska belastningen på supportteamet och samtidigt förbättra upplevelsen för både kund och support.I en nyligen genomförd implementation med Revolut, ett fintech-bolag med 70 miljoner kunder globalt, ledde detta till att tiden för att lösa ärenden minskade åtta gånger och att 99,7 % av samtalen lyckades.

Organisationer måste ta sig an förändringar av den här storleken stegvis, nära kopplat till företagets kärnuppdrag och med starkt stöd från ledningen. På teknisk nivå innebär det risker att hantera ostrukturerade miljöer, och dessa måste hanteras noggrant. Om en agent får möjlighet att agera i CRM-systemet, ändra en order i kassasystemet eller eskalera ett ärende, blir styrningen minst lika viktig som själva modellen. Fokus ligger då inte på om agenter kan göra verkligt arbete, utan på vilka mekanismer som krävs för att lansera dem säkert och upprepade gånger.

I det här inlägget delar vi med oss av våra erfarenheter kring vad som gör agenter framgångsrika – från första lansering till att skala upp i hela kundverksamheten.

Att lansera agenter vs. att lansera mjukvara

Innan vi går djupare in på agentbyggande är det värt att jämföra lansering av röstagenter med traditionell mjukvara, något företag gjort i decennier. Ur det perspektivet kan agenter delas upp i två delar: traditionell mjukvara och kärnorkestrator.

Mjukvara:

A set of deployment channels for voice and messaging agents, spanning telephony, contact center platforms, digital surfaces, and messaging apps through to flexible SDK and API integrations.

Mjukvara: insyn och styrning

A full suite of observability and governance tools for managing agent quality in production, from evaluations, testing, and simulations to compliance, PII redaction, and continuous improvement.

Kärnorkestrator

A diagram showing how the Voice Engine handles audio orchestration (speech-to-text, turn taking, interruption detection) and passes transcripts to the Agent Orchestration layer, where an LLM reasons over a system prompt, knowledge base, and RAG to drive workflows and routing.

Kärnorkestrator-komponenter är svårare att förutse, men de styr agentens prestanda både när det gäller svarskvalitet och upplevd svarstid. Till skillnad från traditionell mjukvara arbetar dessa komponenter med naturligt språk och ljud, där indata kan variera enormt och små förändringar i formulering, kontext, bakgrundsljud eller användarbeteende kan ge helt olika resultat över tid. Det gör att vanliga tester inte räcker: en agent kan klara hundratals testfall utan problem men ändå misslyckas i produktion på oväntade sätt.versionshantering, A/B-testning, telefoni och första meddelande-inställningar, bland annat. Dessa delar förändras sällan efter lansering, vilket gör deras beteende förutsägbart. Med bra ingenjörsarbete kan organisationer snabbt bygga vidare på dessa funktioner och ha god koll på prestandan i produktion genom tydliga mätvärden, spårning och loggar. Förbättringar i svarstid följer välkända mönster: cache, anslutningspooler, skalning av infrastruktur och optimering av protokoll är pålitliga verktyg med förutsägbara resultat.

Svarstiden i detta lager är också mindre förutsägbar, eftersom den påverkas av modellens inferenstid, ljudartefakter, kedjor av verktygsanrop och den variation som finns i generativa system. För att hantera dessa komponenter krävs ett annat arbetssätt, med fokus på utvärderingsramverk, övervakning i produktion och en vilja att ständigt iterera utifrån verkliga samtal – inte bara antaganden innan lansering.

Den här skillnaden påverkar hur organisationer bör börja använda tekniken: starta med användningsområden som är viktiga för verksamheten men innebär låg risk, och skala upp i takt med att förtroendet för systemet växer.

Releasecykel

Välja vägvisare

För team som börjar använda röstagenter är valet av rätt vägvisare ett av de viktigaste tidiga besluten. Det handlar mindre om teknik än många tror. Team som lyckas tidigt och undviker att fastna i eviga POC:er har ofta en sak gemensamt: de kan svara tydligt på följande frågor.

För team som börjar använda röstagenter är valet av rätt pilotfall ett av de viktigaste tidiga besluten. Det handlar mindre om teknik än många tror. Team som lyckas tidigt och undviker att fastna i eviga POC:er har ofta en sak gemensamt: de kan svara tydligt på följande frågor.

  • Hur skapar det här användningsområdet mätbart affärsvärde? Det bästa användningsområdet att börja med är inte det mest tekniskt intressanta, utan det som mest sannolikt påverkar ett resultat som företaget redan bryr sig om. Det mäts i intäkter, kostnadsbesparingar eller kundnöjdhet – alltså sådant som ledningen redan följer upp. Utan en tydlig koppling till affärsvärde blir det svårt att motivera de iterationer som krävs för att få agenten rätt, och projektet riskerar att stanna av innan tekniken får visa vad den går för.
  • Är det tydligt för användarna vad agenten kan och ska göra?Otydlighet kring agentens uppdrag är en vanlig orsak till problem från utveckling till produktion. Användare som inte förstår vad agenten kan och inte kan göra kommer att testa gränserna på sätt som testsviten aldrig förutsett. En agent med tydligt avgränsat uppdrag sätter förväntningarna redan från första meddelandet och hanterar frågor utanför sitt område på ett bra sätt.
  • Hur ser bra och dåliga interaktioner ut, och kan de översättas till konkreta utvärderingskriterier?En bra interaktion är inte bara när agenten slutför uppgiften, utan när användaren känner sig lyssnad på, eskalering sker vid rätt tillfälle och resultatet stämmer med företagets mål. Utvärderingskriterierna delas upp i två kategorier: kvantitativa mätvärden som slutförandegrad och eskaleringsgrad, samt transkriptbaserade kriterier som kräver analys av själva samtalet. Att definiera de transkriptbaserade kriterierna tidigt ger teamet ett tydligt mål att jobba mot. De sätter också en naturlig gräns för när det är dags att gå live. När agenten klarar sina kriterier och plattformens mätvärden är stabila, kan du gå vidare till produktion. Utan tydliga kriterier blir lanseringen en magkänsla.
  • Vilka är avvägningarna mellan prestanda och kontroll, och vad är viktigast just nu?Ju mer självständighet agenten får, desto mer naturliga och flexibla blir interaktionerna – men risken ökar att den agerar utanför godkända ramar. Stramare kontroll genom tydligare instruktioner och striktare eskaleringslogik minskar risken men kan göra agenten stel. Inget av ytterligheterna är rätt. Organisationer som låser ner för tidigt får en glorifierad knappvalstelefon. De som går för fort fram utan att bygga förtroende får supportproblem som överväger vinsterna. Att förstå var balansen ska ligga i varje mognadsfas påverkar modellinställningar, eskaleringslogik och hur mycket av agentens kunskap som finns i prompten jämfört med hämtade eller strukturerade källor.

Grunda det första bygget

När det är dags att börja bygga kan teamen använda metoder som är nästan lika gamla som mjukvaruutveckling själv. Testdriven utveckling (TDD) ger en struktur för att hålla agenten i linje med kärnmålen under hela bygget.

När det är dags att bygga kan teamen använda metoder som är nästan lika gamla som mjukvaran själv. Testdriven utveckling (TDD) ger en struktur för att hålla agenten i linje med kärnmålen under hela bygget.

The agent development lifecycle, where scoping feeds into a continuous cycle of defining tests, building, and deploying, with both pre-production and production failures looping back to expand the test suite over time.

Med ett första testset på plats börjar agentutvecklingen med systemprompten. Här definieras agentens regler, ton och tillvägagångssätt: vad den ska göra, vad den inte ska göra och hur den ska bete sig i gränsfall. En bra systemprompt handlar lika mycket om struktur som om innehåll. Att dela upp instruktioner i tydliga sektioner, samla relaterad vägledning och undvika villkorade formuleringar gör stor skillnad för hur konsekvent agenten agerar. Vi återkommer ofta till promptguiden i det här skedet.Agenttester, som gång på gång verifierar att agenten beter sig som förväntat. De första kriterierna tas fram genom att granska riktiga samtal mellan människor. Tester byggs på stegvis, med ett första urval av förväntade beteenden som utökas när nya situationer och specialfall dyker upp.

Parallellt med systemprompten konfigureras agentens kärnkomponenter: LLM, text-to-speech (TTS)-modellen och rösten. Valet av LLM handlar främst om avvägningen mellan svarstid och prestanda – modeller som är optimerade för snabbhet offrar ofta viss resonemangsförmåga, och tvärtom. För TTS beror valet på vad användningsområdet kräver mest: uttrycksfullhet, låg latens eller flerspråkigt stöd. Rösten är däremot lika mycket ett varumärkesval som ett tekniskt. Den påverkar hur organisationen uppfattas av varje inringare, vilket gör det till ett av få konfigurationsval som är lika viktigt för marknadsteamet som för utvecklarna. Det betyder att röstvalet kan ske parallellt med resten av utvecklingen, istället för att bli en flaskhals i början eller slutet. ElevenAgents ger tillgång till över 10 000 röster, och om ingen passar kan teamet klona eller skapa en egen.

Härifrån kan agenten vid behov utökas med en kunskapsbas,

Med dessa grunder på plats är agenten redo att testas.kunskapsbas, verktyg och kanalinställningar. Varje tillägg ger nya möjligheter men innebär också mer att testa. Oavsett om det handlar om telefoniintegration, åtkomst till externa databaser eller att agera för kundens räkning, är det värt att testa dessa beslut mot utvärderingskriterierna innan man utökar omfattningen. När verktyg läggs till ger systemprompten och verktygsbeskrivningen tydlig vägledning om när och hur de ska användas, så att agenten gör det konsekvent och i rätt sammanhang.

Mot produktionsredo agent

När tester och utvärderingskriterier från grundfasen nu körs mot en färdig agent blir utvecklingen en tät loop: lägg till fler tester, hitta fel, uppdatera systemprompt eller inställningar och kör igen. De flesta fel i det här skedet handlar inte om modellen, utan om prompten. En instruktion som verkade tydlig i sig visar sig vara otydlig när agenten stöter på den mitt i ett samtal. Kantfall dyker upp som inte fanns med i första testsviten. Varje sådant blir ett nytt Next Turn-test som kan skapas direkt från samtalet. Frågan om när man ska sluta iterera har ett konkret svar: när agenten klarar sina utvärderingskriterier konsekvent över flera körningar och plattformens mätvärden som slutförda uppgifter och eskaleringsgrad är stabila inom acceptabla nivåer. Därför är det så viktigt att definiera kriterierna innan bygget. Utan dem blir produktionsredo en magkänsla och mållinjen flyttas hela tiden.

I praktiken märker de flesta team att ett fåtal återkommande felmönster står för majoriteten av problemen. De vanligaste är prompt-otydlighet, där agenten får motstridiga eller otydliga instruktioner och beter sig oförutsägbart; felanvändning av verktyg, där agenten använder ett verktyg i fel sammanhang eller missar att använda det när det behövs; och eskaleringsdrift, där agenten antingen eskalerar för snabbt eller håller kvar samtal som borde ha skickats vidare. Alla dessa kan lösas på promptnivå. Att förtydliga instruktionen, lägga till ett tydligt exempel eller justera eskaleringsgränsen räcker oftast. Risken är att inte upptäcka dem innan lansering.

Det vanligaste misstaget är att se en godkänd testsvit som en garanti istället för en signal. En svit som bara täcker lyckade scenarier klaras lätt men säger inte mycket. Täckning av avslag, vändningar mitt i samtal, otydliga indata och interaktioner med många verktyg ger resultatet tyngd. På samma sätt missar team som hoppar över simuleringstester och bara kör turn-nivå-tester en typ av fel som bara syns i hela samtal, som kontextdrift där agenten tappar bort tidigare turer, eller fel som byggs på varandra och leder till dåligt resultat. När återkommande felmönster är lösta och agenten hanterar kantfall smidigt – inte perfekt – minskar värdet av fler iterationer i staging. Då är verkliga samtal den viktigaste signalen.

Att gå live betyder inte att iterationen är över. Det betyder att lärandet flyttar från syntetiska tester till samtal i produktion. De utvärderingskriterier som satte gränsen för go-live blir nu baslinjen för att mäta prestanda, och cykeln fortsätter därifrån.

Feedbackloopar, utvärdering och när det är dags att sluta iterera

När testerna är definierade och körs blir luckor i processen snabbt synliga. Genom

Det viktigaste i det här skedet är att validera ändringar istället för att bara anta att de fungerar. En fix som löser ett fel kan tyst skapa ett nytt. ElevenAgents stödjer versionshantering, så team kan testa nya iterationer mot en liten andel användare innan de rullas ut till alla. Det gör det möjligt att bekräfta att förbättringar faktiskt ger bättre resultat och inte bara flyttar problemet någon annanstans.

Vad kan gå felversionshantering, så att team kan testa nya versioner mot en liten andel användare innan de rullas ut till alla. Det gör det möjligt att säkerställa att förbättringar verkligen förbättrar resultatet och inte bara flyttar problemet någon annanstans.

Det största misstaget här är att hoppa över stegvis utrullning och direkt släppa ändringar till alla användare. Utan stegvis utrullning tappar du möjligheten att isolera effekten av varje ändring, och i stor skala blir det nästan omöjligt att förstå vad som faktiskt driver förbättringar eller försämringar i plattformens mätvärden. Att använda hela användarbasen som testmiljö är inte bara riskabelt – det gör att du tappar insynen som krävs för att fatta trygga beslut framåt.

Utöver utrullningsstrategin finns två andra felkällor att se upp med. Den första är att överreagera på senaste misslyckanden. När ett uppmärksammat samtal går fel är det lätt att vilja lappa prompten direkt, men snabba ändringar utan att köra hela testsviten leder ofta till nya problem i beteenden som tidigare var stabila. Varje ändring, hur liten den än är, ska ses som en ny iteration och testas därefter. Den andra är utvärderingsdrift. Med tiden kan team omedvetet sänka ribban för vad som räknas som godkänt, särskilt under tidspress. De kriterier som sattes vid planeringen ska vara kvar som ankare. Om de känns för strikta är rätt väg att uppdatera dem medvetet, inte låta standarden urholkas.

Skala med självförtroende

Att öka trafiken är ett förtroendebeslut, inte en fråga om tid. Signalen att skala upp är när agenten klarar sina utvärderingskriterier konsekvent över flera testrundor, plattformens mätvärden är stabila och stegvis utrullning inte visar någon försämring jämfört med kontrollgruppen.

En vanlig fråga här är hur mycket trafik som krävs för att dra slutsatser. Batchar med färre än 100 samtal per gren ger för stor variation för att utvärdera resultat pålitligt. 60 % godkänt på 25 samtal och 60 % på 100 samtal ger helt olika trygghet. Utöver antalet bör batchen också vara tillräckligt stor för att fånga hela bredden av verkliga indata, inklusive sannolika kantfall, ovanliga avsikter och fel som bara syns i volym och sällan i små urval.

Mer trafik förstärker både det som fungerar och det som inte gör det. Att skala upp innan grundproblemen är lösta skapar supportproblem som är svåra att backa från.

Upprepa processen

Att veta när man ska sluta är lika viktigt som att veta vad som ska fixas. Iteration ger minskad utdelning över tid, och rätt signal att pausa är när agenten konsekvent uppfyller de utvärderingskriterier som sattes vid planeringen. Då innebär fler ändringar större risk än nytta.

Vad "konsekvent uppfyller kriterier" betyder varierar beroende på situation. Team med begränsad dataåtkomst eller ofullständiga integrationer kan behöva acceptera eskaleringsnivåer runt 50 % tills dessa hinder är lösta. Där dataåtkomsten är god brukar de bästa deploymenten sikta på över 80 % slutförda uppgifter och under 20 % eskalering. Viktigare än enskilda siffror är stabilitet: jämn prestanda över flera veckor av produktionstrafik, utan försämring mellan testrundor, är det verkliga tecknet. När nyttan av nästa iteration är mindre än risken för försämring är det dags att sluta.

Det betyder inte att arbetet är klart. När nya krav dyker upp börjar processen om från början. Frågorna från första bygget är lika relevanta för nästa. Skillnaden är att team som går in i en andra cykel har en testsvit, en utvärderingsbas och operativ erfarenhet som första cykeln fick bygga upp från noll. Den fördelen är det som skiljer organisationer som får långsiktigt värde av röstagenter från de som fastnar i proof of concept.

Slutsats

De team vi sett lyckas minska gapet mellan avledning och lösning är de som definierar vad som är bra innan de börjar bygga, håller disciplin genom iterationscykeln och ser varje deployment som grund för nästa. Konversationsagenter är inget engångsprojekt – riktiga samtal ger alltid nya kantfall som ingen testsvit kan förutse, och förbättringsarbetet slutar inte vid lansering.

ElevenAgents är byggt utifrån den verkligheten. Agenttestning, samtalsanalys och stegvis utrullning är grunden som gör att ett proof of concept faktiskt kan lösa kundproblem i stor skala – inte bara avleda dem. Det är det gapet som är värt att stänga.

ElevenAgents är byggt utifrån den verkligheten. Agenttester, samtalsanalys och stegvis utrullning är grunden som gör att ett pilotprojekt faktiskt kan lösa kundproblem i stor skala – inte bara avlasta dem. Det är det glappet som är värt att täppa till.

Utforska artiklar av ElevenLabs-teamet

Skapa med AI-ljud av högsta kvalitet