Bygga en effektiv röstagent för våra egna dokument

Senast uppdaterad 6 mars 2026 • 6 minuter lästid

Oswin Kruger Ruiz, Forward Deployed Engineering

Lyckas lösa >80% av användarfrågorna

Hos ElevenLabs har vi nyligen integrerat en Conversational AI-röstagent i våra dokument för att minska belastningen på supporten för dokumentationsrelaterade frågor (Testa den över 80%). Vår supportagent hanterar nu framgångsrikt över 80% av användarförfrågningarna över

Våra mål

Vi satte upp att bygga en agent som kan:

Lösa supportfrågor som kan besvaras utifrån vår produkt- och supportdokumentation
Omdirigera användare till relevanta dokumentationsavsnitt
Vidarebefordra komplexa frågor till e-post/discord-support vid behov
Ha en flytande och naturlig konversation, med låg latens och realistisk hantering av avbrott

Resultat och påverkan

Vi implementerade två lager av utvärdering:

(1) AI-utvärderingsverktyg: För varje samtal kör vårt inbyggda utvärderingsverktyg igenom den avslutade konversationen och utvärderar om agenten har varit framgångsrik. Kriterierna är helt anpassningsbara. Vi frågar om agenten löste användarens fråga eller kunde omdirigera dem till en relevant supportkanal.

Vi har kunnat förbättra LLM:s förmåga att lösa eller omdirigera frågan framgångsrikt, och nått 80% enligt vårt utvärderingsverktyg.

Exklusive samtal med mindre än 1 vändning i konversationen, vilket innebär att ingen fråga/problem togs upp av den som ringde.

Nu är det viktigt att tänka på att inte alla typer av supportfrågor eller frågor kan lösas av en LLM, särskilt för en startup som bygger snabbt och ständigt innoverar, och med extremt tekniska och kreativa användare. Som en ytterligare disclaimer, en utvärderings-LLM kommer inte att utvärdera korrekt 100% av tiden.

(2) Mänsklig validering: För att kontrastera effektiviteten av vår LLM-valideringsverktyg, genomförde vi en mänsklig validering av 150 konversationer, med samma utvärderingskriterier som tillhandahålls till LLM-verktyget:

lösta_användarförfrågningar: definieras som framgång när agenten svarade på användarens frågor med relevant information eller kunde omdirigera till relevant sida/supportkanal.
- LLM och människan var överens om 81% av fallen
hallucination_kb: detta kriterium kommer att kontrollera den slutliga transkriptionen och verifiera om svaren som ges av LLM om ElevenLabs produkter följer informationen i kunskapsbasen eller går utöver den.
- LLM och människan var överens om 83% av fallen

Den mänskliga utvärderingen visade också att 89% av relevanta supportfrågor besvarades eller omdirigerades korrekt av dokumentationsagenten.

Andra fynd:

Flera som ringde ville bara leka och prova att prata på olika språk utan att ställa en supportfråga.
- För närvarande stöder vår Conversational AI olika språk, men dessa måste definieras i början av konversationen.
Flera som ringde engagerade sig i konversationer som inte var relevanta för agentens syfte att prata om ElevenLabs, dess produkter och dokumentation. Prompt-skyddsräcken hjälpte oftast, men inte alltid.
Flera som ringde sökte efter kodning eller felsökningsstöd.

Styrkor och begränsningar

Styrkor

Agenten som drivs av LLM är skicklig på att lösa tydliga och specifika frågor som kan besvaras med vår dokumentation, peka de som ringer till relevant dokumentation och ge viss initial vägledning om mer komplexa frågor. I de flesta av dessa fall ger agenten snabba, enkla och korrekta svar som är omedelbart hjälpsamma.

Frågor inkluderar:

Har ElevenLabs en API-endpoint för att ta bort en röst?
Hur kan jag konfigurera konversationsöverskridningar i min agent?
Hur integrerar jag med telefoni?
Stöder ElevenLabs det spanska språket?

Rekommendationer:

Rikta in dig på en publik som mestadels har tydliga/specifika frågor som en LLM med dokumentation och verktyg är bra på att besvara.
Använd omdirigeringar till andra kanaler för vaga frågor/de som kräver undersökning. Detta hjälper mycket!
Lägg till utvärderingsverktyg för att fånga alla frågor som ställs och övervaka dem -> justera prompten med lärdomar. Lägg till utvärderingsverktyg för framgång och hallucinationer/avvikelser från kunskapsbasen.

Begränsningar

Å andra sidan är agenten mindre hjälpsam med kontoproblem, pris-/rabattfrågor eller ospecifika frågor som skulle gynnas av djupare undersökning/frågeställning. Även problem som är ganska vaga och generiska -> trots att de uppmanas att ställa frågor, föredrar LLM vanligtvis att svara med något som kan verka relevant från dokumentationen.

Frågor inkluderar:

Verifieringssteget av min PVC misslyckas upprepade gånger. Varför?
Hur mycket kommer en AI-agent att kosta? Kan jag få rabatt?
Jag får ett fel med JS SDK? -> Agenten kan omdirigera till relevant dokumentation, men kan inte enkelt hitta och lösa problemet via röst.

Rekommendationer

Röst är inte rätt medium för att dela kod. Uppmana den att inte försöka, utan istället omdirigera till sidor med exempel eller omdirigera till Discord/Support.
Uppmana agenten att inte svara med långa listor av rekommendationer när problemen/frågorna är mer komplicerade. Detta fungerar i text, men mindre via röst.
LLM:er tenderar att föredra att svara över att ställa frågor - uppmana den aggressivt för det om det behövs för supportanvändningsfallet. (dvs. ställ dessa 3 frågor innan du går vidare). Detta är enklare för utgående användningsfall med fasta manus.

Hur vi byggde det

Agentkonfiguration:

Systemprompt

“Du är en teknisk supportagent vid namn Alexis. Du kommer att försöka svara på alla frågor som användaren kan ha om ElevenLabs produkter. Du kommer att få dokumentation om ElevenLabs produkter och bör endast använda denna information för att svara på frågor om ElevenLabs. Du ska vara hjälpsam, vänlig och professionell. Om du inte kan svara på frågan, omdirigera de som ringer med redirectToEmailSupport (vilket öppnar ett e-postmeddelande på deras sida till support), om det inte verkar fungera, kan de mejla direkt till team@elevenlabs.io.

Om frågan eller problemet inte är helt klart eller specifikt nog, be om mer detaljer och för vilket produkt de begär support. Om frågan är vag eller mycket bred, fråga dem mer specifikt vad de försöker uppnå och hur.

Håll dig strikt till språket i ditt första meddelande i konversationen, även när du blir tillfrågad eller talad till på ett annat språk. Säg att det är bättre om de avslutar och startar om samtalet, och väljer det önskade alternativa språket.

Ditt svar kommer att läsas av en text till tal-modell så det bör formateras som det uttalas. Till exempel: istället för att skriva "please contact team@elevenlabs.io" bör du skriva "please contact 'team at elevenlabs dot I O'". Formatera inte ditt textrespons med punktlistor, fetstil eller rubriker. Återge inte långa listor utan sammanfatta dem och fråga vilken del användaren är intresserad av. Återge inte kodexempel utan föreslå istället att användaren tittar på kodexemplen i vår dokumentation. Återge svaret direkt, börja inte svar med "Agent:" eller något liknande. Korrigera inte stavfel, ignorera dem bara.

Svara kortfattat i ett par meningar och låt användaren guida dig om var du ska ge mer detaljer.

Du har följande verktyg till ditt förfogande. Använd dem som lämpligt baserat på användarens begäran:

`redirectToDocs`:

- När ska det användas: I de flesta situationer, särskilt när användaren behöver mer detaljerad information eller vägledning.

- Varför: Att ge direkt tillgång till dokumentation är hjälpsamt för komplexa ämnen, vilket säkerställer att användaren kan granska och förstå innehållet på egen hand.

`redirectToEmailSupport`:

- När ska det användas: Om användaren behöver hjälp med personliga eller kontospecifika problem.

- Varför: Kontorelaterade frågor hanteras bäst av vårt supportteam via e-post, där de kan få säker tillgång till relevanta detaljer.

`redirectToExternalURL`:

- När ska det användas: Om användaren frågar om företagslösningar eller vill gå med i externa gemenskaper som vår Discord-server. Även om de verkar vara en utvecklare som har tekniska svårigheter med ElevenLabs.

- Varför: Företagsförfrågningar och gemenskapsinteraktioner faller utanför ramen för direkt support på plattformen och hanteras bättre genom externa länkar.

Skyddsräcken:

- Håll dig till ämnen och produkter relaterade till ElevenLabs. Om någon frågar om icke-elevenlabs ämnen, säg att du bara är här för att svara om ElevenLabs produkter.

- Omdirigera endast den som ringer till en sida åt gången, eftersom varje omdirigering skriver över den föregående.

- Svara inte med långa listor eller med kod. Istället hänvisa till dokumentationen för kodexempel.”

Kunskapsbas

Tillsammans med prompten skickar vi LLM en kunskapsbas med relevant information i sammanhanget. Denna kunskapsbas inkluderar en sammanfattad, men fortfarande stor (80k tecken) version av all ElevenLabs dokumentation, samt några relevanta URL:er.

Vi lägger också till förtydliganden och vanliga frågor som en del av kunskapsbasen.

Verktyg

Vi har tre verktyg konfigurerade:

redirectToExternalURL: omdirigerar till kontaktsäljare eller till discord.
redirectToEmailSupport: öppna e-post till team@elevenlabs.io
redirectToDocs: detta verktyg är konfigurerat för att omdirigera den som ringer till relevanta sidor inom vår dokumentation.

Inbyggd utvärdering

Vårt utvärderingsverktyg involverar en LLM som går igenom den slutliga transkriptionen och bedömer konversationen mot definierade kriterier.

Utvärderingskriterier (framgång/misslyckande/okänt)

hallucination_kb: detta kriterium kommer att kontrollera den slutliga transkriptionen och verifiera om svaren som ges av LLM om ElevenLabs produkter följer informationen i kunskapsbasen eller går utöver den.
interaktion: bedömer om konversationen gick bortom en vändning av konversationen. Ett snabbt sätt att markera om konversationer startades men aldrig engagerades i.
solved_user_inquiry: definieras som framgång när agenten svarade på användarens frågor med relevant information eller kunde omdirigera till relevant sida/supportkanal.
positiv_interaktion: bedömer om konversationen gick utan negativa reaktioner från den som ringde.

Datainsamling:

Issue_type: kategorisera konversationen som bugg, supportfråga, fr eller annat
Produktkategori: extrahera relevant produkt (TTS, ConvAI, etc)
AllQuestions: extrahera alla frågor som ställts av den som ringde
Unsolved_question: extrahera frågor som inte besvarades av LLM med relevant information
Omdirigeringar: extrahera omdirigeringsvägar som utlösts av agenten och reaktionen från den som ringde

Sammanfattning

Vår dokumentationsagent har visat sig vara effektiv för att hjälpa användare navigera vanliga produkt- och supportfrågor, och är en engagerande copilot för användare som navigerar i våra dokument. Vi kan konsekvent iterera och förbättra vår agent genom kontinuerlig automatisk och manuell övervakning. Vi inser att inte alla typer av supportfrågor eller frågor kan lösas av en LLM, särskilt för en startup som bygger snabbt och ständigt innoverar, och med extremt tekniska och kreativa användare. Men vi har funnit att ju mer vi kan automatisera, desto mer tid kan vårt team ägna åt att fokusera på att hantera de knepiga och intressanta problemen som dyker upp i marginalerna när vår community fortsätter att tänja på gränserna för vad som är möjligt med AI-ljud.

Vår agent drivs av ElevenLabs Conversational AI. Om du vill reproducera mina resultat kan du skapa ett konto gratis och följa mina steg. Om du fastnar kan du prata med agenten vi har distribuerat i våra dokument eller kontakta mig och mitt team i Discord. För användningsfall med hög volym (>100 samtal per dag), kontakta vårt säljteam för volymrabatter.

Utforska artiklar av ElevenLabs-teamet

Produkt

Produkt

Vi introducerar Conversational AI

Vår allt-i-ett-plattform för att bygga anpassningsbara, interaktiva röstagenter

Forskning

Text on a gray gradient background introducing IIFlash v2.5, highlighting 75ms model latency and support for 32 languages.

Forskning

Möt Flash

Du har aldrig upplevt mänsklig TTS så här snabbt

Skapa med AI-ljud av högsta kvalitet

Kontakta försäljning Registrera dig