Webinar-sammanfattning: Ge din textchattbot en röst som låter mänsklig
- Publicerad
LyssnaLyssna på den här artikeln
Chattagenter är numera standard i företagsmjukvara. De flesta företag har en, eller håller på att bygga en. Färre har däremot tänkt på vad som händer när en användare hellre vill prata.
Nana, en av Saudiarabiens största superappar, valde en annan väg. I Bakom agenten: Så använder Nana AI-agenter för att förbättra kundupplevelsenberättade Karim Mustafa, ansvarig för kundupplevelse på Nana, hur företaget införde AI-agenter i hela supporten och vad det innebar för teamet, kostnaderna och kvaliteten.
De flesta team undrar nu inte om de ska lägga till röst, utan hur de gör det utan att behöva bygga om allt som redan fungerar.
I
Varför det är svårare än man tror att bygga med röst
Nana startade 2016 som pionjär inom matleverans i Saudiarabien. Under ett decennium växte företaget till en superapp med tvätt, biltvätt, matleverans och mer. När produkten växte ökade också antalet kundkontakter. Teamet hade 54 supportagenter i skift bara för att hinna med.
Vändningen kom när Nana gick från FAQ-botar och enkla chattflöden till en riktig AI-agent i fronten, byggd på ElevenLabs. Agenten hanterar kunddialoger direkt i Nana-appen. Den löser problem, svarar på frågor, spårar beställningar och eskalerar vid behov. Kvaliteten blev direkt hög och jämn.
Effekten på verksamheten var stor:
- Nana sänkte sina kundsupportkostnader med 85 %
- Svarstiderna sjönk till några sekunder
Det fungerar tekniskt, men är samtalsmässigt trasigt.
Kontext är den andra halvan av problemet. Att skicka samtalshistorik till en LLM vid varje tur är nödvändigt men inte tillräckligt. Samma ord kan betyda olika saker beroende på hur de sägs – "Jag mår bra" sagt med lättnad och "Jag mår bra" sagt med frustration är samma text, men olika interaktion. Ett röstsystem som ignorerar det låter alltid lite fel, oavsett hur bra modellerna är.
Det finns också ett tekniskt underhåll. Team som själva hanterar röstlogik får löpande ta hand om turordning, avbrott och latensprofilering. Det är inget man bygger en gång och sen är klart.
Röst-AI löser alla tre: det ger samma svar varje gång, anpassar sig direkt till ny information och kan skalas upp till vilken volym som helst.
Så lägger du till röst i en befintlig agent
Det smidigaste sättet är en dubbel WebSocket-arkitektur.
Karim beskrev hur teamet nu tänker annorlunda kring problem. När en ny utmaning dyker upp frågar de inte längre hur många personer som behövs, utan hur snabbt de kan bygga en agent som löser det.
De som var kvar i supportteamet fick välja mellan fasta skift eller flexibla tider kopplade till AI-fokuserade KPI:er. Alla valde det flexibla upplägget.
Urban Company använder nu röst-AI inom tre stora områden:
- Var multimodal. Nana märkte att kunderna också ville skriva, inte bara ringa. Att anpassa kanalen efter kundens beteende gjorde det enklare att komma igång och gav snabbare resultat.
- Fokusera på promptkvalitet, inte bara teknik.AI:n blir så bra som du instruerar den. Karims team lade tid på att skriva prompts som lärde agenten att visa empati och svara på ett sätt som passar varumärket.
- För arabiska, använd tashkeel.Att lägga till vokaltecken i arabiska texter i agentens prompt förbättrar uttal och naturlighet avsevärt.
- Flytta mänskliga agenter uppåt, inte bort.Det bästa du kan göra med ditt kvarvarande team är att låta dem förbättra AI:n, inte ersätta den. Ge dem ansvar för arbetsflöden och kvalitetsgranskning.
- Bygg för skala från dag ett.När första agenten är igång kan samma plattform användas för utgående samtal, interna arbetsflöden, annonser och projekt mellan avdelningar. Nana är nu avdelningen andra vänder sig till när ett nytt projekt ska lanseras snabbt.
- Gå direkt till källan. Flera leverantörer som Nana utvärderade sålde ElevenLabs vidare med påslag. Genom att bygga direkt på ElevenLabs fick Nana tillgång till de senaste modellerna, lägre kostnader och direkt support från ingenjörerna.
En
Instahelphär.
.webp&w=3840&q=95)
.jpg&w=3840&q=80)


