Presenterar Eleven v3 Alpha

Prova v3

Hur du Använder en Conversational AI

Att korrekt använda en stor språkmodell i ett Conversational AI-system kan göra stor skillnad.

A split image showing the interior of a circular parking garage on the left and a blue background with radiating black lines on the right.

Today, the LLM has emerged as the beating heart of conversational AI systems. Specifically, LLMs enable conversational AI—originally built around sprawling phone trees—to feature dynamic functionality and provide human-like experiences. However, LLMs aren’t a silver bullet upgrade; they require specialized prompting as they aren’t fine-tuned to human speech by default.

Utvecklare gör ett vanligt misstag när de uppmanar LLM:er för conversational AI: att återanvända samma strategi som användes för att träna mänskliga anställda. Denna strategi, trots att den låter enkel, är sällan fruktbar. LLM:er gör andra antaganden än vanliga människor, och deras standardton och omfång är inte lämpade för verbala interaktioner.

Today, we’ll uncover what we know about how to prompt LLMs to build successful conversational AI systems.

Det gamla systemet

Innan LLM:er använde conversational AI-system omfattande logikträd som förfrågningar skulle sorteras genom baserat på verbala inmatningar. Denna uppsättning var populär bland kundtjänstnummer (t.ex. flygbolagslinjer) och betalningssystem (t.ex. kreditkortstjänster via telefon).

Dessa äldre system var långsamma, kändes robotlika och tillät endast mycket begränsade mänskliga inmatningar. Det finns en god chans att du själv har upplevt detta, när du rakt ut skrek “JA” i en telefon för att svara på en uppmaning. Denna dåliga upplevelse fick de flesta användare att försöka “överlista systemet” för att tvinga fram en konversation med en levande mänsklig agent.

However, there was an advantage to these phone trees—they were contained. There were only so many paths a conversation could take, and developers could easily implement guardrails to disregard disallowed inputs. This constraint underpins the pros and cons of LLMs: They expand dramatically past the limited nature of phone trees, but they are also unpredictable, opening a Pandora’s box of pitfalls—such as making impossible promises, getting angry with customers, or breaching sensitive data.

Standardluckor

Om LLM:er bara tränas på en handbok ursprungligen designad för människor, kommer de att ha medioker framgång på grund av några centrala luckor. Att förstå dessa luckor hjälper dig att utforma uppmaningar för att åtgärda dem:

Tonmissmatch

LLM:er tränas via förstärkningsinlärning, där mänsklig feedback uppmuntrar LLM:er att ge strukturerad feedback. Specifikt tenderar LLM-svar att vara ordrika och fyllda med punkter, utrop och rubriker.

Men i kontexten av conversational AI behöver LLM:er efterlikna den koncisa och platta naturen hos verbala interaktioner.

Antagandeluckor

LLM:er har en tendens att fylla okända med antagen kunskap istället för att ställa frågor. Detta kan leda till att de gör felaktiga antaganden som vilseleder användare—eller leder till kostsamma misstag (t.ex. lovade återbetalningar). Senare kommer vi att se hur vi kan använda en kunskapsbas och skyddsräcken för att bättre förankra LLM:er från att ge felaktiga löften och utföra otillåtna handlingar.

Fördröjning

LLM:er kan programmatiskt anropa funktionssamtal, samla in och skriva data för människors räkning. Även om detta generellt är en av de största fördelarna med LLM:er, betyder det också att tidigare träningsinstruktioner, som tillät samtalsagenter att “köpa tid” medan de utförde uppgifter, inte längre behövs. Men funktionssamtal är inte heller omedelbara, vilket betyder att LLM:er behöver noggrant förvarna användaren när en fördröjning förväntas (t.ex. “ge mig ett ögonblick för att undersöka ditt ärende”).

Konfigurationer

Personlighet

LLM:er är ganska framgångsrika på att anpassa tonen för att matcha en stil. En LLM kan konfigureras för att låta vänlig, humoristisk, koncis, formell eller en kombination av stilar. Detta är en viktig inmatning när man uppmanar en LLM.

Till exempel kan utvecklare av en kundtjänst-applikation för conversational AI, designad för att stödja missnöjda flygbolagskunder, använda en uppmaning som:

You are a friendly customer service agent who speaks in concise, clear, empathetic sentences.

  • Add section embedding three example ElevenLabs apps

Format

LLMs behöver få tydliga instruktioner om hur de ska svara. För att säkerställa att de inte inkluderar extra text, bör LLMs ges en struktur som kapslar in svaret som skickas till användaren.

Till exempel kan LLMs instrueras att:

Respond exclusively with the string that should be read aloud to the user

Denna struktur uppmuntrar LLM att ge ett svar designat för att läsas upp.

Men LLMs kan ibland snubbla på saker som kanske inte intuitivt skiljer sig från skrivet innehåll. Ett vanligt exempel är siffror—en LLM kan skriva ut ett postnummer som 10023, vilket får text-to-speech-modellen att säga, “tio tusen och tjugotre.” Istället bör LLM instrueras att säga siffrorna individuellt, och förklara vad siffrorna betyder, t.ex. “Postnumret är ett noll noll två tre.”

Temperatur

Temperatur är en kritisk parameter när man konfigurerar LLMs för conversational AI. En lägre temperatur ger mer fokuserade, deterministiska svar idealiska för uppgiftsorienterade konversationer, medan högre temperaturer skapar mer kreativa, varierade svar.

En låg temperatur är idealisk för conversational AI-system som kanske föredrar konsekventa svar (t.ex. en kundtjänstlinje för återbetalningar). Samtidigt, för system som vill ge en mer engagerande och realistisk känsla till kunder (t.ex. en digital coach), är en hög temperatur bättre:

Low Temperature: Thank you for calling ElevenLabs support. How can I help you?

Hög Temperatur: Hej hej! Du har kommit till ElevenLabs support—redo att lösa dina tekniska problem! Vad har du på hjärtat?

Kunskapsbaser

För conversational AI-system som använder större kunskapsreservoarer bör en kunskapsbas användas för att minimera instruktionens längd. I produktion uppnås detta vanligtvis via en vektordatabas (som Pinecone eller Elasticsearch) eller LLM-leverantörens direkta kunskapslager.

Generellt sett är kunskapsbaser viktiga för att förankra LLM-svar i faktuell, godkänd information. När du bygger ett conversational AI-system bör du ge LLM en omfattande kunskapsbas som innehåller korrekt, uppdaterad information om produkter, tjänster, policyer och procedurer. Detta förhindrar att LLM hallucinerar eller hittar på information samtidigt som det uppmuntrar konsekventa och pålitliga svar över konversationer.

Process

Eftersom LLMs ofta anropar funktioner för användarens räkning, behöver de också veta vilka inmatningar som uttryckligen behövs. Till exempel, om en LLMs jobb är att hjälpa en användare att boka en klipptid, behöver de säkerställa att de har:

  1. Användarens namn
  2. Önskat datum och tid
  3. Användarens adress
  4. Användarens tjänstepreferens

En naiv implementering kan resultera i att LLM frågar efter all information i ett samtal. Detta är helt okej som text, men i en konversation kan det bli överväldigande:

Supportagent: Kan du ge mig ditt namn, din adress, när du vill ha din tjänst och vilken tjänst du vill ha?

Kund: Mitt namn är Mathew och när som helst på onsdag eftermiddag fungerar. Vad mer frågade du efter?

Eftersom information vanligtvis samlas in stegvis via konversation, måste LLMs uppmuntras att hämta denna information bit för bit. Resultatet är en mycket mer konversationell upplevelse:

Supportagent: Kan du ge mig ditt namn?

Kund: Mitt namn är Mathew Pregasen.

Supportagent: Tack Mathew. När vill du boka en tid?

Kund: När som helst på onsdag eftermiddag fungerar bra.

Supportagent: Bra. Kan jag få din adress för att hitta närmaste plats?

Kund: 555 West Main Street

Supportagent: Perfekt. Vilken tjänst söker du?

Kund: Jag letar efter en klippning och om du också kan fixa mitt skägg vore det toppen!

Skyddsräcken

Behörigheter

När du bygger distribuerade system antar du att din server kommer att krascha vid något tillfälle. På samma sätt, när du bygger AI-system, bör du anta att din LLM kommer att göra ett misstag vid något tillfälle. För att minimera konsekvenserna av det misstaget bör du ge dessa system de lägsta behörigheterna som behövs för jobbet. Nedan följer några exempel på hur du kan göra detta:

  • Ställ in läs-/skrivbehörigheter korrekt: Om LLM bara behöver läsa information från en datakälla, se till att den får en skrivskyddad åtkomstpunkt.
  • Begränsa åtkomst till API-ändpunkter: Om LLM bara behöver åtkomst till vissa ändpunkter, se till att den inte kan komma åt några andra.
  • Människa-i-slingan-eskaleringar: Om en högriskåtgärd behöver vidtas, överväg ett människa-i-slingan-arbetsflöde som kräver “chefs godkännande” innan åtgärden utförs.

Validering och Verifiering

När du skapar conversational AI-system som vidtar åtgärder genom verktygsanvändning, är det bra att bygga in en validerings- och verifieringsprocess för att säkerställa att du samlar in korrekt information från användare. Idag, när du pratar med en mänsklig agent, kommer de att upprepa all kritisk information du ger för att verifiera att de hörde rätt och att kunden inte sa fel. LLMs kan dra nytta av en liknande nivå av felkontroll:

Supportagent: Bra. Kan jag få din adress för att hitta närmaste plats?

Kund: 555 West Main Street

Supportagent: Jag fick fem fem fem west main street. Missade jag något?

För validering bör all information som tas emot från kunden kontrolleras mot den typiska strukturen för den informationen. Har telefonnumret rätt antal siffror? Faller åldern som kunden angav inom ett rimligt intervall? Gav kunden en giltig adress?

Supportagent: Vad skulle vara ett bra återuppringningsnummer för dig?

Kund: 317-798-97289

Supportagent: Jag tror att jag kan ha hört fel. Jag hörde 11 siffror. Skulle du kunna upprepa det igen?

Beroende på ditt användningsfall kan du verifiera all mottagen information eller endast information som misslyckades med verifieringen. Dessutom kan du välja att verifiera varje informationsbit när den kommer in eller verifiera allt i slutet.

En Avslutande Tanke

Att framgångsrikt instruera ett conversational AI-system innebär att balansera rätt konfigurationer och skyddsräcken för att skapa en upplevelse som efterliknar att prata med en människa med ökad effektivitet. Processen är inte så trivial som att använda gamla träningsmaterial för att instruera en LLM; istället är LLMs verktyg som behöver specialiserad struktur och strategi för att skapa förutsägbara, effektiva resultat.

Utforska mer

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in