Wie man ein Conversational-KI-System anleitet

Ein großes Sprachmodell richtig für den Einsatz in einem Conversational-KI-System anzusprechen, kann den entscheidenden Unterschied machen.

Heute ist das LLM das Herzstück von Conversational-KI-Systemen. Insbesondere ermöglichen LLMs

Entwickler machen oft den Fehler, bei der Anleitung von LLMs für Conversational AI das gleiche Schema zu verwenden, das für die Schulung menschlicher Mitarbeiter genutzt wurde. Diese Strategie klingt zwar einfach, ist aber selten erfolgreich. LLMs treffen andere Annahmen als typische Menschen, und ihr Standardton und -umfang sind nicht für verbale Interaktionen geeignet.

Heute werden wir aufdecken, was wir darüber wissen, wie man LLMs anspricht, um erfolgreiche Conversational-KI-Systeme zu bauen. Sie können auch einen umfassenderen und technischeren Leitfaden zu diesem Thema in den

Das alte System

Vor den LLMs nutzten Conversational-KI-Systeme umfangreiche Logikbäume, durch die Anfragen basierend auf verbalen Eingaben geleitet wurden. Diese Einrichtung war bei Kundendienstnummern (z.B. Fluggesellschaften) und Zahlungssystemen (z.B. Kreditkarten-Telefondienste) beliebt.

Diese älteren Systeme waren langsam, wirkten roboterhaft und erlaubten nur sehr begrenzte menschliche Eingaben. Wahrscheinlich haben Sie selbst erlebt, wie Sie laut „JA“ in ein Telefon rufen mussten, um eine Eingabe zu bestätigen. Diese schlechte Erfahrung führte dazu, dass die meisten Nutzer versuchten, das System zu „überlisten“, um ein Gespräch mit einem menschlichen Agenten zu erzwingen.

Allerdings hatten diese Telefonbäume einen Vorteil – sie waren begrenzt. Es gab nur eine begrenzte Anzahl von Wegen, die ein Gespräch nehmen konnte, und Entwickler konnten leicht Schutzmaßnahmen implementieren, um unerlaubte Eingaben zu ignorieren. Diese Einschränkung bildet die Grundlage für die Vor- und Nachteile von LLMs: Sie erweitern sich dramatisch über die begrenzte Natur von Telefonbäumen hinaus, sind aber auch unvorhersehbar und öffnen eine Büchse der Pandora voller Fallstricke – wie unmögliche Versprechen, Ärger mit Kunden oder das Verletzen sensibler Daten.

Die Standardlücken

Wenn LLMs einfach auf einem ursprünglich für Menschen entwickelten Handbuch trainiert werden, haben sie aufgrund einiger grundlegender Lücken nur mäßigen Erfolg. Diese Lücken zu verstehen, hilft Ihnen, Anleitungen zu entwerfen, um sie zu adressieren:

Ton-Mismatch

LLMs werden durch Verstärkungslernen trainiert, bei dem menschliches Feedback LLMs dazu anregt, strukturiertes Feedback zu geben. Insbesondere neigen LLM-Antworten dazu, ausführlich zu sein und mit Aufzählungen, Hervorhebungen und Überschriften gefüllt zu sein.

Im Kontext von Conversational AI müssen LLMs jedoch die prägnante und flache Natur verbaler Interaktionen nachahmen.

Annahme-Lücken

LLMs neigen dazu, Unbekanntes mit abgeleitetem Wissen zu füllen, anstatt Fragen zu stellen. Dies kann dazu führen, dass sie falsche Annahmen treffen, die Nutzer in die Irre führen oder zu kostspieligen Fehlern führen (z.B. versprochene Rückerstattungen). Später werden wir sehen, wie wir eine Wissensdatenbank und Schutzmaßnahmen nutzen können, um die LLMs besser zu verankern und falsche Versprechen und unerlaubte Aktionen zu vermeiden.

Latenz

LLMs können programmatisch Funktionsaufrufe ausführen, um Daten im Namen von Menschen zu sammeln und zu schreiben. Obwohl dies im Allgemeinen einer der größten Vorteile von LLMs ist, bedeutet es auch, dass frühere Schulungsanweisungen, die es Call-Agenten ermöglichten, „Zeit zu gewinnen“, während sie Aufgaben ausführten, nicht mehr benötigt werden. Allerdings sind Funktionsaufrufe auch nicht sofortig, was bedeutet, dass LLMs den Nutzer genau vorwarnen müssen, wenn eine Verzögerung zu erwarten ist (z.B. „Geben Sie mir einen Moment, um Ihren Fall zu prüfen“).

Konfigurationen

Persönlichkeit

LLMs sind ziemlich erfolgreich darin, den Ton anzupassen, um einem Stil zu entsprechen. Ein LLM könnte so konfiguriert werden, dass es freundlich, humorvoll, prägnant, formell oder eine Kombination von Stilen klingt. Dies ist ein wichtiger Input bei der Anleitung eines LLM.

Zum Beispiel könnten Entwickler einer Conversational-KI-Anwendung für den Kundenservice, die unzufriedene Fluggesellschaftskunden unterstützt, eine Eingabe wie folgt verwenden:

Sie sind ein freundlicher Kundenservice-Agent, der in prägnanten, klaren, einfühlsamen Sätzen spricht.

  • Abschnitt mit drei Beispiel-Apps von ElevenLabs einfügen

Format

LLMs müssen explizite Anweisungen erhalten, wie sie antworten sollen. Um sicherzustellen, dass sie keinen zusätzlichen Text einfügen, sollten LLMs eine Struktur erhalten, die die an den Nutzer übermittelte Antwort umfasst.

Zum Beispiel könnten LLMs aufgefordert werden:

Antworten Sie ausschließlich mit dem Text, der dem Nutzer vorgelesen werden soll

Diese Struktur ermutigt das LLM, eine Antwort zu geben, die zum Vorlesen gedacht ist.

Allerdings können LLMs manchmal bei Dingen stolpern, die sich nicht intuitiv von geschriebenem Inhalt unterscheiden. Ein häufiges Beispiel sind Zahlen — ein LLM könnte eine Postleitzahl wie 10023 ausgeben, was dazu führt, dass das

Temperatur

Temperatur ist ein kritischer Parameter bei der Konfiguration von LLMs für Conversational AI. Eine niedrigere Temperatur erzeugt fokussiertere, deterministische Antworten, die ideal für aufgabenorientierte Gespräche sind, während höhere Temperaturen kreativere, abwechslungsreichere Antworten erzeugen.

Eine niedrige Temperatur ist ideal für Conversational-KI-Systeme, die konsistente Antworten bevorzugen (z. B. eine Kundenservice-Hotline für Rückerstattungen). Währenddessen ist für Systeme, die ein ansprechenderes undrealistisches Gefühl für Kunden bieten möchten (z. B. ein digitaler Coach), eine hohe Temperatur besser:

Niedrige Temperatur: Vielen Dank, dass Sie den ElevenLabs-Support angerufen haben. Wie kann ich Ihnen helfen?Hohe Temperatur: Hey hey! Sie sind beim ElevenLabs-Support gelandet – bereit, Ihre Technikprobleme zu lösen! Was beschäftigt Sie?

Wissensbasen

Für Conversational-KI-Systeme, die auf größere Wissensreservoirs zugreifen, sollte eine Wissensbasis genutzt werden, um die Länge der Ansprache zu minimieren. In der Produktion wird dies typischerweise über eine Vektordatenbank (wie Pinecone oder Elasticsearch) oder den direkten Wissensspeicher des LLM-Anbieters erreicht.

Im Allgemeinen sind Wissensbasen unerlässlich, um LLM-Antworten in faktisch korrekten, genehmigten Informationen zu verankern. Beim Aufbau eines Conversational-KI-Systems sollten Sie dem LLM eine umfassende Wissensbasis zur Verfügung stellen, die genaue, aktuelle Informationen über Produkte, Dienstleistungen, Richtlinien und Verfahren enthält. Dies verhindert, dass das LLM halluziniert oder Informationen erfindet, und fördert konsistente und zuverlässige Antworten in Gesprächen.

Prozess

Da LLMs oft Funktionen im Namen des Nutzers aufrufen, müssen sie auch wissen, welche Eingaben explizit benötigt werden. Zum Beispiel, wenn die Aufgabe eines LLM darin besteht, einem Nutzer bei der Terminvereinbarung für einen Haarschnitt zu helfen, müssen sie sicherstellen, dass sie haben:

  1. Den Namen des Nutzers
  2. Das gewünschte Datum und die Uhrzeit
  3. Die Adresse des Nutzers
  4. Die Dienstleistungspräferenz des Nutzers

Eine naive Implementierung könnte dazu führen, dass das LLM alle Informationen in einem Gesprächsdurchgang abfragt. Das ist als Text völlig in Ordnung, kann aber in einem Gespräch überwältigend sein:

Support-Agent: Könnten Sie mir bitte Ihren Namen, Ihre Adresse, wann Sie Ihren Service möchten und welchen Service Sie wünschen, mitteilen?

Da Informationen normalerweise schrittweise über Gespräche gesammelt werden, müssen LLMs ermutigt werden, diese Informationen stückweise abzurufen. Das Ergebnis ist ein viel konversationelleres Erlebnis:

Support-Agent: Könnten Sie mir bitte Ihren Namen mitteilen?

Leitplanken

Berechtigungen

Beim Aufbau verteilter Systeme gehen Sie davon aus, dass Ihr Server irgendwann abstürzt. Ebenso sollten Sie beim Aufbau von KI-Systemen davon ausgehen, dass Ihr LLM irgendwann einen Fehler macht. Um den Schaden dieses Fehlers zu minimieren, sollten Sie diesen Systemen die geringsten notwendigen Berechtigungen für die jeweilige Aufgabe geben. Nachfolgend einige Beispiele, wie Sie dies tun können:

  • Lesen/Schreiben-Berechtigungen korrekt setzen: Wenn das LLM nur Informationen aus einer Datenquelle lesen muss, stellen Sie sicher, dass es einen Nur-Lese-Endpunkt erhält.
  • Zugriff auf API-Endpunkte beschränken: Wenn das LLM nur Zugriff auf bestimmte Endpunkte benötigt, stellen Sie sicher, dass es keinen Zugriff auf andere hat.
  • Mensch-in-der-Schleife-Eskalationen: Wenn eine risikoreiche Aktion ausgeführt werden muss, ziehen Sie einen Mensch-in-der-Schleife-Workflow in Betracht, der eine „Managergenehmigung“ erfordert, bevor die Aktion ausgeführt wird.

Validierung und Verifizierung

Beim Erstellen von Conversational-KI-Systemen, die Aktionen durch Werkzeugnutzung ausführen, ist es hilfreich, einen Validierungs- und Verifizierungsprozess einzubauen, um sicherzustellen, dass Sie die richtigen Informationen von den Nutzern sammeln. Heute, wenn Sie mit einem menschlichen Agenten sprechen, wiederholen sie alle wichtigen Informationen, die Sie geben, um zu überprüfen, ob sie richtig gehört wurden und dass der Kunde sich nicht versprochen hat. LLMs könnten von einem ähnlichen Maß an Fehlerüberprüfung profitieren:

Support-Agent: Großartig. Kann ich jetzt Ihre Adresse bekommen, um den nächstgelegenen Standort zu finden?

Zur Validierung sollte jede vom Kunden erhaltene Information mit der typischen Struktur dieser Information abgeglichen werden. Hat die Telefonnummer die richtige Anzahl von Ziffern? Liegt das vom Kunden angegebene Alter in einem vernünftigen Bereich? Hat der Kunde eine gültige Adresse angegeben?

Support-Agent: Welche Rückrufnummer wäre gut für Sie?

Je nach Anwendungsfall können Sie alle erhaltenen Informationen oder nur Informationen, die die Verifizierung nicht bestanden haben, überprüfen. Zusätzlich können Sie entscheiden, ob Sie jede Information bei Eingang verifizieren oder alles am Ende überprüfen.

Ein abschließender Gedanke

Ein Conversational-KI-System erfolgreich anzusprechen, erfordert das richtige Gleichgewicht zwischen Konfigurationen und Leitplanken, um ein Erlebnis zu schaffen, das einem Gespräch mit einem Menschen ähnelt, jedoch mit erhöhter Effizienz. Der Prozess ist nicht so trivial wie die Verwendung alter Schulungsmaterialien, um ein LLM anzusprechen; stattdessen sind LLMs Werkzeuge, die eine spezialisierte Struktur und Strategie benötigen, um vorhersehbare, effektive Ergebnisse zu erzielen.

Mehr entdecken

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden