How to Prompt a Conversational AI System

Odpowiednie wprowadzanie dużego modelu językowego do systemu Conversational AI może zrobić ogromną różnicę.

Today, the LLM has emerged as the beating heart of conversational AI systems. Specifically, LLMs enable conversational AI—originally built around sprawling phone trees—to feature dynamic functionality and provide human-like experiences. However, LLMs aren’t a silver bullet upgrade; they require specialized prompting as they aren’t fine-tuned to human speech by default.

Developers make a common mistake when prompting LLMs for conversational AI: recycling the same playbook that was used to train human employees. This strategy, despite sounding straightforward, is rarely fruitful. LLMs make different assumptions than typical humans, and their default tone and scope aren’t conducive to verbal interactions.

Today, we’ll uncover what we know about how to prompt LLMs to build successful conversational AI systems.

The Old System

Prior to LLMs, conversational AI systems leveraged sprawling logic trees that requests would triage through based on verbal inputs. This setup was popular among customer service numbers (e.g., airline hotlines) and payment systems (e.g., credit card phone services).

These older systems were sluggish, felt robot-like, and could only permit very limited human inputs. There’s a fair chance you experienced this yourself, bluntly yelling “YES” into a phone to answer a prompt. This poor experience led most users to attempt to “beat the system” to force a conversation with a live human agent.

However, there was an advantage to these phone trees—they were contained. There were only so many paths a conversation could take, and developers could easily implement guardrails to disregard disallowed inputs. This constraint underpins the pros and cons of LLMs: They expand dramatically past the limited nature of phone trees, but they are also unpredictable, opening a Pandora’s box of pitfalls—such as making impossible promises, getting angry with customers, or breaching sensitive data.

The Default Gaps

If LLMs are simply trained on a handbook originally designed for humans, they’ll have mediocre success due to a few core gaps. Understanding these gaps will help you design prompts to address them:

Tone Mismatch

LLMs are trained via reinforcement learning, where human feedback incentivizes LLMs to return structured feedback. Specifically, LLM responses tend to be verbose and filled with bullets, call-out blocks, and headlines.

However, in the context of conversational AI, LLMs need to emulate the concise and flattened nature of verbal interactions.

Assumption Gaps

LLMs have a tendency to fill any unknowns with inferred knowledge instead of asking questions. This can lead them to make incorrect assumptions that’ll mislead users—or lead to costly mistakes (e.g., promised refunds). Later, we’ll see how we can use a knowledge base and guardrails to better ground the LLMs from making incorrect promises and executing disallowed actions.

Latency

LLMs can programmatically invoke function calls, gathering and writing data on behalf of humans. While this is generally one of the biggest advantages of LLMs, it also means that previous training instructions, which allowed call agents to “buy time” while performing tasks, are no longer needed. However, function calls aren’t instantaneous either, meaning that LLMs need to accurately forewarn the user whenever a delay is expected (e.g., “give me a moment to examine your case”).

Configurations

Personality

LLMs are fairly successful at augmenting tone to match a style. An LLM could be configured to sound friendly, humorous, concise, formal, or a combination of styles. This is an important input when prompting an LLM.

For example, developers of a customer service conversational AI application designed to support disgruntled airline customers might use a prompt such as:

You are a friendly customer service agent who speaks in concise, clear, empathetic sentences.

  • Add section embedding three example ElevenLabs apps

Format

LLM-y muszą otrzymywać jasne instrukcje, jak odpowiadać. Aby upewnić się, że nie dodają zbędnego tekstu, LLM-y powinny otrzymać strukturę, która obejmuje odpowiedź przekazywaną użytkownikowi.

Na przykład, LLM-y mogą być poproszone o:

Respond exclusively with the string that should be read aloud to the user

Ta struktura zachęca LLM do udzielania odpowiedzi zaprojektowanej do wypowiedzenia na głos.

Jednak LLM-y czasami mogą się potknąć na rzeczach, które intuicyjnie nie różnią się od treści pisanej. Częstym przykładem są liczby — LLM może wydrukować kod pocztowy jak 10023, co spowoduje, że model zamiany tekstu na mowę powie „dziesięć tysięcy dwadzieścia trzy”. Zamiast tego, LLM powinien być wyraźnie poproszony o wypowiedzenie liczb pojedynczo, wskazując, co oznaczają, np. „Kod pocztowy to jeden zero zero dwa trzy.”

Temperatura

Temperatura to kluczowy parametr przy konfiguracji LLM-ów dla Conversational AI. Niższa temperatura generuje bardziej skoncentrowane, deterministyczne odpowiedzi idealne do rozmów zorientowanych na zadania, podczas gdy wyższe temperatury tworzą bardziej kreatywne, zróżnicowane odpowiedzi.

Niska temperatura jest idealna dla systemów Conversational AI, które preferują spójne odpowiedzi (np. linia obsługi klienta do zwrotów). Natomiast dla systemów, które chcą zapewnić bardziej angażujące i realistyczne wrażenia dla klientów (np. cyfrowy trener), lepsza jest wysoka temperatura:

Low Temperature: Thank you for calling ElevenLabs support. How can I help you?

Wysoka temperatura: Hej hej! Trafiłeś do wsparcia ElevenLabs — gotowi na rozwiązanie twoich problemów technicznych! Co masz na myśli?

Bazy Wiedzy

Dla systemów Conversational AI, które korzystają z większych zasobów wiedzy, należy wykorzystać bazę wiedzy, aby zminimalizować długość pytania. W produkcji zazwyczaj odbywa się to za pomocą bazy danych wektorowych (takiej jak Pinecone lub Elasticsearch) lub bezpośredniego magazynu wiedzy dostawcy LLM.

Ogólnie rzecz biorąc, bazy wiedzy są niezbędne do ugruntowania odpowiedzi LLM w faktach i zatwierdzonych informacjach. Podczas budowy systemu Conversational AI powinieneś dostarczyć LLM-owi kompleksową bazę wiedzy zawierającą dokładne, aktualne informacje o produktach, usługach, politykach i procedurach. Zapobiega to „halucynacjom” LLM-a lub wymyślaniu informacji, jednocześnie zachęcając do spójnych i wiarygodnych odpowiedzi w rozmowach.

Proces

Ponieważ LLM-y często wywołują funkcje w imieniu użytkownika, muszą również wiedzieć, jakie dane wejściowe są wyraźnie potrzebne. Na przykład, jeśli zadaniem LLM-a jest pomoc użytkownikowi w umówieniu wizyty na strzyżenie, muszą upewnić się, że mają:

  1. Imię użytkownika
  2. Żądana data i godzina
  3. Adres użytkownika
  4. Preferencje dotyczące usługi

Naive wdrożenie może skutkować tym, że LLM zapyta o wszystkie informacje w jednym obrocie rozmowy. To jest całkowicie w porządku jako tekst, ale w rozmowie może być przytłaczające:

Agent wsparcia: Czy możesz podać mi swoje imię, adres, kiedy chciałbyś skorzystać z usługi i jaką usługę chciałbyś?

Klient: Nazywam się Mathew i każda środa po południu pasuje. O co jeszcze pytałeś?

Ponieważ informacje są zazwyczaj zbierane stopniowo poprzez rozmowę, LLM-y muszą być zachęcane do zbierania tych informacji w sposób fragmentaryczny. Rezultatem jest znacznie bardziej konwersacyjne doświadczenie:

Agent wsparcia: Czy możesz podać mi swoje imię?

Klient: Nazywam się Mathew Pregasen.

Agent wsparcia: Dzięki Mathew. Kiedy chciałbyś umówić wizytę?

Klient: Każda środa po południu pasuje.

Agent wsparcia: Świetnie. Teraz czy mogę dostać twój adres, aby znaleźć najbliższą lokalizację?

Klient: 555 West Main Street

Agent wsparcia: Doskonale. Jaką usługę chciałbyś?

Klient: Chciałbym strzyżenie, a jeśli moglibyście również zająć się moją brodą, byłoby świetnie!

Zabezpieczenia

Uprawnienia

Podczas budowy rozproszonych systemów zakładasz, że twój serwer w pewnym momencie się zawiesi. Podobnie, podczas budowy systemów AI, powinieneś założyć, że twój LLM popełni błąd w pewnym momencie. Aby zminimalizować skutki tego błędu, powinieneś dać tym systemom najniższe niezbędne uprawnienia do wykonania zadania. Poniżej kilka przykładów, jak to zrobić:

  • Prawidłowo ustaw uprawnienia do odczytu/zapisu: Jeśli LLM potrzebuje tylko odczytu informacji z źródła danych, upewnij się, że ma dostęp tylko do punktu końcowego tylko do odczytu.
  • Ogranicz dostęp do punktów końcowych API: Jeśli LLM potrzebuje dostępu tylko do określonych punktów końcowych, upewnij się, że nie ma dostępu do innych.
  • Eskalcje z udziałem człowieka: Jeśli konieczne jest podjęcie działania wysokiego ryzyka, rozważ workflow z udziałem człowieka, który wymaga „zatwierdzenia przez menedżera” przed wykonaniem działania.

Walidacja i Weryfikacja

Podczas tworzenia systemów Conversational AI, które podejmują działania za pomocą narzędzi, warto wbudować proces walidacji i weryfikacji, aby upewnić się, że zbierasz poprawne informacje od użytkowników. Dziś, gdy rozmawiasz z agentem ludzkim, powtarzają oni wszelkie krytyczne informacje, które podajesz, aby zweryfikować, że usłyszeli je poprawnie i że klient się nie przejęzyczył. LLM-y mogą skorzystać z podobnego poziomu sprawdzania błędów:

Agent wsparcia: Świetnie. Teraz czy mogę dostać twój adres, aby znaleźć najbliższą lokalizację?

Klient: 555 West Main Street

Agent wsparcia: Mam pięć pięć pięć West Main Street. Czy coś pominąłem?

Dla walidacji, wszelkie informacje otrzymane od klienta powinny być sprawdzone pod kątem typowej struktury tych informacji. Czy numer telefonu ma odpowiednią liczbę cyfr? Czy wiek podany przez klienta mieści się w rozsądnym zakresie? Czy klient podał prawidłowy adres?

Agent wsparcia: Jaki byłby dobry numer do oddzwonienia?

Klient: 317-798-97289

Agent wsparcia: Myślę, że mogłem źle usłyszeć. Słyszałem 11 cyfr. Czy mógłbyś to powtórzyć?

W zależności od twojego przypadku użycia, możesz zweryfikować wszystkie otrzymane informacje lub tylko te, które nie przeszły weryfikacji. Dodatkowo, możesz zdecydować się na weryfikację każdej informacji w miarę jej przychodzenia lub zweryfikować wszystko na końcu.

Na Zakończenie

Skuteczne wykorzystanie systemu Conversational AI polega na zrównoważeniu odpowiednich konfiguracji i zabezpieczeń, aby stworzyć doświadczenie, które naśladuje rozmowę z człowiekiem z większą efektywnością. Proces ten nie jest tak prosty, jak użycie starych materiałów szkoleniowych do pracy z LLM; zamiast tego, LLM-y są narzędziami, które wymagają specjalistycznej struktury i strategii, aby tworzyć przewidywalne, skuteczne wyniki.

Zobacz więcej

ElevenLabs

Twórz z najwyższą jakością dźwięku AI