Poznaj Eleven Music. Stwórz idealną piosenkę na każdą okazję.

Jak przygotować system Conversational AI

25 mar 2025 • 8 minut czytania

Cindy Liu, Product | FDE

Odpowiednie wprowadzanie dużego modelu językowego do systemu Conversational AI może zrobić ogromną różnicę.

A split image with a dark, circular, tunnel-like structure with horizontal lights on the left, and a blue background with radiating black lines on the right.

A split image showing the interior of a circular parking garage on the left and a blue background with radiating black lines on the right.

Skontaktuj się z działem sprzedaży Conversational AI

Today, the LLM has emerged as the beating heart of conversational AI systems. Specifically, LLMs enable conversational AI—originally built around sprawling phone trees—to feature dynamic functionality and provide human-like experiences. However, LLMs aren’t a silver bullet upgrade; they require specialized prompting as they aren’t fine-tuned to human speech by default.

Deweloperzy często popełniają błąd, stosując te same metody podpowiadania LLM-om dla conversational AI, które były używane do szkolenia ludzkich pracowników. Ta strategia, choć brzmi prosto, rzadko przynosi owoce. LLM-y mają inne założenia niż typowi ludzie, a ich domyślny ton i zakres nie sprzyjają interakcjom werbalnym.

Today, we’ll uncover what we know about how to prompt LLMs to build successful conversational AI systems.

Stary system

Przed LLM-ami, systemy conversational AI wykorzystywały rozbudowane drzewa logiczne, przez które przechodziły zapytania na podstawie wejść werbalnych. To rozwiązanie było popularne w numerach obsługi klienta (np. infolinie lotnicze) i systemach płatności (np. telefoniczne usługi kart kredytowych).

Te starsze systemy były powolne, przypominały roboty i pozwalały na bardzo ograniczone wejścia ludzkie. Jest duża szansa, że sam tego doświadczyłeś, krzycząc „TAK” do telefonu, aby odpowiedzieć na pytanie. To słabe doświadczenie sprawiło, że większość użytkowników próbowała „pokonać system”, aby wymusić rozmowę z żywym agentem.

However, there was an advantage to these phone trees—they were contained. There were only so many paths a conversation could take, and developers could easily implement guardrails to disregard disallowed inputs. This constraint underpins the pros and cons of LLMs: They expand dramatically past the limited nature of phone trees, but they are also unpredictable, opening a Pandora’s box of pitfalls—such as making impossible promises, getting angry with customers, or breaching sensitive data.

Domyślne luki

Jeśli LLM-y są po prostu szkolone na podręczniku pierwotnie zaprojektowanym dla ludzi, osiągną przeciętne wyniki z powodu kilku podstawowych luk. Zrozumienie tych luk pomoże ci zaprojektować podpowiedzi, aby je rozwiązać:

Niedopasowanie tonu

LLM-y są szkolone poprzez uczenie ze wzmocnieniem, gdzie opinie ludzi zachęcają LLM-y do zwracania uporządkowanych informacji zwrotnych. Odpowiedzi LLM-ów są zazwyczaj rozwlekłe i pełne punktów, bloków wyróżnień i nagłówków.

Jednak w kontekście conversational AI, LLM-y muszą naśladować zwięzły i uproszczony charakter interakcji werbalnych.

Luki w założeniach

LLM-y mają tendencję do wypełniania nieznanych informacji wiedzą domniemaną zamiast zadawania pytań. Może to prowadzić do błędnych założeń, które wprowadzą użytkowników w błąd — lub do kosztownych pomyłek (np. obiecane zwroty). Później zobaczymy, jak możemy użyć bazy wiedzy i zabezpieczeń, aby lepiej ugruntować LLM-y przed składaniem błędnych obietnic i wykonywaniem niedozwolonych działań.

Opóźnienie

LLM-y mogą programowo wywoływać funkcje, zbierając i zapisując dane w imieniu ludzi. Choć jest to jedna z największych zalet LLM-ów, oznacza to również, że wcześniejsze instrukcje szkoleniowe, które pozwalały agentom na „kupowanie czasu” podczas wykonywania zadań, nie są już potrzebne. Jednak wywołania funkcji również nie są natychmiastowe, co oznacza, że LLM-y muszą dokładnie ostrzegać użytkownika, gdy spodziewane jest opóźnienie (np. „daj mi chwilę na zbadanie twojej sprawy”).

Konfiguracje

Osobowość

LLM-y są dość skuteczne w dostosowywaniu tonu do stylu. LLM można skonfigurować, aby brzmiał przyjaźnie, humorystycznie, zwięźle, formalnie lub w kombinacji stylów. Jest to ważny element przy podpowiadaniu LLM-owi.

Na przykład, deweloperzy aplikacji conversational AI do obsługi klienta, zaprojektowanej do wspierania niezadowolonych klientów linii lotniczych, mogą użyć podpowiedzi takiej jak:

You are a friendly customer service agent who speaks in concise, clear, empathetic sentences.

Add section embedding three example ElevenLabs apps

Format

LLM-y muszą otrzymywać jasne instrukcje, jak odpowiadać. Aby upewnić się, że nie dodają zbędnego tekstu, LLM-y powinny otrzymać strukturę, która obejmuje odpowiedź przekazywaną użytkownikowi.

Na przykład, LLM-y mogą być poproszone o:

Respond exclusively with the string that should be read aloud to the user

Ta struktura zachęca LLM do udzielania odpowiedzi zaprojektowanej do wypowiedzenia na głos.

Jednak LLM-y czasami mogą się potknąć na rzeczach, które intuicyjnie nie różnią się od treści pisanej. Częstym przykładem są liczby — LLM może wydrukować kod pocztowy jak 10023, co spowoduje, że model zamiany tekstu na mowę powie „dziesięć tysięcy dwadzieścia trzy”. Zamiast tego, LLM powinien być wyraźnie poproszony o wypowiedzenie liczb pojedynczo, wskazując, co oznaczają, np. „Kod pocztowy to jeden zero zero dwa trzy.”

Temperatura

Temperatura to kluczowy parametr przy konfiguracji LLM-ów dla Conversational AI. Niższa temperatura generuje bardziej skoncentrowane, deterministyczne odpowiedzi idealne do rozmów zorientowanych na zadania, podczas gdy wyższe temperatury tworzą bardziej kreatywne, zróżnicowane odpowiedzi.

Niska temperatura jest idealna dla systemów Conversational AI, które preferują spójne odpowiedzi (np. linia obsługi klienta do zwrotów). Natomiast dla systemów, które chcą zapewnić bardziej angażujące i realistyczne wrażenia dla klientów (np. cyfrowy trener), lepsza jest wysoka temperatura:

Low Temperature: Thank you for calling ElevenLabs support. How can I help you?
Wysoka temperatura: Hej hej! Trafiłeś do wsparcia ElevenLabs — gotowi na rozwiązanie twoich problemów technicznych! Co masz na myśli?

Bazy Wiedzy

Dla systemów Conversational AI, które korzystają z większych zasobów wiedzy, należy wykorzystać bazę wiedzy, aby zminimalizować długość pytania. W produkcji zazwyczaj odbywa się to za pomocą bazy danych wektorowych (takiej jak Pinecone lub Elasticsearch) lub bezpośredniego magazynu wiedzy dostawcy LLM.

Ogólnie rzecz biorąc, bazy wiedzy są niezbędne do ugruntowania odpowiedzi LLM w faktach i zatwierdzonych informacjach. Podczas budowy systemu Conversational AI powinieneś dostarczyć LLM-owi kompleksową bazę wiedzy zawierającą dokładne, aktualne informacje o produktach, usługach, politykach i procedurach. Zapobiega to „halucynacjom” LLM-a lub wymyślaniu informacji, jednocześnie zachęcając do spójnych i wiarygodnych odpowiedzi w rozmowach.

Proces

Ponieważ LLM-y często wywołują funkcje w imieniu użytkownika, muszą również wiedzieć, jakie dane wejściowe są wyraźnie potrzebne. Na przykład, jeśli zadaniem LLM-a jest pomoc użytkownikowi w umówieniu wizyty na strzyżenie, muszą upewnić się, że mają:

Imię użytkownika
Żądana data i godzina
Adres użytkownika
Preferencje dotyczące usługi

Naive wdrożenie może skutkować tym, że LLM zapyta o wszystkie informacje w jednym obrocie rozmowy. To jest całkowicie w porządku jako tekst, ale w rozmowie może być przytłaczające:

Agent wsparcia: Czy możesz podać mi swoje imię, adres, kiedy chciałbyś skorzystać z usługi i jaką usługę chciałbyś?
Klient: Nazywam się Mathew i każda środa po południu pasuje. O co jeszcze pytałeś?

Ponieważ informacje są zazwyczaj zbierane stopniowo poprzez rozmowę, LLM-y muszą być zachęcane do zbierania tych informacji w sposób fragmentaryczny. Rezultatem jest znacznie bardziej konwersacyjne doświadczenie:

Agent wsparcia: Czy możesz podać mi swoje imię?
Klient: Nazywam się Mathew Pregasen.
Agent wsparcia: Dzięki Mathew. Kiedy chciałbyś umówić wizytę?
Klient: Każda środa po południu pasuje.
Agent wsparcia: Świetnie. Teraz czy mogę dostać twój adres, aby znaleźć najbliższą lokalizację?
Klient: 555 West Main Street
Agent wsparcia: Doskonale. Jaką usługę chciałbyś?
Klient: Chciałbym strzyżenie, a jeśli moglibyście również zająć się moją brodą, byłoby świetnie!

Zabezpieczenia

Uprawnienia

Podczas budowy rozproszonych systemów zakładasz, że twój serwer w pewnym momencie się zawiesi. Podobnie, podczas budowy systemów AI, powinieneś założyć, że twój LLM popełni błąd w pewnym momencie. Aby zminimalizować skutki tego błędu, powinieneś dać tym systemom najniższe niezbędne uprawnienia do wykonania zadania. Poniżej kilka przykładów, jak to zrobić:

Prawidłowo ustaw uprawnienia do odczytu/zapisu: Jeśli LLM potrzebuje tylko odczytu informacji z źródła danych, upewnij się, że ma dostęp tylko do punktu końcowego tylko do odczytu.
Ogranicz dostęp do punktów końcowych API: Jeśli LLM potrzebuje dostępu tylko do określonych punktów końcowych, upewnij się, że nie ma dostępu do innych.
Eskalcje z udziałem człowieka: Jeśli konieczne jest podjęcie działania wysokiego ryzyka, rozważ workflow z udziałem człowieka, który wymaga „zatwierdzenia przez menedżera” przed wykonaniem działania.

Walidacja i Weryfikacja

Podczas tworzenia systemów Conversational AI, które podejmują działania za pomocą narzędzi, warto wbudować proces walidacji i weryfikacji, aby upewnić się, że zbierasz poprawne informacje od użytkowników. Dziś, gdy rozmawiasz z agentem ludzkim, powtarzają oni wszelkie krytyczne informacje, które podajesz, aby zweryfikować, że usłyszeli je poprawnie i że klient się nie przejęzyczył. LLM-y mogą skorzystać z podobnego poziomu sprawdzania błędów:

Agent wsparcia: Świetnie. Teraz czy mogę dostać twój adres, aby znaleźć najbliższą lokalizację?
Klient: 555 West Main Street
Agent wsparcia: Mam pięć pięć pięć West Main Street. Czy coś pominąłem?

Dla walidacji, wszelkie informacje otrzymane od klienta powinny być sprawdzone pod kątem typowej struktury tych informacji. Czy numer telefonu ma odpowiednią liczbę cyfr? Czy wiek podany przez klienta mieści się w rozsądnym zakresie? Czy klient podał prawidłowy adres?

Agent wsparcia: Jaki byłby dobry numer do oddzwonienia?
Klient: 317-798-97289
Agent wsparcia: Myślę, że mogłem źle usłyszeć. Słyszałem 11 cyfr. Czy mógłbyś to powtórzyć?

W zależności od twojego przypadku użycia, możesz zweryfikować wszystkie otrzymane informacje lub tylko te, które nie przeszły weryfikacji. Dodatkowo, możesz zdecydować się na weryfikację każdej informacji w miarę jej przychodzenia lub zweryfikować wszystko na końcu.

Na Zakończenie

Skuteczne wykorzystanie systemu Conversational AI polega na zrównoważeniu odpowiednich konfiguracji i zabezpieczeń, aby stworzyć doświadczenie, które naśladuje rozmowę z człowiekiem z większą efektywnością. Proces ten nie jest tak prosty, jak użycie starych materiałów szkoleniowych do pracy z LLM; zamiast tego, LLM-y są narzędziami, które wymagają specjalistycznej struktury i strategii, aby tworzyć przewidywalne, skuteczne wyniki.

Przeglądaj artykuły zespołu ElevenLabs

Developer

Developer

Eleven v3 (alpha), now available in the API

Eleven v3 (alpha), the most expressive text to speech model, is now available in the API for every developer.

Impact

Sarah Ezekiel, a woman using eye gaze technology to operate a tablet displaying Smartbox Grid communication software

Impact

ElevenLabs Impact Program Innovates in Assistive Technology

Eight seconds of audio from an old VHS tape was all Sarah needed to reclaim her voice with ElevenLabs — and through her Smartbox assistive technology device, finally let her children hear her authentic voice.

Twórz z najwyższą jakością dźwięku AI

Zacznij za darmo

Masz już konto? Zaloguj się