Apresentando o Eleven v3 (alpha)

Experimente o v3

Como Criar Prompts para um Sistema de IA Conversacional

Criar prompts adequados para um modelo de linguagem em um Sistema de IA Conversacional pode fazer toda a diferença.

A split image showing the interior of a circular parking garage on the left and a blue background with radiating black lines on the right.

Hoje, o LLM surgiu como o coração pulsante dos sistemas de IA conversacional. Especificamente, os LLMs permitem que a IA conversacional — originalmente construída em torno de árvores de telefone extensas — ofereça funcionalidade dinâmica e proporcione experiências semelhantes às humanas. No entanto, os LLMs não são uma solução mágica; eles exigem prompts especializados, pois não são ajustados para a fala humana por padrão.

Os desenvolvedores cometem um erro comum ao criar prompts para LLMs em IA conversacional: reciclar o mesmo manual usado para treinar funcionários humanos. Essa estratégia, apesar de parecer simples, raramente é eficaz. Os LLMs fazem suposições diferentes das típicas humanas, e seu tom e escopo padrão não são adequados para interações verbais.

Hoje, vamos revelar o que sabemos sobre como criar prompts para LLMs a fim de construir sistemas de IA conversacional bem-sucedidos. Você também pode ler um guia mais abrangente e técnico sobre este tópico nos documentos do desenvolvedor da ElevenLabs.

O Sistema Antigo

Antes dos LLMs, os sistemas de IA conversacional utilizavam extensas árvores de lógica que triavam solicitações com base em entradas verbais. Essa configuração era popular entre números de atendimento ao cliente (por exemplo, linhas aéreas) e sistemas de pagamento (por exemplo, serviços telefônicos de cartão de crédito).

Esses sistemas mais antigos eram lentos, pareciam robóticos e permitiam apenas entradas humanas muito limitadas. É bem provável que você tenha experimentado isso, gritando “SIM” no telefone para responder a um prompt. Essa experiência ruim levou a maioria dos usuários a tentar “burlar o sistema” para forçar uma conversa com um agente humano ao vivo.

No entanto, havia uma vantagem nessas árvores telefônicas — elas eram contidas. Havia apenas tantos caminhos que uma conversa poderia seguir, e os desenvolvedores podiam facilmente implementar limites para desconsiderar entradas não permitidas. Essa restrição sustenta os prós e contras dos LLMs: Eles se expandem dramaticamente além da natureza limitada das árvores telefônicas, mas também são imprevisíveis, abrindo uma caixa de Pandora de armadilhas — como fazer promessas impossíveis, ficar irritado com os clientes ou violar dados sensíveis.

As Lacunas Padrão

Se os LLMs forem simplesmente treinados com um manual originalmente projetado para humanos, eles terão sucesso medíocre devido a algumas lacunas principais. Compreender essas lacunas ajudará você a criar prompts para abordá-las:

Descompasso de Tom

Os LLMs são treinados por meio de aprendizado por reforço, onde o feedback humano incentiva os LLMs a retornarem feedback estruturado. Especificamente, as respostas dos LLMs tendem a ser verbosas e cheias de marcadores, blocos de destaque e manchetes.

No entanto, no contexto de IA conversacional, os LLMs precisam emular a natureza concisa e direta das interações verbais.

Lacunas de Suposição

Os LLMs têm a tendência de preencher qualquer desconhecido com conhecimento inferido em vez de fazer perguntas. Isso pode levá-los a fazer suposições incorretas que enganarão os usuários — ou levar a erros custosos (por exemplo, reembolsos prometidos). Mais adiante, veremos como podemos usar uma base de conhecimento e limites para melhor fundamentar os LLMs, evitando promessas incorretas e ações não permitidas.

Latência

Os LLMs podem invocar chamadas de função programaticamente, coletando e escrevendo dados em nome dos humanos. Embora isso geralmente seja uma das maiores vantagens dos LLMs, também significa que as instruções de treinamento anteriores, que permitiam que agentes de chamadas “ganhassem tempo” enquanto realizavam tarefas, não são mais necessárias. No entanto, as chamadas de função também não são instantâneas, o que significa que os LLMs precisam avisar com precisão o usuário sempre que um atraso for esperado (por exemplo, “me dê um momento para examinar seu caso”).

Configurações

Personalidade

Os LLMs são bastante eficazes em ajustar o tom para corresponder a um estilo. Um LLM pode ser configurado para soar amigável, humorístico, conciso, formal ou uma combinação de estilos. Este é um input importante ao criar um prompt para um LLM.

Por exemplo, desenvolvedores de uma aplicação de IA conversacional de atendimento ao cliente projetada para apoiar clientes insatisfeitos de companhias aéreas podem usar um prompt como:

You are a friendly customer service agent who speaks in concise, clear, empathetic sentences.
American
Whispering
Mysterious
Gaming
Lively
Irish
Soothing
Audiobook

Nicole

Formato

Os LLMs precisam receber direções explícitas sobre como responder. Para garantir que não incluam texto adicional desnecessário, os LLMs devem receber uma estrutura que encapsule a resposta passada ao usuário.

Por exemplo, os LLMs podem ser orientados a:

Respond exclusively with the string that should be read aloud to the user

Essa estrutura incentiva o LLM a fornecer uma resposta projetada para ser falada em voz alta.

No entanto, os LLMs às vezes podem tropeçar em coisas que podem não diferir intuitivamente do conteúdo escrito. Um exemplo comum são os números — um LLM pode imprimir um CEP como 10023, o que fará com que o modelo de text-to-speech diga, “dez mil e vinte e três.” Em vez disso, o LLM deve ser explicitamente orientado a dizer os números individualmente, sinalizando o que os números significam, por exemplo, “O CEP é um zero zero dois três.”

Temperatura

A temperatura é um parâmetro crítico ao configurar LLMs para IA conversacional. Uma temperatura mais baixa produz respostas mais focadas e determinísticas, ideais para conversas orientadas a tarefas, enquanto temperaturas mais altas criam respostas mais criativas e variadas.

Uma temperatura baixa é ideal para sistemas de IA conversacional que podem preferir respostas consistentes (por exemplo, uma linha de atendimento ao cliente para reembolsos). Enquanto isso, para sistemas que desejam proporcionar uma sensação mais envolvente e realista aos clientes (por exemplo, um coach digital), uma temperatura alta é melhor:

Low Temperature: Thank you for calling ElevenLabs support. How can I help you?
High Temperature: Hey hey! You've landed at ElevenLabs support—ready to tackle your tech troubles! What's on your mind?

Bases de Conhecimento

Para sistemas de IA conversacional que acessam grandes reservatórios de conhecimento, uma base de conhecimento deve ser utilizada para minimizar o comprimento do prompt. Na produção, isso geralmente é realizado por meio de um banco de dados vetorial (como Pinecone ou Elasticsearch) ou do armazenamento de conhecimento direto do provedor de LLM.

De modo geral, as bases de conhecimento são essenciais para fundamentar as respostas dos LLMs em informações factuais e aprovadas. Ao construir um sistema de IA conversacional, você deve fornecer ao LLM uma base de conhecimento abrangente que contenha informações precisas e atualizadas sobre produtos, serviços, políticas e procedimentos. Isso evita que o LLM alucine ou invente informações, ao mesmo tempo que incentiva respostas consistentes e confiáveis em todas as conversas.

Processo

Como os LLMs frequentemente invocam funções em nome do usuário, eles também precisam saber quais entradas são explicitamente necessárias. Por exemplo, se o trabalho de um LLM é ajudar um usuário a agendar um corte de cabelo, ele precisará garantir que tenha:

  1. O nome do usuário
  2. A data e hora desejadas
  3. O endereço do usuário
  4. A preferência de serviço do usuário

Uma implementação ingênua pode resultar no LLM pedindo todas as informações em uma única vez na conversa. Isso é perfeitamente aceitável como texto, mas em uma conversa, pode ser avassalador:

Support Agent: Could you please provide me with your name, your address, when you'd like your service to be, and what service you'd like?
Customer: My name is Mathew and anytime Wednesday afternoon works. What else did you ask for?

Como a informação geralmente é coletada de forma incremental por meio da conversa, os LLMs devem ser incentivados a buscar essas informações de forma fragmentada. O resultado é uma experiência muito mais conversacional:

Support Agent: Could you please provide me with your name?
Customer: My name is Mathew Pregasen.
Support Agent: Thanks Mathew. When would you like to make an appointment?
Customer: Anytime on Wednesday afternoon works fine.
Support Agent: Great. Now can I get your address to find the nearest location?
Customer: 555 West Main Street
Support Agent: Perfect. Now what service are you look for?
Customer: I'm looking for a haircut and if you could also do my beard that would be great!

Limites

Permissões

Ao construir sistemas distribuídos, você assume que seu servidor falhará em algum momento. Da mesma forma, ao construir sistemas de IA, você deve assumir que seu LLM cometerá um erro em algum momento. Para minimizar o impacto desse erro, você deve dar a esses sistemas as permissões mais baixas necessárias para o trabalho em questão. Abaixo estão alguns exemplos de como você pode fazer isso:

  • Defina corretamente as permissões de leitura/escrita: Se o LLM só precisa ler informações de uma fonte de dados, certifique-se de que ele tenha um endpoint somente leitura.
  • Limite o acesso a endpoints de API: Se o LLM só precisa acessar determinados endpoints, certifique-se de que ele não possa acessar outros.
  • Escalações com humano no loop: Se uma ação de alto risco precisa ser tomada, considere um fluxo de trabalho com humano no loop que exija “aprovação do gerente” antes de executar a ação.

Validação e Verificação

Ao criar sistemas de IA conversacional que tomam ações por meio do uso de ferramentas, é útil construir um processo de validação e verificação para garantir que você está coletando as informações corretas dos usuários. Hoje, quando você fala com um agente humano, ele repetirá qualquer informação crítica que você fornecer para verificar se ouviu corretamente e se o cliente não se expressou mal. Os LLMs poderiam se beneficiar de um nível semelhante de verificação de erros:

Support Agent: Great. Now can I get your address to find the nearest location?
Customer: 555 West Main Street
Support Agent: I got five five five west main street. Did I miss anything?

Para validação, qualquer informação recebida do cliente deve ser verificada em relação à estrutura típica dessa informação. O número de telefone tem o número correto de dígitos? A idade fornecida pelo cliente está dentro de uma faixa razoável? O cliente forneceu um endereço válido?

Support Agent: What would a good callback number be for you?
Customer: 317-798-97289
Support Agent: I think I might have misheard you. I heard 11 numbers. Would you mind repeating that again?

Dependendo do seu caso de uso, você pode verificar todas as informações recebidas ou apenas as informações que falharam na verificação. Além disso, você pode decidir verificar cada informação à medida que chega ou verificar tudo no final.

Uma Reflexão Final

Criar prompts com sucesso para um sistema de IA conversacional envolve equilibrar as configurações e limites certos para gerar uma experiência que emule a conversa com um humano com eficiência aprimorada. O processo não é tão trivial quanto usar materiais de treinamento antigos para criar um prompt para um LLM; em vez disso, os LLMs são ferramentas que precisam de estrutura e estratégia especializadas para criar resultados previsíveis e eficazes.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade