
ElevenLabs vs. Cartesia (June 2025)
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Apresentando o Eleven v3 (alpha)
Experimente o v3Criar prompts adequados para um modelo de linguagem em um Sistema de IA Conversacional pode fazer toda a diferença.
Hoje, o LLM surgiu como o coração pulsante dos sistemas de IA conversacional. Especificamente, os LLMs permitem que a IA conversacional — originalmente construída em torno de árvores de telefone extensas — ofereça funcionalidade dinâmica e proporcione experiências semelhantes às humanas. No entanto, os LLMs não são uma solução mágica; eles exigem prompts especializados, pois não são ajustados para a fala humana por padrão.
Os desenvolvedores cometem um erro comum ao criar prompts para LLMs em IA conversacional: reciclar o mesmo manual usado para treinar funcionários humanos. Essa estratégia, apesar de parecer simples, raramente é eficaz. Os LLMs fazem suposições diferentes das típicas humanas, e seu tom e escopo padrão não são adequados para interações verbais.
Hoje, vamos revelar o que sabemos sobre como criar prompts para LLMs a fim de construir sistemas de IA conversacional bem-sucedidos. Você também pode ler um guia mais abrangente e técnico sobre este tópico nos documentos do desenvolvedor da ElevenLabs.
Antes dos LLMs, os sistemas de IA conversacional utilizavam extensas árvores de lógica que triavam solicitações com base em entradas verbais. Essa configuração era popular entre números de atendimento ao cliente (por exemplo, linhas aéreas) e sistemas de pagamento (por exemplo, serviços telefônicos de cartão de crédito).
Esses sistemas mais antigos eram lentos, pareciam robóticos e permitiam apenas entradas humanas muito limitadas. É bem provável que você tenha experimentado isso, gritando “SIM” no telefone para responder a um prompt. Essa experiência ruim levou a maioria dos usuários a tentar “burlar o sistema” para forçar uma conversa com um agente humano ao vivo.
No entanto, havia uma vantagem nessas árvores telefônicas — elas eram contidas. Havia apenas tantos caminhos que uma conversa poderia seguir, e os desenvolvedores podiam facilmente implementar limites para desconsiderar entradas não permitidas. Essa restrição sustenta os prós e contras dos LLMs: Eles se expandem dramaticamente além da natureza limitada das árvores telefônicas, mas também são imprevisíveis, abrindo uma caixa de Pandora de armadilhas — como fazer promessas impossíveis, ficar irritado com os clientes ou violar dados sensíveis.
Se os LLMs forem simplesmente treinados com um manual originalmente projetado para humanos, eles terão sucesso medíocre devido a algumas lacunas principais. Compreender essas lacunas ajudará você a criar prompts para abordá-las:
Os LLMs são treinados por meio de aprendizado por reforço, onde o feedback humano incentiva os LLMs a retornarem feedback estruturado. Especificamente, as respostas dos LLMs tendem a ser verbosas e cheias de marcadores, blocos de destaque e manchetes.
No entanto, no contexto de IA conversacional, os LLMs precisam emular a natureza concisa e direta das interações verbais.
Os LLMs têm a tendência de preencher qualquer desconhecido com conhecimento inferido em vez de fazer perguntas. Isso pode levá-los a fazer suposições incorretas que enganarão os usuários — ou levar a erros custosos (por exemplo, reembolsos prometidos). Mais adiante, veremos como podemos usar uma base de conhecimento e limites para melhor fundamentar os LLMs, evitando promessas incorretas e ações não permitidas.
Os LLMs podem invocar chamadas de função programaticamente, coletando e escrevendo dados em nome dos humanos. Embora isso geralmente seja uma das maiores vantagens dos LLMs, também significa que as instruções de treinamento anteriores, que permitiam que agentes de chamadas “ganhassem tempo” enquanto realizavam tarefas, não são mais necessárias. No entanto, as chamadas de função também não são instantâneas, o que significa que os LLMs precisam avisar com precisão o usuário sempre que um atraso for esperado (por exemplo, “me dê um momento para examinar seu caso”).
Os LLMs são bastante eficazes em ajustar o tom para corresponder a um estilo. Um LLM pode ser configurado para soar amigável, humorístico, conciso, formal ou uma combinação de estilos. Este é um input importante ao criar um prompt para um LLM.
Por exemplo, desenvolvedores de uma aplicação de IA conversacional de atendimento ao cliente projetada para apoiar clientes insatisfeitos de companhias aéreas podem usar um prompt como:
Nicole
Os LLMs precisam receber direções explícitas sobre como responder. Para garantir que não incluam texto adicional desnecessário, os LLMs devem receber uma estrutura que encapsule a resposta passada ao usuário.
Por exemplo, os LLMs podem ser orientados a:
Essa estrutura incentiva o LLM a fornecer uma resposta projetada para ser falada em voz alta.
No entanto, os LLMs às vezes podem tropeçar em coisas que podem não diferir intuitivamente do conteúdo escrito. Um exemplo comum são os números — um LLM pode imprimir um CEP como 10023, o que fará com que o modelo de text-to-speech diga, “dez mil e vinte e três.” Em vez disso, o LLM deve ser explicitamente orientado a dizer os números individualmente, sinalizando o que os números significam, por exemplo, “O CEP é um zero zero dois três.”
A temperatura é um parâmetro crítico ao configurar LLMs para IA conversacional. Uma temperatura mais baixa produz respostas mais focadas e determinísticas, ideais para conversas orientadas a tarefas, enquanto temperaturas mais altas criam respostas mais criativas e variadas.
Uma temperatura baixa é ideal para sistemas de IA conversacional que podem preferir respostas consistentes (por exemplo, uma linha de atendimento ao cliente para reembolsos). Enquanto isso, para sistemas que desejam proporcionar uma sensação mais envolvente e realista aos clientes (por exemplo, um coach digital), uma temperatura alta é melhor:
Para sistemas de IA conversacional que acessam grandes reservatórios de conhecimento, uma base de conhecimento deve ser utilizada para minimizar o comprimento do prompt. Na produção, isso geralmente é realizado por meio de um banco de dados vetorial (como Pinecone ou Elasticsearch) ou do armazenamento de conhecimento direto do provedor de LLM.
De modo geral, as bases de conhecimento são essenciais para fundamentar as respostas dos LLMs em informações factuais e aprovadas. Ao construir um sistema de IA conversacional, você deve fornecer ao LLM uma base de conhecimento abrangente que contenha informações precisas e atualizadas sobre produtos, serviços, políticas e procedimentos. Isso evita que o LLM alucine ou invente informações, ao mesmo tempo que incentiva respostas consistentes e confiáveis em todas as conversas.
Como os LLMs frequentemente invocam funções em nome do usuário, eles também precisam saber quais entradas são explicitamente necessárias. Por exemplo, se o trabalho de um LLM é ajudar um usuário a agendar um corte de cabelo, ele precisará garantir que tenha:
Uma implementação ingênua pode resultar no LLM pedindo todas as informações em uma única vez na conversa. Isso é perfeitamente aceitável como texto, mas em uma conversa, pode ser avassalador:
Como a informação geralmente é coletada de forma incremental por meio da conversa, os LLMs devem ser incentivados a buscar essas informações de forma fragmentada. O resultado é uma experiência muito mais conversacional:
Ao construir sistemas distribuídos, você assume que seu servidor falhará em algum momento. Da mesma forma, ao construir sistemas de IA, você deve assumir que seu LLM cometerá um erro em algum momento. Para minimizar o impacto desse erro, você deve dar a esses sistemas as permissões mais baixas necessárias para o trabalho em questão. Abaixo estão alguns exemplos de como você pode fazer isso:
Ao criar sistemas de IA conversacional que tomam ações por meio do uso de ferramentas, é útil construir um processo de validação e verificação para garantir que você está coletando as informações corretas dos usuários. Hoje, quando você fala com um agente humano, ele repetirá qualquer informação crítica que você fornecer para verificar se ouviu corretamente e se o cliente não se expressou mal. Os LLMs poderiam se beneficiar de um nível semelhante de verificação de erros:
Para validação, qualquer informação recebida do cliente deve ser verificada em relação à estrutura típica dessa informação. O número de telefone tem o número correto de dígitos? A idade fornecida pelo cliente está dentro de uma faixa razoável? O cliente forneceu um endereço válido?
Dependendo do seu caso de uso, você pode verificar todas as informações recebidas ou apenas as informações que falharam na verificação. Além disso, você pode decidir verificar cada informação à medida que chega ou verificar tudo no final.
Criar prompts com sucesso para um sistema de IA conversacional envolve equilibrar as configurações e limites certos para gerar uma experiência que emule a conversa com um humano com eficiência aprimorada. O processo não é tão trivial quanto usar materiais de treinamento antigos para criar um prompt para um LLM; em vez disso, os LLMs são ferramentas que precisam de estrutura e estratégia especializadas para criar resultados previsíveis e eficazes.
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Unlocking the Power of AI Voiceovers for eLearning