
Introducing the ElevenLabs app
Our most powerful AI voice tools are now available for iOS and Android.
Presentamos Eleven v3 Alpha
Prueba v3Proporcionar instrucciones adecuadas a un modelo de lenguaje grande para su uso en un sistema de IA Conversacional puede marcar la diferencia.
Hoy en día, el LLM ha surgido como el corazón de los sistemas de IA conversacional. Específicamente, los LLMs permiten que la
Los desarrolladores cometen un error común al dar indicaciones a los LLMs para IA conversacional: reciclar el mismo manual que se usó para entrenar a empleados humanos. Esta estrategia, aunque parece sencilla, rara vez es fructífera. Los LLMs hacen suposiciones diferentes a las de los humanos típicos, y su tono y alcance por defecto no son propicios para interacciones verbales.
Hoy, desvelaremos lo que sabemos sobre cómo promocionar LLMs para construir sistemas de IA conversacional exitosos. También puedes leer una guía más completa y técnica sobre este tema en los
Antes de los LLMs, los sistemas de IA conversacional utilizaban extensos árboles lógicos que gestionaban las solicitudes basándose en entradas verbales. Esta configuración era popular entre los números de atención al cliente (por ejemplo, líneas aéreas) y sistemas de pago (por ejemplo, servicios telefónicos de tarjetas de crédito).
Estos sistemas antiguos eran lentos, parecían robóticos y solo permitían entradas humanas muy limitadas. Es probable que hayas experimentado esto tú mismo, gritando “SÍ” al teléfono para responder a una indicación. Esta mala experiencia llevó a la mayoría de los usuarios a intentar “vencer al sistema” para forzar una conversación con un agente humano en vivo.
Sin embargo, había una ventaja en estos árboles telefónicos: estaban contenidos. Solo había un número limitado de caminos que una conversación podía tomar, y los desarrolladores podían implementar fácilmente límites para ignorar entradas no permitidas. Esta restricción subyace en los pros y contras de los LLMs: se expanden dramáticamente más allá de la naturaleza limitada de los árboles telefónicos, pero también son impredecibles, abriendo una caja de Pandora de trampas—como hacer promesas imposibles, enfadarse con los clientes o violar datos sensibles.
Si los LLMs se entrenan simplemente con un manual diseñado originalmente para humanos, tendrán un éxito mediocre debido a algunas brechas fundamentales. Comprender estas brechas te ayudará a diseñar indicaciones para abordarlas:
Los LLMs se entrenan mediante aprendizaje por refuerzo, donde la retroalimentación humana incentiva a los LLMs a devolver respuestas estructuradas. Específicamente, las respuestas de los LLM tienden a ser verbosas y llenas de viñetas, bloques destacados y titulares.
Sin embargo, en el contexto de la IA conversacional, los LLMs necesitan emular la naturaleza concisa y directa de las interacciones verbales.
Los LLMs tienden a llenar cualquier desconocido con conocimiento inferido en lugar de hacer preguntas. Esto puede llevarlos a hacer suposiciones incorrectas que desorienten a los usuarios—o conduzcan a errores costosos (por ejemplo, reembolsos prometidos). Más adelante, veremos cómo podemos usar una base de conocimiento y límites para anclar mejor a los LLMs y evitar que hagan promesas incorrectas y ejecuten acciones no permitidas.
Los LLMs pueden invocar llamadas a funciones de manera programática, recopilando y escribiendo datos en nombre de los humanos. Aunque esto es generalmente una de las mayores ventajas de los LLMs, también significa que las instrucciones de entrenamiento anteriores, que permitían a los agentes de llamadas “ganar tiempo” mientras realizaban tareas, ya no son necesarias. Sin embargo, las llamadas a funciones tampoco son instantáneas, lo que significa que los LLMs deben advertir con precisión al usuario siempre que se espere un retraso (por ejemplo, “dame un momento para examinar tu caso”).
Los LLMs son bastante exitosos al ajustar el tono para coincidir con un estilo. Un LLM podría configurarse para sonar amigable, humorístico, conciso, formal o una combinación de estilos. Este es un aporte importante al dar indicaciones a un LLM.
Por ejemplo, los desarrolladores de una aplicación de IA conversacional de servicio al cliente diseñada para apoyar a clientes descontentos de aerolíneas podrían usar una indicación como:
Eres un agente de servicio al cliente amigable que habla en oraciones concisas, claras y empáticas.
Los LLMs necesitan recibir instrucciones explícitas sobre cómo responder. Para asegurarse de que no incluyan texto adicional, se debe proporcionar a los LLMs una estructura que encapsule la respuesta que se pasa al usuario.
Por ejemplo, los LLMs podrían configurarse para:
Respondan exclusivamente con la cadena que debe leerse en voz alta al usuario
Esta estructura anima al LLM a proporcionar una respuesta diseñada para ser hablada en voz alta.
Sin embargo, los LLMs a veces pueden tropezar con cosas que podrían no diferir intuitivamente del contenido escrito. Un ejemplo común son los números: un LLM podría imprimir un código postal como 10023, lo que hará que el modelo de
La temperatura es un parámetro crítico al configurar LLMs para IA conversacional. Una temperatura baja produce respuestas más enfocadas y deterministas, ideales para conversaciones orientadas a tareas, mientras que temperaturas más altas crean respuestas más creativas y variadas.
Una temperatura baja es ideal para sistemas de IA conversacional que prefieren respuestas consistentes (por ejemplo, una línea de servicio al cliente para reembolsos). Mientras tanto, para sistemas que quieren proporcionar una experiencia más atractiva yrealista a los clientes (por ejemplo, un entrenador digital), una temperatura alta es mejor:
Temperatura Baja: Gracias por llamar al soporte de ElevenLabs. ¿Cómo puedo ayudarte?Temperatura Alta: ¡Hola hola! Has llegado al soporte de ElevenLabs—¡listos para resolver tus problemas técnicos! ¿Qué tienes en mente?
Para sistemas de IA conversacional que acceden a grandes reservas de conocimiento, se debe utilizar una base de conocimiento para minimizar la longitud de la configuración. En producción, esto se logra típicamente a través de una base de datos vectorial (como Pinecone o Elasticsearch) o el almacén de conocimiento directo del proveedor de LLM.
En general, las bases de conocimiento son esenciales para fundamentar las respuestas de los LLMs en información factual y aprobada. Al construir un sistema de IA conversacional, debes proporcionar al LLM una base de conocimiento completa que contenga información precisa y actualizada sobre productos, servicios, políticas y procedimientos. Esto evita que el LLM invente información y fomenta respuestas consistentes y fiables en las conversaciones.
Debido a que los LLMs a menudo invocan funciones en nombre del usuario, también necesitan saber qué entradas son explícitamente necesarias. Por ejemplo, si el trabajo de un LLM es ayudar a un usuario a programar una cita para un corte de pelo, necesitarán asegurarse de que tienen:
Una implementación ingenua podría resultar en que el LLM pida toda la información en un solo turno de la conversación. Esto está perfectamente bien como texto, pero en una conversación, puede ser abrumador:
Agente de Soporte: ¿Podrías proporcionarme tu nombre, tu dirección, cuándo te gustaría tu servicio y qué servicio deseas?
Debido a que la información generalmente se recopila de manera incremental a través de la conversación, se debe animar a los LLMs a obtener esta información de manera fragmentada. El resultado es una experiencia mucho más conversacional:
Agente de Soporte: ¿Podrías proporcionarme tu nombre?
Al construir sistemas distribuidos, se asume que tu servidor fallará en algún momento. De manera similar, al construir sistemas de IA, debes asumir que tu LLM cometerá un error en algún momento. Para minimizar el impacto de ese error, debes dar a estos sistemas los permisos más bajos necesarios para el trabajo en cuestión. A continuación, se presentan algunos ejemplos de cómo puedes hacer esto:
Al crear sistemas de IA conversacional que toman acciones mediante el uso de herramientas, es útil construir un proceso de validación y verificación para asegurarte de que estás recopilando la información correcta de los usuarios. Hoy en día, cuando hablas con un agente humano, repiten cualquier información crítica que les das para verificar que la escucharon correctamente y que el cliente no se equivocó al hablar. Los LLMs podrían beneficiarse de un nivel similar de verificación de errores:
Agente de Soporte: Genial. Ahora, ¿puedo obtener tu dirección para encontrar la ubicación más cercana?
Para la validación, cualquier información recibida del cliente debe verificarse contra la estructura típica de esa información. ¿El número de teléfono tiene el número correcto de dígitos? ¿La edad proporcionada por el cliente está dentro de un rango razonable? ¿El cliente proporcionó una dirección válida?
Agente de Soporte: ¿Cuál sería un buen número de devolución de llamada para ti?
Dependiendo de tu caso de uso, puedes verificar toda la información recibida o solo la información que falló en la verificación. Además, puedes decidir verificar cada pieza de información a medida que llega o verificar todo al final.
Configurar con éxito un sistema de IA conversacional implica equilibrar las configuraciones y límites adecuados para generar una experiencia que emule hablar con un humano con mayor eficiencia. El proceso no es tan trivial como usar materiales de entrenamiento antiguos para configurar un LLM; en cambio, los LLMs son herramientas que necesitan una estructura y estrategia especializadas para crear resultados predecibles y efectivos.
Our most powerful AI voice tools are now available for iOS and Android.
Bringing voice-first, agentic customer support to the enterprise