Comparación de la IA conversacional de ElevenLabs y la API en tiempo real de OpenAI

Comparación de dos lanzamientos de productos recientes para ayudarlo a encontrar el mejor producto para su caso de uso

Actualizado al 18 de octubre de 2024

Hubo dos lanzamientos de productos importantes en el mundo de la IA conversacional en el último mes: nuestra plataforma de orquestación de IA conversacional y la API en tiempo real de OpenAI. Hemos elaborado esta publicación para ayudarle a distinguir entre ambos y determinar cuál es el mejor para su caso de uso.

Descripción general

Ambos productos están diseñados para ayudarle a crear agentes de voz conversacionales en tiempo real. Inteligencia artificial conversacional de ElevenLabs lo hace posible a través de una plataforma de orquestación que crea una transcripción del habla usando Speech to Text, envía esa transcripción a un LLM de su elección junto con una base de conocimiento personalizada y luego expresa la respuesta del LLM usando Text to Speech. Es una solución de extremo a extremo que incluye monitoreo y análisis de llamadas pasadas y pronto ofrecerá un marco de prueba e integraciones telefónicas. 

La API en tiempo real de OpenAI está construida sobre una arquitectura diferente mediante la cual el modelo toma audio (voz) como entrada y proporciona audio (voz) directamente como salida. No existe ningún paso mediante el cual el audio se convierta en una transcripción escrita y se pase a un LLM, lo que probablemente proporcione ganancias de latencia. Solo está disponible a través de API y no es una plataforma de extremo a extremo. 
FunciónElevenLabs Conv AIOpenAI Realtime
Número total de voces3k+6
Compatibilidad con LLMTraiga su propio servidor o elija entre cualquier proveedor líderSolo modelos OpenAI
Seguimiento y análisis de llamadasSí, panel de control integradoNo, debe crearse mediante API
Latencia1-3 segundos según la latencia de la red y el tamaño de la base de conocimientoProbablemente más rápido debido a que no hay paso de transcripción
Precio10 centavos por minuto en empresas, tan solo 2-3 centavos por minuto en empresas con alto volumen (+costo LLM) ~15 centavos por minuto [6 centavos por minuto de entrada, 24 centavos por minuto de salida]
Clonación de vozSí, trae tu propia voz con un PVCSin clonación de voz
Acceso a la APISí, todos los planesSí, todos los planes

Cómo se comparan

Comprender las emociones y la pronunciación

Cuando nuestra IA conversacional convierte el habla en texto, se pierde cierta información, incluida la emoción, el tono y la pronunciación del habla. Dado que la API en tiempo real de OpenAI va directamente de un discurso a otro, no se pierde ningún contexto. Esto lo hace más adecuado para ciertos casos de uso, como corregir la pronunciación de alguien cuando está aprendiendo un nuevo idioma o identificar y responder a las emociones en terapia.

Flexibilidad

Al utilizar la API en tiempo real, estás utilizando la infraestructura de OpenAI para la experiencia conversacional completa. No es posible integrar el LLM de otra empresa ni traer el propio, ya que la API en tiempo real solo toma audio como entrada y devuelve audio como salida.

Con nuestra plataforma de IA conversacional, puedes cambiar el LLM que impulsa tu modelo en cualquier momento (incluido el uso de los modelos de OpenAI). A medida que Anthropic, OpenAI, Google, NVIDIA y otros continúan superándose unos a otros en la carrera por tener el LLM de mayor rendimiento, usted puede actualizar en cualquier momento para estar siempre utilizando tecnología de punta.

Y para las empresas que han creado su propio LLM perfeccionado internamente, ya sea por razones de rendimiento o de privacidad, es posible integrarlo con la plataforma de IA conversacional de ElevenLab, pero no con la API en tiempo real de OpenAI.

Estado latente

Al evaluar cualquier modelo en términos de latencia, hay dos factores importantes a tener en cuenta

(1) ¿La latencia promedio es lo suficientemente baja para crear una experiencia de usuario fluida?

(2) ¿Cuánto fluctúa la latencia y cómo es la experiencia del usuario para la latencia P90 y P99?

Un beneficio potencial de la API en tiempo real de OpenAI es que, debido a que elimina el paso intermedio de convertir el habla en texto, es probable que tenga una latencia general más baja.

Sin embargo, una desventaja potencial tiene que ver con la flexibilidad que analizamos antes. En nuestras pruebas durante las últimas semanas, 40-mini fue inicialmente el LLM de menor latencia para combinar con nuestra plataforma de IA conversacional. Esta semana, su latencia se duplicó, lo que llevó a nuestros usuarios a cambiar a Gemini Flash 1.5. Con la API en tiempo real, no es posible rotar a un LLM más rápido.

Tenga en cuenta también que la latencia de extremo a extremo de su aplicación de IA conversacional dependerá no solo de su proveedor, sino también del tamaño de la base de conocimiento de su agente y de las condiciones de su red.

Opciones de voz

La API en tiempo real de OpenAI actualmente tiene 6 opciones de voz. Nuestra biblioteca de voces tiene más de 3.000 voces. También puedes utilizar Professional Voice Cloning para utilizar tu propia voz personalizada en nuestra plataforma.  Esto significa que la API en tiempo real no le permitirá elegir una voz exclusiva para su marca o contenido.

Precio

En la API en tiempo real, la entrada de audio tiene un precio de $100 por 1 millón de tokens y la salida es de $200 por 1 millón de tokens. Esto equivale aproximadamente a $0,06 por minuto de entrada de audio y $0,24 por minuto de salida de audio. 

ElevenLabs Conversational AI cuesta 1000 créditos por minuto (+ costos de LLM), lo que equivale a 10 centavos por minuto (+ costos de LLM) en nuestro plan comercial y tan solo unos pocos centavos por minuto para clientes empresariales con altos volúmenes de llamadas.

Características adicionales de la plataforma

Al final de cada llamada, la API en tiempo real envía eventos con formato JSON que contienen fragmentos de texto y audio, incluida la transcripción y las grabaciones de la llamada y cualquier llamada funcional realizada. Depende de usted leer, procesar, informar y mostrar esa información de una manera que sea útil para su equipo.

Nuestra plataforma tiene una funcionalidad incorporada para evaluar el éxito de una llamada, extraer datos de estructura y mostrarlos junto con la transcripción, el resumen y la grabación dentro de nuestro panel para que su equipo los revise.

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión