
Presentamos Turbo v2.5
Texto a voz de alta calidad y baja latencia en 32 idiomas
Comparación de dos lanzamientos de productos recientes para ayudarlo a encontrar el mejor producto para su caso de uso
Actualizado al 18 de octubre de 2024
Hubo dos lanzamientos de productos importantes en el mundo de la IA conversacional en el último mes: nuestra plataforma de orquestación de IA conversacional y la API en tiempo real de OpenAI. Hemos elaborado esta publicación para ayudarle a distinguir entre ambos y determinar cuál es el mejor para su caso de uso.
Ambos productos están diseñados para ayudarle a crear agentes de voz conversacionales en tiempo real. Inteligencia artificial conversacional de ElevenLabs lo hace posible a través de una plataforma de orquestación que crea una transcripción del habla usando Speech to Text, envía esa transcripción a un LLM de su elección junto con una base de conocimiento personalizada y luego expresa la respuesta del LLM usando Text to Speech. Es una solución de extremo a extremo que incluye monitoreo y análisis de llamadas pasadas y pronto ofrecerá un marco de prueba e integraciones telefónicas.
Función | ElevenLabs Conv AI | OpenAI Realtime |
---|---|---|
Número total de voces | 3k+ | 6 |
Compatibilidad con LLM | Traiga su propio servidor o elija entre cualquier proveedor líder | Solo modelos OpenAI |
Seguimiento y análisis de llamadas | Sí, panel de control integrado | No, debe crearse mediante API |
Latencia | 1-3 segundos según la latencia de la red y el tamaño de la base de conocimiento | Probablemente más rápido debido a que no hay paso de transcripción |
Precio | 10 centavos por minuto en empresas, tan solo 2-3 centavos por minuto en empresas con alto volumen (+costo LLM) | ~15 centavos por minuto [6 centavos por minuto de entrada, 24 centavos por minuto de salida] |
Clonación de voz | Sí, trae tu propia voz con un PVC | Sin clonación de voz |
Acceso a la API | Sí, todos los planes | Sí, todos los planes |
Cuando nuestra IA conversacional convierte el habla en texto, se pierde cierta información, incluida la emoción, el tono y la pronunciación del habla. Dado que la API en tiempo real de OpenAI va directamente de un discurso a otro, no se pierde ningún contexto. Esto lo hace más adecuado para ciertos casos de uso, como corregir la pronunciación de alguien cuando está aprendiendo un nuevo idioma o identificar y responder a las emociones en terapia.
Al utilizar la API en tiempo real, estás utilizando la infraestructura de OpenAI para la experiencia conversacional completa. No es posible integrar el LLM de otra empresa ni traer el propio, ya que la API en tiempo real solo toma audio como entrada y devuelve audio como salida.
Con nuestra plataforma de IA conversacional, puedes cambiar el LLM que impulsa tu modelo en cualquier momento (incluido el uso de los modelos de OpenAI). A medida que Anthropic, OpenAI, Google, NVIDIA y otros continúan superándose unos a otros en la carrera por tener el LLM de mayor rendimiento, usted puede actualizar en cualquier momento para estar siempre utilizando tecnología de punta.
Y para las empresas que han creado su propio LLM perfeccionado internamente, ya sea por razones de rendimiento o de privacidad, es posible integrarlo con la plataforma de IA conversacional de ElevenLab, pero no con la API en tiempo real de OpenAI.
Al evaluar cualquier modelo en términos de latencia, hay dos factores importantes a tener en cuenta
(1) ¿La latencia promedio es lo suficientemente baja para crear una experiencia de usuario fluida?
(2) ¿Cuánto fluctúa la latencia y cómo es la experiencia del usuario para la latencia P90 y P99?
Un beneficio potencial de la API en tiempo real de OpenAI es que, debido a que elimina el paso intermedio de convertir el habla en texto, es probable que tenga una latencia general más baja.
Sin embargo, una desventaja potencial tiene que ver con la flexibilidad que analizamos antes. En nuestras pruebas durante las últimas semanas, 40-mini fue inicialmente el LLM de menor latencia para combinar con nuestra plataforma de IA conversacional. Esta semana, su latencia se duplicó, lo que llevó a nuestros usuarios a cambiar a Gemini Flash 1.5. Con la API en tiempo real, no es posible rotar a un LLM más rápido.
Tenga en cuenta también que la latencia de extremo a extremo de su aplicación de IA conversacional dependerá no solo de su proveedor, sino también del tamaño de la base de conocimiento de su agente y de las condiciones de su red.
La API en tiempo real de OpenAI actualmente tiene 6 opciones de voz. Nuestra biblioteca de voces tiene más de 3.000 voces. También puedes utilizar Professional Voice Cloning para utilizar tu propia voz personalizada en nuestra plataforma. Esto significa que la API en tiempo real no le permitirá elegir una voz exclusiva para su marca o contenido.
En la API en tiempo real, la entrada de audio tiene un precio de $100 por 1 millón de tokens y la salida es de $200 por 1 millón de tokens. Esto equivale aproximadamente a $0,06 por minuto de entrada de audio y $0,24 por minuto de salida de audio.
ElevenLabs Conversational AI cuesta 1000 créditos por minuto (+ costos de LLM), lo que equivale a 10 centavos por minuto (+ costos de LLM) en nuestro plan comercial y tan solo unos pocos centavos por minuto para clientes empresariales con altos volúmenes de llamadas.
Al final de cada llamada, la API en tiempo real envía eventos con formato JSON que contienen fragmentos de texto y audio, incluida la transcripción y las grabaciones de la llamada y cualquier llamada funcional realizada. Depende de usted leer, procesar, informar y mostrar esa información de una manera que sea útil para su equipo.
Nuestra plataforma tiene una funcionalidad incorporada para evaluar el éxito de una llamada, extraer datos de estructura y mostrarlos junto con la transcripción, el resumen y la grabación dentro de nuestro panel para que su equipo los revise.
Texto a voz de alta calidad y baja latencia en 32 idiomas
Nuestro modelo más rápido ahora tiene una pronunciación de números mejorada
Desarrollado por ElevenLabs Conversational AI