
Presentamos Eleven Turbo v2.5
Texto a Voz de alta calidad y baja latencia en 32 idiomas
Comparamos dos lanzamientos recientes para ayudarte a encontrar la mejor opción según tu caso de uso
Actualizado a 18 de octubre de 2024
En el último mes ha habido dos lanzamientos importantes en el mundo de Conversational AI: nuestra plataforma de orquestación Conversational AI y la Realtime API de OpenAIAPI. Hemos preparado este artículo para que puedas distinguir entre ambas opciones y decidir cuál se adapta mejor a lo que necesitas.
Ambos productos están pensados para ayudarte a crear agentes de voz conversacionales en tiempo real,agentes de voz conversacionales. Conversational AI de ElevenLabs lo hace posible a través de una plataforma de orquestación que crea una transcripción a partir del habla usando Speech to Text, envía esa transcripción a un LLM que elijas junto con una base de conocimiento personalizada, y luego convierte la respuesta del LLM en voz usando Texto a Voz. Es una solución integral que incluye monitorización y analítica de llamadas anteriores, y pronto ofrecerá un entorno de pruebas y la integración con llamadas telefónicas.
| Feature | ElevenLabs Conv AI | OpenAI Realtime |
|---|---|---|
| Total Number of Voices | 3k+ | 6 |
| LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
| Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
| Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
| Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
| Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
| API Access | Yes, all plans | Yes, all plans |
Cuando nuestra Conversational AI convierte voz en texto, se pierde parte de la información, como la emoción, el tono y la pronunciación. Como la Realtime API de OpenAI pasa directamente de voz a voz, no se pierde ese contexto. Por eso, es más útil en casos como corregir la pronunciación al aprender un idioma o identificar y responder a emociones en terapia.
Al usar la Realtime API, dependes de la infraestructura de OpenAI para toda la experiencia conversacional. No es posible integrar el LLM de otra empresa ni usar uno propio, ya que la Realtime API solo acepta audio como entrada y devuelve audio como salida.
Con nuestra plataforma Conversational AI puedes cambiar el LLM que impulsa tu modelo en cualquier momento (incluyendo los modelos de OpenAI). A medida que Anthropic, OpenAI, Google, NVIDIA y otros siguen compitiendo por tener el LLM más avanzado, puedes actualizarlo cuando quieras para usar siempre la tecnología más puntera.
Y para empresas que han desarrollado su propio LLM ajustado internamente, ya sea por rendimiento o privacidad, es posible integrarlo con la plataforma Conversational AI de ElevenLabs, pero no con la Realtime API de OpenAI.
Al evaluar cualquier modelo por su latencia, hay dos factores clave a tener en cuenta
(1) ¿La latencia media es lo suficientemente baja como para ofrecer una experiencia fluida?
(2) ¿Cuánto varía la latencia y cómo es la experiencia para el usuario en los percentiles P90 y P99?
Una posible ventaja de la Realtime API de OpenAI es que, al eliminar el paso intermedio de convertir voz en texto, probablemente tenga una latencia total más baja.
Sin embargo, esto también afecta a la flexibilidad de la que hablábamos antes. En nuestras pruebas de las últimas semanas, 40-mini era inicialmente el LLM con menor latencia para usar con nuestra plataforma Conversational AI. Esta semana, su latencia se duplicó y nuestros usuarios cambiaron a Gemini Flash 1.5. Con la Realtime API no puedes cambiar a un LLM más rápido.
Ten en cuenta también que la latencia total de tu aplicación Conversational AI dependerá no solo del proveedor, sino también del tamaño de la base de conocimiento del agente y de las condiciones de tu red.
La Realtime API de OpenAI ofrece actualmente 6 voces. Nuestra Voice Library tiene más de 3.000 voces. Además, puedes usar Voice Cloning profesional para crear tu propia voz personalizada en nuestra plataforma. Esto significa que la Realtime API no te permite elegir una voz única para tu marca o contenido.
En la Realtime API, la entrada de audio cuesta 100 $ por cada millón de tokens y la salida 200 $ por cada millón de tokens. Esto equivale aproximadamente a 0,06 $ por minuto de audio de entrada y 0,24 $ por minuto de audio de salida.
ElevenLabs Conversational AI ofrece 15 minutos gratis para empezar. El plan Business incluye 13.750 minutos de Conversational AI (0,08 $ por minuto), con minutos extra a 0,08 $ y descuentos importantes para grandes volúmenes.
Al terminar cada llamada, la Realtime API envía eventos en formato JSON con fragmentos de texto y audio, incluyendo la transcripción, grabaciones de la llamada y cualquier función utilizada. Depende de ti leer, procesar, analizar y mostrar esa información de forma útil para tu equipo.
Nuestra plataforma incluye herramientas para evaluar el éxito de una llamada, extraer datos estructurados y mostrar todo junto a la transcripción, el resumen y la grabación en nuestro panel para que tu equipo lo revise.

Texto a Voz de alta calidad y baja latencia en 32 idiomas

Reducing time to ticket resolution by 8x with multilingual conversational agents.