
API de Texto a Voz
Generación de voz ultrarrealista y con baja latencia
Crea con generación de voz de alta calidad y controlable para aplicaciones en tiempo real o en lote. Modelos optimizados para latencia, fidelidad y coherencia en contenido largo.
Demo
Código
En la antigua tierra de Eldoria, donde los cielos brillaban y los bosques susurraban secretos al viento, vivía un dragón llamado Zephyros. [sarcastically] No del tipo que “lo quema todo... [giggles] sino que era amable, sabio, con ojos como estrellas antiguas. [whispers] Incluso los pájaros guardaban silencio cuando él pasaba.
- Lovable
- Synthesia
- Stripe
- Perplexity
- Twilio
Basado en los modelos de voz IA más potentes
Elige el modelo que mejor se adapte a tu caso: desde agentes con latencia ultrabaja hasta narración expresiva y de larga duración.

Flash v2.5
Nuestro modelo de síntesis de voz con menor latencia
- Latencia ultrabaja (~75ms)
- 32 idiomas disponibles
- Límite de 40.000 caracteres
- ~$0,06 por minuto

Turbo v2.5
Equilibrio entre calidad y latencia
- Baja latencia (~250-300ms)
- Generación de voz de alta calidad
- 32 idiomas disponibles
- Límite de 40.000 caracteres
- ~$0,06 por minuto

Multilingüe v2
Modelo de síntesis de voz realista y de calidad constante
- Voz natural
- 29 idiomas disponibles
- Límite de 10.000 caracteres
- Pensado para contenido largo
- ~$0,12 por minuto

Eleven v3
Nuestro modelo más expresivo y emocional
- Entonación y actuación dramática
- Más de 70 idiomas disponibles
- Límite de 3.000 caracteres
- Diálogo multivoces
- ~$0,12 por minuto
Todo lo que necesitas para crear voz lista para producción
Genera voz expresiva y controlable con modelos pensados para uso en tiempo real, narraciones largas y producción.
Controla la emoción y la entonación
Crea voz controlable y expresiva, con emoción, eventos de audio y paisajes sonoros envolventes.

Accede a más de 10.000 voces
Descubre una colección en constante crecimiento de voces realistas y expresivas para cualquier uso.

Diseño y clonación de voces
Crea en más de 30 idiomas con voces naturales, acentos expresivos y audio adaptado a tu audiencia.

Diálogo multivoces
Crea conversaciones naturales con varios interlocutores en más de 70 idiomas usando voces expresivas y personalizables.

Eventos y dirección de audio
Controla la entonación con etiquetas de audio, señales de tiempo y dirección narrativa integradas en la voz.

Diccionarios de pronunciación
Define pronunciaciones personalizadas para asegurar una voz precisa y coherente en nombres y términos.

Impulsamos a las principales empresas y marcas del mundo
“Desde doblar Reels en idiomas locales hasta generar música y voces de personajes en Horizon, la plataforma de ElevenLabs permite a creadores, empresas y organizaciones crear con voz, música y sonido a gran escala.”
“Millones de personas aprenden ajedrez cada día con creadores como Hikaru, Levy y Magnus en YouTube y Twitch. Ahora puedes aprender de ellos dentro de Chess.com de una forma inmersiva, personal y llena de carácter. Nuestra misión es crear un entrenador de ajedrez que enseñe al nivel adecuado, dé la bienvenida a jugadores de todos los niveles y desmitifique el ajedrez manteniéndolo divertido y con personalidad. Con ElevenLabs y estas nuevas voces increíbles, hemos dado un gran paso para hacer realidad esa visión.”
“ElevenLabs nos permitió añadir rápidamente capacidades de texto a voz potentes a nuestro SDK, para que los agentes puedan responder en tiempo real con voces expresivas a las preguntas de los usuarios o como feedback de lo que ven.”

“Twilio ha integrado la tecnología de voz IA generativa de ElevenLabs en su CPaaS, mejorando ConversationRelay. Esta integración permite a empresas y desarrolladores crear interacciones de voz con IA conversacional que suenan humanas, son expresivas y responden en tiempo real directamente desde la plataforma CPaaS de Twilio. En ElevenLabs nos entusiasma que Twilio haya elegido ElevenLabs para potenciar ConversationRelay con las voces más expresivas y realistas disponibles.”
APIs listas para producción

Preguntas frecuentes
- Flash v2.5 - Latencia ultrabaja (~75ms) para aplicaciones en tiempo real como agentes de voz
- Turbo v2.5 - Equilibrio entre calidad y velocidad (~250-300ms) para casos interactivos
- Multilingual v2 - Calidad constante para contenido largo de hasta 10.000 caracteres
- Eleven v3 - Máxima expresividad y rango emocional para aplicaciones creativas
Flash v2.5 ofrece una latencia de ~75ms.
Turbo v2.5 responde normalmente en 250-300ms.
Ambos permiten streaming, así puedes empezar a reproducir antes de que termine la generación.
Eleven v3 admite más de 70 idiomas.
Flash v2.5 y Turbo v2.5 admiten 32 idiomas.
Multilingual v2 admite más de 70 idiomas.
Flash v2.5 y Turbo v2.5: 40.000 caracteres
Multilingual v2: 10.000 caracteres
Eleven v3: 3.000 caracteres
Usa etiquetas de audio ([laughs], [whispers], [sighs], [door slam]) para controlar entonación, emoción, énfasis, pausas y efectos de sonido. Eleven v3 ofrece el mayor control expresivo.
La biblioteca de voces incluye más de 10.000 voces. También puedes clonar voces o diseñar voces personalizadas usando prompts de texto.
Sí. El streaming te permite empezar a reproducir antes de que se genere todo el audio, reduciendo la latencia percibida en aplicaciones en tiempo real.
Sí. Puedes usar cualquier voz de tu biblioteca por su ID, incluidas voces clonadas profesionales, clones instantáneos y voces que hayas diseñado.
La API genera MP3 por defecto. También se admiten PCM y μ-law.
Usa Flash v2.5 con streaming activado. Mantén las solicitudes por debajo de 1.000 caracteres. Activa conexiones WebSocket para aplicaciones en tiempo real persistentes.
Sí. Usa ortografía fonética o diccionarios de pronunciación para controlar cómo se pronuncian palabras concretas.
Hay SDKs oficiales para Python y JavaScript/TypeScript. También puedes usar la API HTTP.
Tienes la referencia completa de la API, ejemplos de código y guías de integración en elevenlabs.io/docs/api-reference
Sí. Los planes para empresas incluyen cumplimiento SOC 2, soporte HIPAA, cumplimiento RGPD, residencia de datos en la UE, modo de retención cero, soporte dedicado y SLAs personalizados.

.webp&w=3840&q=80)




.webp&w=3840&q=80)
