Question 1

¿Qué modelo de Texto a Voz debería usar?

Accepted Answer

- Flash v2.5 - Latencia ultrabaja (~75ms) para aplicaciones en tiempo real como agentes de voz
- Turbo v2.5 - Equilibrio entre calidad y velocidad (~250-300ms) para casos interactivos
- Multilingual v2 - Calidad constante para contenido largo de hasta 10.000 caracteres
- Eleven v3 - Máxima expresividad y rango emocional para aplicaciones creativas

Question 2

¿Qué latencia puedo esperar?

Accepted Answer

Flash v2.5 ofrece una latencia de ~75ms.
Turbo v2.5 responde normalmente en 250-300ms.
Ambos permiten streaming, así puedes empezar a reproducir antes de que termine la generación.

Question 3

¿Cuántos idiomas se admiten?

Accepted Answer

Eleven v3 es compatible con más de 70 idiomas.
Flash v2.5 y Turbo v2.5 admiten 32 idiomas.
Multilingual v2 admite 29 idiomas.

Question 4

¿Cuál es el límite de caracteres por solicitud?

Accepted Answer

Flash v2.5 y Turbo v2.5: 40.000 caracteres
Multilingual v2: 10.000 caracteres
Eleven v3: 3.000 caracteres

Question 5

¿Puedo controlar la emoción y la entonación?

Accepted Answer

Usa etiquetas de audio ([laughs], [whispers], [sighs], [door slam]) para controlar entonación, emoción, énfasis, pausas y efectos de sonido. Eleven v3 ofrece el mayor control expresivo.

Question 6

¿Cuántas voces hay disponibles?

Accepted Answer

La biblioteca de voces incluye más de 10.000 voces. También puedes clonar voces o diseñar voces personalizadas usando prompts de texto.

Question 7

¿La API permite streaming?

Accepted Answer

Sí. El streaming te permite empezar a reproducir antes de que se genere todo el audio, reduciendo la latencia percibida en aplicaciones en tiempo real.

Question 8

¿Puedo usar voces personalizadas?

Accepted Answer

Sí. Puedes usar cualquier voz de tu biblioteca por su ID, incluidas voces clonadas profesionales, clones instantáneos y voces que hayas diseñado.

Question 9

¿Qué formatos de audio se admiten?

Accepted Answer

La API genera MP3 por defecto. También se admiten PCM y μ-law.

Question 10

¿Cómo optimizo la latencia?

Accepted Answer

Usa Flash v2.5 con streaming activado. Mantén las solicitudes por debajo de 1.000 caracteres. Activa conexiones WebSocket para aplicaciones en tiempo real persistentes.

Question 11

¿Se puede personalizar la pronunciación?

Accepted Answer

Sí. Usa ortografía fonética o diccionarios de pronunciación para controlar cómo se pronuncian palabras concretas.

Question 12

¿Qué SDKs hay disponibles?

Accepted Answer

Hay SDKs oficiales para Python y JavaScript/TypeScript. También puedes usar la API HTTP.

Question 13

¿Dónde encuentro ejemplos de código?

Accepted Answer

Tienes la referencia completa de la API, ejemplos de código y guías de integración en elevenlabs.io/docs/api-reference

Question 14

¿Ofrecéis soporte para empresas?

Accepted Answer

Sí. Los planes para empresas incluyen cumplimiento SOC 2, soporte HIPAA, cumplimiento RGPD, residencia de datos en la UE, modo de retención cero, soporte dedicado y SLAs personalizados.

API de Texto a Voz

Generación de voz ultrarrealista y con baja latencia

Basado en los modelos de voz IA más potentes

Flash v2.5

Turbo v2.5

Multilingüe v2

Eleven v3

Todo lo que necesitas para crear voz lista para producción

Controla la emoción y la entonación

Accede a más de 10.000 voces

Diseño y clonación de voces

Diálogo multivoces

Eventos y dirección de audio

Diccionarios de pronunciación

Impulsamos a las principales empresas y marcas del mundo

APIs listas para producción

Protección de datos a nivel empresarial

SDKs para Python y TypeScript

Soporte avanzado y despliegues personalizados

Preguntas frecuentes

Últimas novedades