Salta al contenido

Eleven v3 ya está disponible para todos

Eleven v3, nuestro modelo de Texto a Voz más avanzado, sale de la fase Alpha y ya está disponible para todos.

Eleven v3, our most advanced Text to Speech model, is now out of Alpha and generally available.

Eleven v3, nuestro modelo de Texto a Voz más avanzado, sale de la fase Alpha y ya está disponible para todos.

Desde el lanzamiento en Alpha, hemos seguido mejorando el modelo. Dos mejoras clave:

Más estable. En las pruebas, los usuarios prefirieron la nueva versión el 72% de las veces frente a la Alpha anterior.

Más preciso. Hemos mejorado mucho cómo el modelo interpreta números, símbolos y notaciones específicas en varios idiomas.

Mejoras en la precisión

Los modelos de Texto a Voz tienen que interpretar lo que escribes y decidir cómo decirlo. Los mismos símbolos pueden significar cosas distintas según el contexto.

Por ejemplo, un número de teléfono: "+49 170 9876543"

En algunos casos, nuestros modelos leían esto como "más cuarenta y nueve, ciento setenta, nueve millones ochocientos setenta y seis mil quinientos cuarenta y tres", interpretando los dígitos como números grandes en vez de una secuencia. La lectura correcta es "más cuatro nueve, uno siete cero, nueve ocho siete seis cinco cuatro tres".

Este tipo de errores aparecían en distintas categorías: resultados deportivos, fórmulas químicas, monedas, coordenadas... en cualquier caso donde el modelo tenía que interpretar símbolos y decidir cómo decirlos.

Hicimos pruebas con un benchmark interno que cubre 27 categorías en 8 idiomas.

En resumen: 68% menos errores. La tasa de error bajó del 15,3% al 4,9%.

Tasa de error por categoría:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

Las mejoras son más notables en categorías donde el contexto cambia la interpretación: por ejemplo, un dos puntos puede indicar un resultado deportivo, una hora o una relación de aspecto según el texto que lo rodea.

Ejemplos

Monedas — magnitud correcta:

Entrada:  ¥250,000

Antes: 25,000 yenes

Después:  250,000 yenes

Fórmulas químicas — símbolos bien interpretados:

Entrada:  SO₂

Antes: "azufre doble" (incorrecto)

Después:  "S O dos"

Resultados deportivos — interpretación según el contexto:

Entrada:  Resultado final: 102-98

Antes: "ciento dos menos noventa y ocho"

Después:  "ciento dos a noventa y ocho"

Disponibilidad

Eleven v3 ya está disponible en todas las plataformas.

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión