Presentamos Eleven v3 Alpha

Prueba v3

Conoce a Scribe

Transcribe el habla a texto con el modelo ASR más preciso del mundo

Introducing IIscribe V1, the world's most accurate speech-to-text model.

Escriba, nuestro primero Transcripción de voz a texto modelo, es el modelo de transcripción más preciso del mundo. Diseñado para manejar la imprevisibilidad del audio del mundo real, Scribe transcribe el habla en 99 idiomas, con marcas de tiempo a nivel de palabra, diarización de hablantes y etiquetado de eventos de audio, todo entregado en una respuesta estructurada para una integración sin problemas.

Scribe está diseñado para la precisión. En las pruebas de referencia de FLEURS y Common Voice en 99 idiomas, supera constantemente a modelos líderes como Gemini 2.0 Flash, Whisper Large V3 y Deepgram Nova-3. Ya sea resúmenes de reuniones, subtítulos de películas o incluso letras de canciones, Scribe ofrece la tasa de error de palabras de transcripción automática más baja en italiano (98.7%), inglés (96.7%) y 97 otros idiomas.

Scribe hace que la ASR sea universalmente accesible, reduciendo drásticamente los errores en idiomas tradicionalmente desatendidos como el serbio, el cantonés y el malayalam, donde los modelos competidores a menudo superan el 40% de tasas de error de palabras.

The world's most accurate ASR model by IIElevenLabs.

Los desarrolladores pueden integrar Scribe hoy a través de nuestro API de voz a texto obtener transcripciones JSON estructuradas con diarización de hablantes y marcas de tiempo a nivel de palabra y marcadores de eventos no verbales (por ejemplo, risas). Una versión de baja latencia para aplicaciones en tiempo real se lanzará pronto.

Los creadores y las empresas pueden usar Scribe directamente a través de la Tablero de ElevenLabs subir archivos de audio o video y generar transcripciones formateadas.

Empieza a crear con Scribe:

Documentación de la API $ Prueba en el panel de control de ElevenLabs

Referencias

FLORES - Tasa de error de palabras % - 102 idiomas

Bar chart comparing word error rates for different languages and speech recognition models.

Voz Común - Tasa de error de palabras % - 102 idiomas

Bar chart comparing word error rates for different voice recognition models across various countries.

Contribuciones

Liderazgo en investigación, formación, arquitectura

Flavio Schneider

Líder de proyecto, datos de preentrenamiento, datos de ajuste fino

Tim von Känel

Inferencia, Optimizaciones

Maximiliano Levi

Contribuidores de Investigación

Johan Nordberg, Piotr Dabkowski

Frontend

Austin Malerba

Backend

Hristo Stoychev

Adquisición de Datos

Alex George

Explora más

Investigación
Text on a gray gradient background introducing IIFlash v2.5, highlighting 75ms model latency and support for 32 languages.

Conoce a Flash

Nunca has experimentado un TTS tan rápido como el humano

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión