Conoce a Scribe

Escrito por: Tim von Känel; Flavio Schneider
Publicado: 26 feb 2025

EscucharEscucha este artículo

0:00

0:000:00

Escriba, nuestro primero Transcripción de voz a texto modelo, es el modelo de transcripción más preciso del mundo. Diseñado para manejar la imprevisibilidad del audio del mundo real, Scribe transcribe el habla en 99 idiomas, con marcas de tiempo a nivel de palabra, diarización de hablantes y etiquetado de eventos de audio, todo entregado en una respuesta estructurada para una integración sin problemas.

Scribe está diseñado para la precisión. En las pruebas de referencia de FLEURS y Common Voice en 99 idiomas, supera constantemente a modelos líderes como Gemini 2.0 Flash, Whisper Large V3 y Deepgram Nova-3. Ya sea resúmenes de reuniones, subtítulos de películas o incluso letras de canciones, Scribe ofrece la tasa de error de palabras de transcripción automática más baja en italiano (98.7%), inglés (96.7%) y 97 otros idiomas.

Scribe hace que la ASR sea universalmente accesible, reduciendo drásticamente los errores en idiomas tradicionalmente desatendidos como el serbio, el cantonés y el malayalam, donde los modelos competidores a menudo superan el 40% de tasas de error de palabras.

The world's most accurate ASR model by IIElevenLabs.

Los desarrolladores pueden integrar Scribe hoy a través de nuestro API de voz a texto obtener transcripciones JSON estructuradas con diarización de hablantes y marcas de tiempo a nivel de palabra y marcadores de eventos no verbales (por ejemplo, risas). Una versión de baja latencia para aplicaciones en tiempo real se lanzará pronto.

Los creadores y las empresas pueden usar Scribe directamente a través de la Tablero de ElevenLabs subir archivos de audio o video y generar transcripciones formateadas.

Empieza a crear con Scribe:

Documentación de la API $ Prueba en el panel de control de ElevenLabs