
Conoce a Flash
Nunca has experimentado un TTS tan rápido como el humano
Presentamos Eleven v3 Alpha
Prueba v3Transcribe el habla a texto con el modelo ASR más preciso del mundo
Escriba, nuestro primero Transcripción de voz a texto modelo, es el modelo de transcripción más preciso del mundo. Diseñado para manejar la imprevisibilidad del audio del mundo real, Scribe transcribe el habla en 99 idiomas, con marcas de tiempo a nivel de palabra, diarización de hablantes y etiquetado de eventos de audio, todo entregado en una respuesta estructurada para una integración sin problemas.
Scribe está diseñado para la precisión. En las pruebas de referencia de FLEURS y Common Voice en 99 idiomas, supera constantemente a modelos líderes como Gemini 2.0 Flash, Whisper Large V3 y Deepgram Nova-3. Ya sea resúmenes de reuniones, subtítulos de películas o incluso letras de canciones, Scribe ofrece la tasa de error de palabras de transcripción automática más baja en italiano (98.7%), inglés (96.7%) y 97 otros idiomas.
Scribe hace que la ASR sea universalmente accesible, reduciendo drásticamente los errores en idiomas tradicionalmente desatendidos como el serbio, el cantonés y el malayalam, donde los modelos competidores a menudo superan el 40% de tasas de error de palabras.
Los desarrolladores pueden integrar Scribe hoy a través de nuestro API de voz a texto obtener transcripciones JSON estructuradas con diarización de hablantes y marcas de tiempo a nivel de palabra y marcadores de eventos no verbales (por ejemplo, risas). Una versión de baja latencia para aplicaciones en tiempo real se lanzará pronto.
Los creadores y las empresas pueden usar Scribe directamente a través de la Tablero de ElevenLabs subir archivos de audio o video y generar transcripciones formateadas.
Empieza a crear con Scribe:
Documentación de la API $ Prueba en el panel de control de ElevenLabs
Liderazgo en investigación, formación, arquitectura
Flavio Schneider
Líder de proyecto, datos de preentrenamiento, datos de ajuste fino
Tim von Känel
Inferencia, Optimizaciones
Maximiliano Levi
Contribuidores de Investigación
Johan Nordberg, Piotr Dabkowski
Frontend
Austin Malerba
Backend
Hristo Stoychev
Adquisición de Datos
Alex George
Nunca has experimentado un TTS tan rápido como el humano
Nuestra plataforma todo en uno para crear agentes de voz personalizables e interactivos