Presentamos Eleven v3 Alpha

Prueba v3

DISCURSO A TEXTO

Transcriba voz a texto con el modelo ASR más preciso del mundo

Logre una precisión de transcripción líder en la industria en 99 idiomas con Scribe, que incluye marcas de tiempo a nivel de caracteres, diarización de los oradores y etiquetado de eventos de audio, todo ello en una respuesta de API estructurada para una integración perfecta

Descubre la plataforma completa de Audio con IA

Cada palabra, perfectamente capturada

Scribe escucha cada matiz y captura cada palabra con una precisión inigualable. Al ofrecer la transcripción de audio en 99 idiomas (con marcas de tiempo a nivel de caracteres, diarización de los altavoces y etiquetado de eventos de audio), arroja resultados estructurados para una integración perfecta

Potentes funciones de conversión de audio a texto para tu aplicación

Transforma tu audio en texto impecable con Scribe, el modelo de ASR (reconocimiento automático de voz) más avanzado del mundo con la integración de API de voz a texto más sencilla

Sirius software interface with gradient color bar, labeled "II Scribe V1," "Gemini 2.0 Flash," and "Whisper Large v3" on a black background.

Precisión líder en la industria

Logre una precisión como nunca antes: Scribe ofrece la tasa de error de palabras más baja del sector para una transcripción perfectamente precisa

Three glowing, multicolored circular shapes on a black background.

Diarización inteligente de altavoces

En cualquier conversación, incluso en las más concurridas, Scribe distingue y etiqueta intuitivamente a cada orador para obtener transcripciones claras y organizadas

Audio level meter with red and white bars, showing levels around 1:00.

Marcas de tiempo precisas a nivel de palabra

Captura el momento exacto en que se pronuncia cada palabra. Las marcas de tiempo detalladas de Scribe permiten una sincronización perfecta de los subtítulos y experiencias de audio interactivas

laughter

Etiquetado de audio dinámico

Desde la risa hasta los pasos, el modelo de transcripción de Scribe etiqueta cada evento sonoro, enriqueciendo tus transcripciones con el contexto completo de tu audio

99 Languages supported

Soporte lingüístico global

Rompe las barreras lingüísticas con la compatibilidad con 99 idiomas: Scribe desbloquea las capacidades de transcripción de IA para idiomas que antes estaban fuera de tu alcance

Desarrolladores

Integre ElevenLabs Scribe

Integre sin problemas el modelo de conversión de voz a texto más preciso del mundo en su aplicación. Empieza con nuestros ejemplos aptos para desarrolladores que muestran funciones como la diarización, las marcas de tiempo a nivel de caracteres y el etiquetado de eventos de audio para lograr transcripciones impecables

Rendimiento de referencia FLEURS

El rendimiento de Scribe V1 es de última generación en el benchmark FLEURS.

Rendimiento del Benchmark de Voz Común

El rendimiento de Scribe V1 es de última generación en el estándar de Common Voice.

Referencias

El modelo de ASR más preciso del mundo, que admite más de 99 idiomas.

Center screen displays a presentation slide titled "The world's most accurate ASR model" by IIElevenLabs, with a gradient bar labeled "II Scribe" and version "V1".

Comparado con otros modelos de ASR, Scribe ofrece más del 98% de precisión en transcripción en los principales idiomas, mientras reduce drásticamente los errores en aquellos que tradicionalmente han sido desatendidos, como el serbio, el cantonés y el malayalam.

Comienza a transcribir gratis

Preguntas frecuentes

Excelente precisión (≤ 5% de tasa de error de palabras - WER)
Búlgaro, catalán, checo, danés, holandés, inglés, finés, francés, gallego, alemán, griego, hindi, indonesio, italiano, japonés, canarés, malayo, malayalam, macedonio, noruego, polaco, portugués, rumano, ruso, serbio, eslovaco, español, sueco, turco, ucraniano, vietnamita

Alta precisión (> 5% a ≤ 10% WER)
bengalí, bielorruso, bosnio, cantonés, estonio, filipino, gujaratí, húngaro, kazajo, letón, lituano, mandarín, maratí, nepalí, oriya, persa, esloveno, tamil, telugu

Bueno (> 10% a ≤ 25% WER)
afrikáans, árabe, armenio, asamés, asturiano, azerí, birmano, cebuano, croata, georgiano, hausa, hebreo, islandés, javanés, kabuverdianu, coreano, kirguís, lingala, maltés, mongol, maorí, occitano, punjabí, sindhi, swahili, tayiko, tailandés, urdu, uzbeko, galés

Moderado (> 25% a ≤ 50% de WER)
amhárico, chichewa, fulah, ganda, igbo, irlandés, jemer, kurdo, laosiano, luxemburgués, luo, sotho septentrional, pashto, shona, somalí, umbundu, wolof, xhosa, zulú

La conversión de voz a texto (STT) es una tecnología que convierte el lenguaje hablado en texto escrito mediante el reconocimiento automático de voz (ASR). Procesa señales de audio, identifica patrones de voz y los transcribe en texto con gran precisión. El software de voz a texto basado en inteligencia artificial de ElevenLabs está diseñado para transcribir contenido de audio y vídeo con una precisión similar a la humana, lo que lo hace ideal para la conversión de voz a texto, la transcripción de audio y el reconocimiento de voz en tiempo real. La tecnología de conversión de voz a texto se utiliza en: ✔ Transcripción de audio a texto para podcasts, reuniones y entrevistas. ✔ Subtítulos y subtítulos en el contenido de vídeo. ✔ Software de conversión de voz a texto para escribir con manos libres y herramientas de accesibilidad. El ASR de ElevenLabs ofrece una conversión de voz a texto rápida, confiable y altamente precisa para varios idiomas y acentos.

ElevenLabs proporciona la transcripción de vídeos para convertir los diálogos hablados en formato de texto, lo que facilita la creación de subtítulos, subtítulos y transcripciones con capacidad de búsqueda. Pasos para transcribir vídeo a texto: 1. Suba su archivo de vídeo a ElevenLabs ASR 2. La tecnología de reconocimiento de voz procesa el audio 3. La transcripción se genera automáticamente, con marcas de tiempo 4 Descarga el archivo de texto o exporta los subtítulos para editarlos. Este modelo de transcripción de vídeo basado en inteligencia artificial ayuda a los creadores de contenido, las empresas y los educadores a convertir rápidamente la voz de vídeo en texto preciso para facilitar la accesibilidad y la reutilización del contenido.

Actualmente, Scribe funciona bien en casos de uso en los que el audio de entrada está disponible por adelantado. Pronto se lanzará una versión de baja latencia y tiempo real.

Desde $0.40 por hora de audio transcrito, reduciéndose considerablemente a escala con planes Enterprise.

Guías recientes de Speech to Text y tutoriales

Research
Introducing IIscribe V1, the world's most accurate speech-to-text model.

Meet Scribe

Autores
A young man with short brown hair, smiling, wearing a dark patterned shirt and a blazer.
A man standing on a beach with rows of blue umbrellas and a hillside town in the background.
Resources
A close-up of a professional microphone in a recording studio with audio equipment in the background.

Best Speech to Text Apps 2025

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión