Presentamos Eleven v3 Alpha

Prueba v3

Transcripción gratuita de voz a texto en pastún

Reconocimiento automático de voz (ASR) en pastún gratuito usando nuestra avanzada herramienta de transcripción con IA, Scribe. ElevenLabs supera a Google Gemini y OpenAI Whisper en pruebas, con tasas de error de palabras de solo 37.8% en el benchmark FLEURS y 37.1% en el benchmark Common Voice. Transcripciones líderes en la industria para películas, podcasts, reuniones de negocios, dictados médicos y más en pastún.

Descubre la plataforma completa de Audio con IA

Cada palabra, perfectamente capturada

Scribe escucha cada matiz, capturando cada palabra en pastún con una precisión inigualable. Ofreciendo transcripción de audio en 99 idiomas—con marcas de tiempo a nivel de carácter, diarización de hablantes y etiquetado de eventos de audio—devuelve resultados estructurados para una integración perfecta.

Benchmark de transcripción en pastún

ModeloFLEURS
Scribe v1
37.8% WER
Deepgram Nova 2
100.0% WER
Gemini Flash 2
42.9% WER
Whisper Large v3
94.3% WER

Potentes funciones de audio a texto para tu app

Transforma tu audio en pastún en texto impecable con Scribe, el modelo ASR (reconocimiento automático de voz) más avanzado del mundo con la integración de API de voz a texto más sencilla.

Progress bar with a gradient from black to purple, labeled "II Scribe V1," "Gemini 2.0 Flash," and "Whisper Large v3" on a black background.

Precisión líder en la industria

Logra una precisión sin precedentes—Scribe ofrece la tasa de error de palabras más baja de la industria para una transcripción en pastún perfectamente precisa.

Three colorful, glowing circles with radial patterns on a black background.

Diarización inteligente de hablantes

En cualquier conversación, incluso las más concurridas, Scribe distingue y etiqueta intuitivamente a cada hablante para obtener transcripciones claras y organizadas.

Audio level meter with red peaks at 1:00, T4 and T5 markers, and time stamps at 0:58 and 1:02.

Marcas de tiempo precisas a nivel de palabra

Captura el momento exacto en que se pronuncia cada palabra. Las detalladas marcas de tiempo de Scribe permiten una sincronización perfecta de subtítulos y experiencias de audio interactivas.

'It that funny? (laughter)

Etiquetado dinámico de audio

Desde risas hasta pasos, el modelo de transcripción de Scribe etiqueta cada evento sonoro, enriqueciendo tus transcripciones en pastún con el contexto completo de tu audio.

Multilingual text with the word "Multilingual" highlighted in blue and pink on a black background.

Soporte global de idiomas

Rompe las barreras del idioma con soporte para pastún y otros 98 idiomas—Scribe desbloquea capacidades de transcripción con IA para idiomas previamente inaccesibles.

Visión general del idioma

Información sobre el idioma pastún

Hablantes: 50 millones Acentos: Kandahari (Sur), Kabuli (Este), Peshawar (Norte) Idioma oficial en: Afganistán y Pakistán (Khyber Pakhtunkhwa) Hablado en: Afganistán, Pakistán (Khyber Pakhtunkhwa) y partes de Irán Un idioma iraní con alineación ergativa-absolutiva en tiempos pasados. Presenta consonantes retroflejas (influenciadas por lenguas indoarias) y una rica tradición poética.

Desarrolladores

Integra ElevenLabs Scribe

Integra sin problemas el modelo de voz a texto más preciso del mundo para pastún en tu aplicación. Comienza con nuestros ejemplos amigables para desarrolladores que muestran características como diarización, marcas de tiempo a nivel de carácter y etiquetado de eventos de audio para transcripciones impecables.

Preguntas frecuentes

Excelente precisión (≤ 5% Tasa de Error de Palabras - WER)
Búlgaro, Catalán, Checo, Danés, Neerlandés, Inglés, Finés, Francés, Gallego, Alemán, Griego, Hindi, Indonesio, Italiano, Japonés, Kannada, Malayo, Malabar, Macedonio, Noruego, Polaco, Portugués, Rumano, Ruso, Serbio, Eslovaco, Español, Sueco, Turco, Ucraniano, Vietnamita

Alta precisión (>5% a ≤10% WER)
Bengalí, Bielorruso, Bosnio, Cantonés, Estonio, Filipino, Gujarati, Húngaro, Kazajo, Letón, Lituano, Mandarín, Marathi, Nepalí, Odia, Persa, Esloveno, Tamil, Telugu

Buena (>10% a ≤25% WER)
Afrikáans, Árabe, Armenio, Asamés, Asturiano, Azerbaiyano, Birmano, Cebuano, Croata, Georgiano, Hausa, Hebreo, Islandés, Javanés, Kabuverdianu, Coreano, Kirguís, Lingala, Maltés, Mongol, Māori, Occitano, Panyabí, Sindhi, Suajili, Tayiko, Tailandés, Urdu, Uzbeko, Galés

Moderada (>25% a ≤50% WER)
Amárico, Chichewa, Fulah, Ganda, Igbo, Irlandés, Jemer, Kurdo, Lao, Luxemburgués, Luo, Sotho del Norte, Pastún, Shona, Somalí, Umbundu, Wolof, Xhosa, Zulú

Voz a texto es una tecnología que transcribe el pastún hablado en texto escrito usando reconocimiento automático de voz (ASR). Procesa señales de audio, identifica patrones de habla y los transcribe en texto con alta precisión. El software de voz a texto impulsado por IA de ElevenLabs está diseñado para transcribir contenido de audio y video con precisión similar a la humana, lo que lo hace ideal para la conversión de voz a texto, transcripción de audio y reconocimiento de voz en tiempo real. La tecnología de voz a texto se utiliza en: ✔ Transcripción de audio a texto para podcasts, reuniones y entrevistas. ✔ Subtítulos y subtítulos en contenido de video. ✔ Software de voz a texto para escritura manos libres y herramientas de accesibilidad. El ASR de ElevenLabs ofrece una conversión de voz a texto rápida, confiable y altamente precisa para múltiples idiomas y acentos.

ElevenLabs ofrece transcripción de video para transcribir diálogos hablados en pastún a formato de texto, facilitando la creación de subtítulos, leyendas y transcripciones buscables. Pasos para transcribir video a texto: 1. Sube tu archivo de video a ElevenLabs ASR 2. La tecnología de reconocimiento de voz procesa el audio 3. Se genera automáticamente una transcripción, con marcas de tiempo 4. Descarga el archivo de texto o exporta subtítulos para editar. Este modelo de transcripción de video impulsado por IA ayuda a creadores de contenido, empresas y educadores a transcribir rápidamente el discurso de video en texto preciso para accesibilidad y reutilización de contenido.

Scribe actualmente funciona bien para casos de uso donde el audio de entrada está disponible de antemano. Una versión en tiempo real y de baja latencia se lanzará pronto.

$0.40 por hora de audio transcrito, reduciéndose considerablemente a escala con planes Enterprise.
ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión