¿Qué es la API de Transcripción Masiva de ElevenLabs?

La API de Transcripción Masiva forma parte de Scribe, nuestro sistema de Voz a Texto pensado para transcribir grandes volúmenes de audio y vídeo. Permite a desarrolladores y empresas procesar horas de contenido grabado con la máxima precisión en 99 idiomas.

¿Qué tipos de archivos de audio y vídeo puedo subir?

Scribe admite todos los formatos habituales, incluidos MP4, MOV, MP3, WAV y más.

¿Qué precisión tiene Scribe para transcripción masiva?

Scribe v2 ofrece la mejor precisión en 99 idiomas y es robusto ante condiciones de audio difíciles, acentos y calidad de grabación. Supera a modelos anteriores y a otras APIs líderes en pruebas públicas.

¿Cuánto tarda la transcripción de archivos grandes?

El tiempo de procesamiento depende de la duración del archivo y la concurrencia. Scribe está optimizado para procesar grandes volúmenes en paralelo, entregando transcripciones en segundos o minutos.

¿Scribe permite separar hablantes y añadir marcas de tiempo?

Sí. La API ofrece diarización inteligente de hablantes, marcas de tiempo a nivel de palabra y carácter, y etiquetado dinámico de eventos no verbales como risas o música.

¿Puedo personalizar el modelo para términos específicos?

Sí. Puedes definir vocabularios personalizados para asegurar la transcripción correcta de nombres de productos, terminología técnica o frases de marca usando prompts de palabras clave.

¿La API de Transcripción Masiva es segura y cumple la normativa?

Scribe cumple con SOC 2, RGPD y, opcionalmente, HIPAA. Los datos se cifran en tránsito y en reposo, y los equipos pueden activar residencia de datos en la UE o Zero Retention para mayor control.

¿Cómo se tarifica la API de Transcripción Masiva?

La tarifa depende del uso, calculada por minuto de audio de entrada. Hay descuentos por volumen y planes empresariales para grandes volúmenes. Contacta con nuestro equipo para comentar tus necesidades.

¿Cómo puedo empezar?

Puedes empezar a transcribir al momento generando una clave de API y consultando la documentación.

API de Voz a Texto

Transcribe audio con ElevenLabs Scribe v2

Consigue tu clave API Explora la documentación

La mayor precisión en Voz a Texto para aplicaciones a gran escala. Detecta entonación y efectos de sonido, y mejora la transcripción con prompts de palabras clave.

Demo

Código

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

La API de Voz a Texto más precisa para grandes volúmenes

Consigue tu clave API Explora la documentación

Crea subtítulos, transcripciones editables y captions para podcasts, vídeos, entrevistas y otros contenidos grabados, todo con la máxima precisión a través de la API.

Precisión de transcripción sin precedentes

Scribe v2 logra una precisión líder en el sector, generando texto limpio y editable incluso en condiciones de audio difíciles o con acentos variados.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Pensado para cualquier situación

Transcribe incluso en entornos ruidosos, con música de fondo, acentos marcados o audio de baja calidad.

Control detallado del tiempo, los hablantes y los eventos no verbales.

La API de Transcripción de ElevenLabs detecta risas, emociones y efectos de sonido. Usa prompts de términos clave para guiar la transcripción con vocabulario específico de tu sector.

Transcribe audio y vídeo

Sube archivos MP3, MP4, WAV, MOV y otros formatos habituales. Scribe procesa archivos de hasta 10 horas con procesamiento asíncrono y notificaciones por webhook para lotes grandes.

Transcripciones limpias y editables

Obtén texto bien puntuado y estructurado en párrafos, listo para editar, publicar o procesar. No hace falta limpiar nada.

Prompting de términos clave

Mejora la precisión de reconocimiento para hasta 100 términos específicos de tu sector. Nombres de productos, jerga técnica y vocabulario especializado se transcriben correctamente a la primera.

Etiquetado dinámico de audio

Detecta eventos no verbales como risas, aplausos, música y ruido de fondo. Las transcripciones incluyen todo el contexto de tu audio, no solo las palabras.

Diarización inteligente de hablantes

Identifica y etiqueta automáticamente hasta 48 hablantes. Atribución clara de quién dice qué, organizado en transcripciones fáciles de leer.

Detección de entidades

Identifica y etiqueta automáticamente 56 tipos de entidades, como nombres, fechas, lugares y organizaciones en tus transcripciones.

Scribe v2

Máxima precisión, pensado para cargas por lotes.

>95% Precisión
Más de 90 idiomas
Detección de eventos no verbales
Detección de entidades
Prompting de términos clave

Scribe v2 en Tiempo Real

Mínima latencia, ideal para uso en tiempo real.

Latencia inferior a 150 ms
Más de 90 idiomas
Transcripción en streaming
Detección de actividad de voz
Reconocimiento automático de idioma

Transcribe voz en más de 90 idiomas y una gran variedad de acentos

Precisión excepcional en acentos, dialectos y todo tipo de grabaciones.

Cambia el languageCode para ver los idiomas disponibles

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Seleccionar idioma
	  diarize: true
	});

console.log(transcription);

Inglés

Chino

Español

Francés

Portugués

Alemán

Japonés

Italiano

Hindi

InglésHaz clic para previsualizar

Impulsando a las principales empresas y marcas del mundo

Ver testimonios de clientes

“Desde doblar Reels en idiomas locales hasta crear música y voces de personajes en Horizon, la plataforma de ElevenLabs permite a creadores, empresas y negocios de todo el mundo crear con voz, música y sonido a gran escala.”
“La precisión de Scribe en tantos idiomas permite a Fieldy entender cada conversación diaria y escalar fácilmente a otros continentes. Fieldy ha aumentado la retención de usuarios un 50% tras pasarse a ElevenLabs Scribe.”
“Con ElevenLabs hemos integrado capacidades de texto a voz potentes en nuestro SDK, permitiendo que los Agentes respondan en tiempo real con voces expresivas a preguntas de usuarios o como feedback de lo que ven.”
“Twilio ha integrado la tecnología de voz generativa de IA de ElevenLabs en su CPaaS, mejorando ConversationRelay. Esta integración permite a empresas y desarrolladores crear interacciones de voz con IA conversacional que suenan humanas, son expresivas y responden en tiempo real directamente desde la plataforma CPaaS de Twilio. En ElevenLabs nos alegra que Twilio haya elegido ElevenLabs para potenciar ConversationRelay con las voces más expresivas y naturales disponibles.”