
API de Voz a Texto
Transcribe audio con ElevenLabs Scribe v2
La mayor precisión en voz a texto para aplicaciones masivas. Detecta énfasis y efectos de sonido, y guía la transcripción con prompts de palabras clave.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
- Lovable
- Veed model
- Synthesia
- Stripe
- Perplexity
- Twilio
La API de Voz a Texto más precisa para grandes volúmenes
Crea subtítulos, transcripciones editables y captions para podcasts, vídeos, entrevistas y otros contenidos grabados, todo con la máxima precisión a través de la API.
Precisión de transcripción sin precedentes
Scribe v2 logra una precisión líder en el sector, generando texto limpio y editable incluso en condiciones de audio difíciles o con acentos variados.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Pensado para cualquier situación
Transcribe incluso en entornos ruidosos, con música de fondo, acentos marcados o audio de baja calidad.
Control detallado del tiempo, los hablantes y los eventos no verbales.
La API de Transcripción de ElevenLabs detecta risas, emociones y efectos de sonido. Usa prompts de términos clave para guiar la transcripción con vocabulario específico de tu sector.
Transcribe audio y vídeo
.webp&w=3840&q=95)
Transcripciones limpias y editables
.webp&w=3840&q=95)
Prompting de términos clave

Etiquetado dinámico de audio
Detecta eventos no verbales como risas, aplausos, música y ruido de fondo. Las transcripciones incluyen todo el contexto de tu audio, no solo las palabras.
Diarización inteligente de hablantes
Identifica y etiqueta automáticamente hasta 48 hablantes. Atribución clara de quién dice qué, organizado en transcripciones fáciles de leer.
Detección de entidades
Identifica y etiqueta automáticamente 56 tipos de entidades, como nombres, fechas, lugares y organizaciones en tus transcripciones.

Scribe v2
Máxima precisión, pensado para cargas por lotes.
- >95% Precisión
- Más de 90 idiomas
- Detección de eventos no verbales
- Detección de entidades
- Prompting de términos clave

Scribe v2 en Tiempo Real
Mínima latencia, ideal para uso en tiempo real.
- Latencia inferior a 150 ms
- Más de 90 idiomas
- Transcripción en streaming
- Detección de actividad de voz
- Reconocimiento automático de idioma
Transcribe voz en más de 90 idiomas y una gran variedad de acentos
Precisión excepcional en acentos, dialectos y todo tipo de grabaciones.
Cambia el languageCode para ver los idiomas disponibles
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
const elevenlabs = new ElevenLabsClient({
apiKey: "<your_api_key>"
});
const response = await fetch(
"https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });
const transcription = await elevenlabs
.speechToText.convert({
file: audioBlob,
modelId: "scribe_v2",
tagAudioEvents: true,
languageCode: , // Seleccionar idioma
diarize: true
});
console.log(transcription);Impulsando a las principales empresas y marcas del mundo
“Desde doblar Reels en idiomas locales hasta crear música y voces de personajes en Horizon, la plataforma de ElevenLabs permite a creadores, empresas y negocios de todo el mundo crear con voz, música y sonido a gran escala.”
“La precisión de Scribe en tantos idiomas permite a Fieldy entender cada conversación diaria y escalar fácilmente a otros continentes. Fieldy ha aumentado la retención de usuarios un 50% tras pasarse a ElevenLabs Scribe.”
“Con ElevenLabs hemos integrado capacidades de texto a voz potentes en nuestro SDK, permitiendo que los Agentes respondan en tiempo real con voces expresivas a preguntas de usuarios o como feedback de lo que ven.”

“Twilio ha integrado la tecnología de voz generativa de IA de ElevenLabs en su CPaaS, mejorando ConversationRelay. Esta integración permite a empresas y desarrolladores crear interacciones de voz con IA conversacional que suenan humanas, son expresivas y responden en tiempo real directamente desde la plataforma CPaaS de Twilio. En ElevenLabs nos alegra que Twilio haya elegido ElevenLabs para potenciar ConversationRelay con las voces más expresivas y naturales disponibles.”
APIs listas para producción


.webp&w=3840&q=80)




.webp&w=3840&q=80)
