
API de Texto a Voz - Hasta un 40% más rápido en todo el mundo
Transcribe voz con la API de ElevenLabs
La mayor precisión en voz a texto para aplicaciones masivas. Detecta énfasis y efectos de sonido, y guía la transcripción con prompts de palabras clave.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Crea subtítulos, transcripciones editables y captions para podcasts, vídeos, entrevistas y otros contenidos grabados, todo con la máxima precisión a través de la API.
Scribe v2 logra una precisión líder en el sector, generando texto limpio y editable incluso en condiciones de audio difíciles o con acentos variados.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Transcribe incluso en entornos ruidosos, con música de fondo, acentos marcados o audio de baja calidad.
La API de Transcripción de ElevenLabs detecta risas, emociones y efectos de sonido. Usa prompts de términos clave para guiar la transcripción con vocabulario específico de tu sector.
.webp&w=3840&q=95)
.webp&w=3840&q=95)

Detecta eventos no verbales como risas, aplausos, música y ruido de fondo. Las transcripciones incluyen todo el contexto de tu audio, no solo las palabras.
Identifica y etiqueta automáticamente hasta 48 hablantes. Atribución clara de quién dice qué, organizado en transcripciones fáciles de leer.
Identifica y etiqueta automáticamente 56 tipos de entidades, como nombres, fechas, lugares y organizaciones en tus transcripciones.

Máxima precisión, pensado para cargas por lotes.

Mínima latencia, ideal para uso en tiempo real.
Precisión excepcional en acentos, dialectos y todo tipo de grabaciones.
Cambia el languageCode para ver los idiomas disponibles
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
const elevenlabs = new ElevenLabsClient({
apiKey: "<your_api_key>"
});
const response = await fetch(
"https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });
const transcription = await elevenlabs
.speechToText.convert({
file: audioBlob,
modelId: "scribe_v2",
tagAudioEvents: true,
languageCode: , // Seleccionar idioma
diarize: true
});
console.log(transcription);“Desde doblar Reels en idiomas locales hasta crear música y voces de personajes en Horizon, la plataforma de ElevenLabs permite a creadores, empresas y negocios de todo el mundo crear con voz, música y sonido a gran escala.”
“La precisión de Scribe en tantos idiomas permite a Fieldy entender cada conversación diaria y escalar fácilmente a otros continentes. Fieldy ha aumentado la retención de usuarios un 50% tras pasarse a ElevenLabs Scribe.”
“Con ElevenLabs hemos integrado capacidades de texto a voz potentes en nuestro SDK, permitiendo que los Agentes respondan en tiempo real con voces expresivas a preguntas de usuarios o como feedback de lo que ven.”

“Twilio ha integrado la tecnología de voz generativa de IA de ElevenLabs en su CPaaS, mejorando ConversationRelay. Esta integración permite a empresas y desarrolladores crear interacciones de voz con IA conversacional que suenan humanas, son expresivas y responden en tiempo real directamente desde la plataforma CPaaS de Twilio. En ElevenLabs nos alegra que Twilio haya elegido ElevenLabs para potenciar ConversationRelay con las voces más expresivas y naturales disponibles.”


API de Texto a Voz - Hasta un 40% más rápido en todo el mundo
.webp&w=3840&q=80)
Habla con una estatua: crea una app multimodal con ElevenAgents




.webp&w=3840&q=80)
Añade un agente de voz de Papá Noel a tu app React en minutos

Presentamos ElevenLabs UI: componentes de audio y agentes open source para la web
.webp&w=3840&q=80)
ElevenLabs Agents vs OpenAI Realtime API: Duelo de Agentes Conversacionales