
API de Texto a Voz - Hasta un 40% más rápido en todo el mundo
Transcribe voz en tiempo real con la API de ElevenLabs
Scribe v2 Realtime es el modelo de transcripción en tiempo real más preciso, con 150ms de latencia en más de 90 idiomas. Disponible vía API.
Ultra rápido, ultra preciso y diseñado para voz en directo. Scribe v2 Realtime ofrece transcripción instantánea para casos de uso en tiempo real.
Scribe v2 Realtime logra una precisión líder en el sector con ~150ms de latencia, incluso en condiciones de audio difíciles o con acentos variados.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Transcribe incluso en entornos ruidosos, con música de fondo, acentos marcados o audio de baja calidad.
Basado en Scribe v1, Scribe v2 Realtime ofrece una latencia de ~150 ms con precisión avanzada en acentos, entonaciones y entornos.

Scribe v2 Realtime está pensado para desarrolladores que crean agentes conversacionales, asistentes de reuniones y aplicaciones de voz donde la velocidad y la precisión son clave.
Scribe v2 Realtime utiliza transcripción predictiva para anticipar las palabras y signos de puntuación más probables, logrando precisión en tiempo real.
Detecta cuándo empieza y termina la voz, segmentando el audio con precisión para una transcripción fluida y eficiente en tiempo real.
Permite a desarrolladores decidir cuándo finalizar las transcripciones, ideal para streaming personalizado y máxima precisión.
Compatible con PCM (8–48 kHz) y codificación μ-law para funcionar en telefonía, navegador y estudios.
Scribe v2 para grandes volúmenes y Scribe v2 Realtime para casos que requieren baja latencia

Máxima precisión, pensado para grandes volúmenes.

Mínima latencia, para uso en tiempo real.
Precisión excepcional en acentos, dialectos y todo tipo de grabaciones.
Cambia el languageCode para previsualizar idiomas
import { useScribe } from "@elevenlabs/react";
const scribe = useScribe({
modelId: "scribe_v2_realtime",
languageCode: , // Seleccionar idioma
onSessionStarted: () =>
console.log("Session started"),
onPartialTranscript: (data) =>
console.log("Partial:", data.text)
});“Desde doblar Reels en idiomas locales hasta crear música y voces de personajes en Horizon, la plataforma de ElevenLabs permite a creadores, empresas y organizaciones crear con voz, música y sonido a gran escala.”
“La precisión de Scribe en tantos idiomas permite que Fieldy entienda cada conversación diaria y escale fácilmente a otros continentes. Fieldy ha aumentado la retención de usuarios un 50% tras pasarse a ElevenLabs Scribe.”
“ElevenLabs nos permitió añadir rápidamente capacidades de texto a voz potentes a nuestro SDK, para que Agents responda en tiempo real con voces expresivas a las preguntas de los usuarios o como feedback de lo que ve.”

“Twilio ha integrado la tecnología de voz IA generativa de ElevenLabs en su CPaaS, mejorando ConversationRelay. Esta integración permite a empresas y desarrolladores crear interacciones de voz IA conversacionales que suenan naturales, son expresivas y responden en tiempo real directamente desde la plataforma CPaaS de Twilio. En ElevenLabs nos entusiasma que Twilio haya elegido ElevenLabs para potenciar ConversationRelay con las voces más expresivas y realistas disponibles.”

Disfruta de la máxima precisión y respuesta con precios pensados para escalar desde startups hasta equipos empresariales.
$0,28 por hora o menos
en planes Business anuales


API de Texto a Voz - Hasta un 40% más rápido en todo el mundo
.webp&w=3840&q=80)
Habla con una estatua: crea una app multimodal con ElevenAgents




.webp&w=3840&q=80)
Añade un agente de voz de Papá Noel a tu app React en minutos

Presentamos ElevenLabs UI: componentes de audio y agentes open source para la web
.webp&w=3840&q=80)
ElevenLabs Agents vs OpenAI Realtime API: Duelo de Agentes Conversacionales