
API de Voz a Texto en Tiempo Real
Transcribe voz en directo con Scribe v2 Realtime
Scribe v2 Realtime es el modelo de transcripción en tiempo real más preciso, con 150ms de latencia en más de 90 idiomas. Disponible vía API.
- Lovable
- Veed model
- Synthesia
- Stripe
- Perplexity
- Twilio
Pensado para velocidad y precisión
Ultra rápido, ultra preciso y diseñado para voz en directo. Scribe v2 Realtime ofrece transcripción instantánea para casos de uso en tiempo real.
Transcripción en tiempo real con máxima precisión
Scribe v2 Realtime logra una precisión líder en el sector con ~150ms de latencia, incluso en condiciones de audio difíciles o con acentos variados.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Pensado para cualquier situación
Transcribe incluso en entornos ruidosos, con música de fondo, acentos marcados o audio de baja calidad.
Reconocimiento de voz optimizado para rendimiento en tiempo real
Basado en Scribe v1, Scribe v2 Realtime ofrece una latencia de ~150 ms con precisión avanzada en acentos, entonaciones y entornos.

Diseñado para Agents y apps de voz
Scribe v2 Realtime está pensado para desarrolladores que crean agentes conversacionales, asistentes de reuniones y aplicaciones de voz donde la velocidad y la precisión son clave.
Transcripción predictiva para baja latencia
Scribe v2 Realtime utiliza transcripción predictiva para anticipar las palabras y signos de puntuación más probables, logrando precisión en tiempo real.
Detección de Actividad de Voz
Detecta cuándo empieza y termina la voz, segmentando el audio con precisión para una transcripción fluida y eficiente en tiempo real.
Control Manual de Confirmación
Permite a desarrolladores decidir cuándo finalizar las transcripciones, ideal para streaming personalizado y máxima precisión.
Varios Formatos de Audio
Compatible con PCM (8–48 kHz) y codificación μ-law para funcionar en telefonía, navegador y estudios.
Modelos optimizados para cada caso de uso
Scribe v2 para grandes volúmenes y Scribe v2 Realtime para casos que requieren baja latencia

Scribe v2
Máxima precisión, pensado para grandes volúmenes.
- Precisión >95%
- Más de 90 idiomas
- Detección de eventos no verbales
- Detección de entidades
- Prompting de palabras clave

Scribe v2 en Tiempo Real
Mínima latencia, para uso en tiempo real.
- Latencia inferior a 150 ms
- Más de 90 idiomas
- Transcripción en streaming
- Detección de actividad de voz
- Reconocimiento automático de idioma
Transcribe voz en más de 90 idiomas y una gran variedad de acentos
Precisión excepcional en acentos, dialectos y todo tipo de grabaciones.
Cambia el languageCode para previsualizar idiomas
import { useScribe } from "@elevenlabs/react";
const scribe = useScribe({
modelId: "scribe_v2_realtime",
languageCode: , // Seleccionar idioma
onSessionStarted: () =>
console.log("Session started"),
onPartialTranscript: (data) =>
console.log("Partial:", data.text)
});Impulsamos a las principales empresas y marcas del mundo
“Desde doblar Reels en idiomas locales hasta crear música y voces de personajes en Horizon, la plataforma de ElevenLabs permite a creadores, empresas y organizaciones crear con voz, música y sonido a gran escala.”
“La precisión de Scribe en tantos idiomas permite que Fieldy entienda cada conversación diaria y escale fácilmente a otros continentes. Fieldy ha aumentado la retención de usuarios un 50% tras pasarse a ElevenLabs Scribe.”
“ElevenLabs nos permitió añadir rápidamente capacidades de texto a voz potentes a nuestro SDK, para que Agents responda en tiempo real con voces expresivas a las preguntas de los usuarios o como feedback de lo que ve.”

“Twilio ha integrado la tecnología de voz IA generativa de ElevenLabs en su CPaaS, mejorando ConversationRelay. Esta integración permite a empresas y desarrolladores crear interacciones de voz IA conversacionales que suenan naturales, son expresivas y responden en tiempo real directamente desde la plataforma CPaaS de Twilio. En ElevenLabs nos entusiasma que Twilio haya elegido ElevenLabs para potenciar ConversationRelay con las voces más expresivas y realistas disponibles.”
APIs listas para producción

Precios flexibles según tus necesidades
Disfruta de la máxima precisión y respuesta con precios pensados para escalar desde startups hasta equipos empresariales.
$0,28 por hora o menos
en planes Business anuales


.webp&w=3840&q=80)




.webp&w=3840&q=80)
