¿Qué es Scribe v2 Realtime?

Scribe v2 Realtime es un modelo de Voz a Texto en streaming pensado para transcripción en directo. Ofrece 150 ms de latencia y un 93,5% de precisión en 30 idiomas, superando a Gemini Flash 2.5, GPT-4o Mini Transcribe y Deepgram Nova 3 en el benchmark FLEURS.

¿En qué se diferencia Scribe v2 Realtime de Scribe v2?

Scribe v2 Realtime está optimizado para streaming con 150 ms de latencia. Scribe v2 (batch) está pensado para audio grabado y añade funciones como identificación de hablantes, etiquetado dinámico de audio y soporte para 99 idiomas. Usa Realtime para agentes y aplicaciones en directo; usa batch para flujos de trabajo de postprocesado.

¿Qué precisión tiene Scribe para transcripción en tiempo real?

Scribe v2 Realtime logra la máxima precisión en 99 idiomas y es robusto ante condiciones de audio difíciles, acentos y calidad de grabación. Supera a modelos anteriores y a otras APIs líderes en benchmarks públicos.

¿Cuál es la latencia?

Aproximadamente 150 ms de extremo a extremo, sin contar la latencia de la aplicación y la red. Es 3 veces más rápido que GPT-4o Mini Transcribe, que tarda 500 ms.

¿Qué es la latencia negativa / transcripción predictiva?

Scribe anticipa la siguiente palabra y la puntuación antes de que se pronuncien. Así, la transcripción se confirma sin esperar silencios, lo que permite un resultado en tiempo real más fluido.

¿Qué idiomas están disponibles?

Más de 90 idiomas con detección automática. El modelo gestiona cambios de idioma en mitad de la conversación sin necesidad de configuración.

¿Qué formatos de audio son compatibles?

Audio PCM de 8 kHz a 48 kHz y codificación μ-law. Compatible con telefonía, navegador y estudios.

¿Scribe v2 Realtime permite identificar quién habla?

No por ahora. Para identificar varios hablantes, usa Scribe v2 (batch), que admite hasta 48 voces distintas.

¿Cuál es el límite de concurrencia?

Más de 30 streams simultáneos en planes Business. Los planes Enterprise incluyen límites superiores. Contacta con ventas para grandes volúmenes.

¿Scribe v2 Realtime está disponible en ElevenLabs Agents?

Sí. Scribe v2 Realtime está integrado por defecto en la plataforma Agents.

¿Qué certificaciones de cumplimiento están disponibles?

SOC 2, ISO 27001, PCI DSS Nivel 1, HIPAA y RGPD. Modo Zero Retention y residencia de datos en la UE/India disponibles para Enterprise.

API de Voz a Texto en Tiempo Real

Transcribe voz en directo con Scribe v2 Realtime

Consigue tu clave API Explora la documentación

Scribe v2 Realtime es el sistema de Voz a Texto en tiempo real más preciso, con solo 150 ms de latencia y disponible en más de 90 idiomas. Puedes usarlo desde la API.

Demo

Código

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

Pensado para velocidad y precisión

Consigue tu clave API Explora la documentación

Ultra rápido, ultra preciso y diseñado para voz en directo. Scribe v2 Realtime ofrece transcripción instantánea para casos de uso en tiempo real.

Transcripción en tiempo real con máxima precisión

Scribe v2 Realtime logra una precisión líder en el sector con ~150ms de latencia, incluso en condiciones de audio difíciles o con acentos variados.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Pensado para cualquier situación

Transcribe incluso en entornos ruidosos, con música de fondo, acentos marcados o audio de baja calidad.

Reconocimiento de voz optimizado para rendimiento en tiempo real

Basado en Scribe v1, Scribe v2 Realtime ofrece una latencia de ~150 ms con precisión avanzada en acentos, entonaciones y entornos.

Diseñado para Agents y apps de voz

Scribe v2 Realtime está pensado para desarrolladores que crean agentes conversacionales, asistentes de reuniones y aplicaciones de voz donde la velocidad y la precisión son clave.

¿Puedo obtener un reembolso?

Claro. ¿Puedes compartir tu número de pedido, por favor?

Es EL4543490

Gracias. He iniciado el proceso de reembolso del pedido.

Reembolso completado

Transcripción predictiva para baja latencia

Scribe v2 Realtime utiliza transcripción predictiva para anticipar las palabras y signos de puntuación más probables, logrando precisión en tiempo real.

Scribe

makes

uses

is

has

new

Detección de Actividad de Voz

Detecta cuándo empieza y termina la voz, segmentando el audio con precisión para una transcripción fluida y eficiente en tiempo real.

Control Manual de Confirmación

Permite a desarrolladores decidir cuándo finalizar las transcripciones, ideal para streaming personalizado y máxima precisión.

Varios Formatos de Audio

Compatible con PCM (8–48 kHz) y codificación μ-law para funcionar en telefonía, navegador y estudios.

Modelos optimizados para cada caso de uso

Scribe v2 para grandes volúmenes y Scribe v2 Realtime para casos que requieren baja latencia

Scribe v2

Máxima precisión, pensado para grandes volúmenes.

Precisión >95%
Más de 90 idiomas
Detección de eventos no verbales
Detección de entidades
Prompting de palabras clave

Scribe v2 en Tiempo Real

Mínima latencia, para uso en tiempo real.

Latencia inferior a 150 ms
Más de 90 idiomas
Transcripción en streaming
Detección de actividad de voz
Reconocimiento automático de idioma

Transcribe voz en más de 90 idiomas y una gran variedad de acentos

Precisión excepcional en acentos, dialectos y todo tipo de grabaciones.

Cambia el languageCode para previsualizar idiomas

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Seleccionar idioma

  onSessionStarted: () =>
    console.log("Session started"),
  onPartialTranscript: (data) =>
    console.log("Partial:", data.text)
});

Inglés

Chino

Español

Francés

Portugués

Alemán

Japonés

Italiano

Hindi

InglésHaz clic para previsualizar

Impulsamos a las principales empresas y marcas del mundo

Ver testimonios de clientes

“Desde doblar Reels en idiomas locales hasta crear música y voces de personajes en Horizon, la plataforma de ElevenLabs permite a creadores, empresas y organizaciones crear con voz, música y sonido a gran escala.”
“La precisión de Scribe en tantos idiomas permite que Fieldy entienda cada conversación diaria y escale fácilmente a otros continentes. Fieldy ha aumentado la retención de usuarios un 50% tras pasarse a ElevenLabs Scribe.”
“ElevenLabs nos permitió añadir rápidamente capacidades de texto a voz potentes a nuestro SDK, para que Agents responda en tiempo real con voces expresivas a las preguntas de los usuarios o como feedback de lo que ve.”
“Twilio ha integrado la tecnología de voz IA generativa de ElevenLabs en su CPaaS, mejorando ConversationRelay. Esta integración permite a empresas y desarrolladores crear interacciones de voz IA conversacionales que suenan naturales, son expresivas y responden en tiempo real directamente desde la plataforma CPaaS de Twilio. En ElevenLabs nos entusiasma que Twilio haya elegido ElevenLabs para potenciar ConversationRelay con las voces más expresivas y realistas disponibles.”