Salta al contenido

API de Voz a Texto en Tiempo Real

Transcribe voz en directo con Scribe v2 Realtime

Scribe v2 Realtime es el modelo de transcripción en tiempo real más preciso, con 150ms de latencia en más de 90 idiomas. Disponible vía API.

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

Pensado para velocidad y precisión

Ultra rápido, ultra preciso y diseñado para voz en directo. Scribe v2 Realtime ofrece transcripción instantánea para casos de uso en tiempo real.

Scribe v2 Realtime logra una precisión líder en el sector con ~150ms de latencia, incluso en condiciones de audio difíciles o con acentos variados.

Transcripción en tiempo real con máxima precisión

Scribe v2 Realtime logra una precisión líder en el sector con ~150ms de latencia, incluso en condiciones de audio difíciles o con acentos variados.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Pensado para cualquier situación

Transcribe incluso en entornos ruidosos, con música de fondo, acentos marcados o audio de baja calidad.

Reconocimiento de voz optimizado para rendimiento en tiempo real

Basado en Scribe v1, Scribe v2 Realtime ofrece una latencia de ~150 ms con precisión avanzada en acentos, entonaciones y entornos.

¿Puedo obtener un reembolso?
Claro. ¿Puedes compartir tu número de pedido, por favor?
Es EL4543490
Gracias. He iniciado el proceso de reembolso del pedido.
Reembolso completado

Diseñado para Agents y apps de voz

Scribe v2 Realtime está pensado para desarrolladores que crean agentes conversacionales, asistentes de reuniones y aplicaciones de voz donde la velocidad y la precisión son clave.

Scribe
makes
uses
is
has
new

Transcripción predictiva para baja latencia

Scribe v2 Realtime utiliza transcripción predictiva para anticipar las palabras y signos de puntuación más probables, logrando precisión en tiempo real.

Detección de Actividad de Voz

Detecta cuándo empieza y termina la voz, segmentando el audio con precisión para una transcripción fluida y eficiente en tiempo real.

Control Manual de Confirmación

Permite a desarrolladores decidir cuándo finalizar las transcripciones, ideal para streaming personalizado y máxima precisión.

Varios Formatos de Audio

Compatible con PCM (8–48 kHz) y codificación μ-law para funcionar en telefonía, navegador y estudios.

Modelos optimizados para cada caso de uso

Scribe v2 para grandes volúmenes y Scribe v2 Realtime para casos que requieren baja latencia

Black Mountain

Scribe v2

Máxima precisión, pensado para grandes volúmenes.

  • Precisión >95%
  • Más de 90 idiomas
  • Detección de eventos no verbales
  • Detección de entidades
  • Prompting de palabras clave
Mountains

Scribe v2 en Tiempo Real

Mínima latencia, para uso en tiempo real.

  • Latencia inferior a 150 ms
  • Más de 90 idiomas
  • Transcripción en streaming
  • Detección de actividad de voz
  • Reconocimiento automático de idioma

Transcribe voz en más de 90 idiomas y una gran variedad de acentos

Precisión excepcional en acentos, dialectos y todo tipo de grabaciones.

Cambia el languageCode para previsualizar idiomas

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Seleccionar idioma onSessionStarted: () => console.log("Session started"), onPartialTranscript: (data) => console.log("Partial:", data.text) });
Flag for en
Inglés
Flag for zh
Chino
Flag for es
Español
Flag for fr
Francés
Flag for pt
Portugués
Flag for de
Alemán
Flag for ja
Japonés
Flag for it
Italiano
Flag for hi
Hindi
Flag for en
InglésHaz clic para previsualizar

Impulsamos a las principales empresas y marcas del mundo

  • Desde doblar Reels en idiomas locales hasta crear música y voces de personajes en Horizon, la plataforma de ElevenLabs permite a creadores, empresas y organizaciones crear con voz, música y sonido a gran escala.
    Meta Color Logo
  • La precisión de Scribe en tantos idiomas permite que Fieldy entienda cada conversación diaria y escale fácilmente a otros continentes. Fieldy ha aumentado la retención de usuarios un 50% tras pasarse a ElevenLabs Scribe.
    Fieldy logo
  • ElevenLabs nos permitió añadir rápidamente capacidades de texto a voz potentes a nuestro SDK, para que Agents responda en tiempo real con voces expresivas a las preguntas de los usuarios o como feedback de lo que ve.
    Stream Color Logo
  • Twilio ha integrado la tecnología de voz IA generativa de ElevenLabs en su CPaaS, mejorando ConversationRelay. Esta integración permite a empresas y desarrolladores crear interacciones de voz IA conversacionales que suenan naturales, son expresivas y responden en tiempo real directamente desde la plataforma CPaaS de Twilio. En ElevenLabs nos entusiasma que Twilio haya elegido ElevenLabs para potenciar ConversationRelay con las voces más expresivas y realistas disponibles.
    Twilio logo

APIs listas para producción

Foreground

Precios flexibles según tus necesidades

Disfruta de la máxima precisión y respuesta con precios pensados para escalar desde startups hasta equipos empresariales.

$0,28 por hora o menos

en planes Business anuales

UI Screenshot

Preguntas frecuentes

Últimas novedades

La plataforma de audio IA más realista