Salta al contenido

API de Voz a Texto

Transcribe audio con ElevenLabs Scribe v2

La mayor precisión en voz a texto para aplicaciones masivas. Detecta énfasis y efectos de sonido, y guía la transcripción con prompts de palabras clave.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

La API de Voz a Texto más precisa para grandes volúmenes

Crea subtítulos, transcripciones editables y captions para podcasts, vídeos, entrevistas y otros contenidos grabados, todo con la máxima precisión a través de la API.

Scribe v2 logra una precisión líder en el sector, generando texto limpio y editable incluso en condiciones de audio difíciles o con acentos variados.

Precisión de transcripción sin precedentes

Scribe v2 logra una precisión líder en el sector, generando texto limpio y editable incluso en condiciones de audio difíciles o con acentos variados.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Pensado para cualquier situación

Transcribe incluso en entornos ruidosos, con música de fondo, acentos marcados o audio de baja calidad.

Control detallado del tiempo, los hablantes y los eventos no verbales.

La API de Transcripción de ElevenLabs detecta risas, emociones y efectos de sonido. Usa prompts de términos clave para guiar la transcripción con vocabulario específico de tu sector.

Transcribe audio y vídeo

Sube archivos MP3, MP4, WAV, MOV y otros formatos habituales. Scribe procesa archivos de hasta 10 horas con procesamiento asíncrono y notificaciones por webhook para lotes grandes.
Transcription Formats

Transcripciones limpias y editables

Obtén texto bien puntuado y estructurado en párrafos, listo para editar, publicar o procesar. No hace falta limpiar nada.
Editable transcripts

Prompting de términos clave

Mejora la precisión de reconocimiento para hasta 100 términos específicos de tu sector. Nombres de productos, jerga técnica y vocabulario especializado se transcriben correctamente a la primera.
Keyterm Prompting

Etiquetado dinámico de audio

Detecta eventos no verbales como risas, aplausos, música y ruido de fondo. Las transcripciones incluyen todo el contexto de tu audio, no solo las palabras.

Diarización inteligente de hablantes

Identifica y etiqueta automáticamente hasta 48 hablantes. Atribución clara de quién dice qué, organizado en transcripciones fáciles de leer.

Detección de entidades

Identifica y etiqueta automáticamente 56 tipos de entidades, como nombres, fechas, lugares y organizaciones en tus transcripciones.

Black Mountain

Scribe v2

Máxima precisión, pensado para cargas por lotes.

  • >95% Precisión
  • Más de 90 idiomas
  • Detección de eventos no verbales
  • Detección de entidades
  • Prompting de términos clave
Mountains

Scribe v2 en Tiempo Real

Mínima latencia, ideal para uso en tiempo real.

  • Latencia inferior a 150 ms
  • Más de 90 idiomas
  • Transcripción en streaming
  • Detección de actividad de voz
  • Reconocimiento automático de idioma

Transcribe voz en más de 90 idiomas y una gran variedad de acentos

Precisión excepcional en acentos, dialectos y todo tipo de grabaciones.

Cambia el languageCode para ver los idiomas disponibles

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Seleccionar idioma diarize: true }); console.log(transcription);
Flag for en
Inglés
Flag for zh
Chino
Flag for es
Español
Flag for fr
Francés
Flag for pt
Portugués
Flag for de
Alemán
Flag for ja
Japonés
Flag for it
Italiano
Flag for hi
Hindi
Flag for en
InglésHaz clic para previsualizar

Impulsando a las principales empresas y marcas del mundo

  • Desde doblar Reels en idiomas locales hasta crear música y voces de personajes en Horizon, la plataforma de ElevenLabs permite a creadores, empresas y negocios de todo el mundo crear con voz, música y sonido a gran escala.
    Meta Color Logo
  • La precisión de Scribe en tantos idiomas permite a Fieldy entender cada conversación diaria y escalar fácilmente a otros continentes. Fieldy ha aumentado la retención de usuarios un 50% tras pasarse a ElevenLabs Scribe.
    Fieldy logo
  • Con ElevenLabs hemos integrado capacidades de texto a voz potentes en nuestro SDK, permitiendo que los Agentes respondan en tiempo real con voces expresivas a preguntas de usuarios o como feedback de lo que ven.
    Stream Color Logo
  • Twilio ha integrado la tecnología de voz generativa de IA de ElevenLabs en su CPaaS, mejorando ConversationRelay. Esta integración permite a empresas y desarrolladores crear interacciones de voz con IA conversacional que suenan humanas, son expresivas y responden en tiempo real directamente desde la plataforma CPaaS de Twilio. En ElevenLabs nos alegra que Twilio haya elegido ElevenLabs para potenciar ConversationRelay con las voces más expresivas y naturales disponibles.
    Twilio logo

APIs listas para producción

Foreground

Preguntas frecuentes

Últimas novedades

La plataforma de audio IA más realista