O que é a Bulk Transcription API da ElevenLabs?

A Bulk Transcription API faz parte do Scribe, nosso sistema Speech to Text criado para transcrição de áudio e vídeo em grande escala. Permite que desenvolvedores e empresas processem horas de conteúdo gravado com precisão líder do setor em 99 idiomas.

Quais tipos de arquivos de áudio e vídeo posso enviar?

O Scribe aceita todos os formatos comuns, incluindo MP4, MOV, MP3, WAV e outros.

Quão precisa é a Scribe para transcrição em lote?

O Scribe v2 oferece precisão de ponta em 99 idiomas e é robusto mesmo em condições de áudio desafiadoras, sotaques e diferentes qualidades de gravação. Supera modelos anteriores e outras APIs líderes em benchmarks públicos.

Quanto tempo leva para transcrever arquivos grandes?

O tempo de processamento depende do tamanho do arquivo e da concorrência. O Scribe é otimizado para alto desempenho e pode lidar com grandes volumes em paralelo, entregando transcrições em segundos ou minutos.

O Scribe separa falantes e marca horários?

Sim. A API oferece diarização inteligente de falantes, marcação de tempo em nível de palavra e caractere, além de identificação dinâmica de eventos não verbais como risadas ou música.

Posso personalizar o modelo para termos específicos do meu domínio?

Sim. Você pode definir vocabulários personalizados para garantir a transcrição correta de nomes de produtos, termos técnicos ou frases exclusivas da sua marca usando termos-chave.

A Bulk Transcription API é segura e está em conformidade?

O Scribe é compatível com SOC 2, LGPD e, opcionalmente, HIPAA. Os dados são criptografados em trânsito e em repouso, e as equipes podem ativar residência de dados na UE ou modo Zero Retenção para maior controle.

Como é feita a cobrança da Bulk Transcription API?

A cobrança é por uso, calculada por minuto de áudio enviado. Há descontos por volume e planos empresariais para grandes demandas. Fale com nosso time comercial para discutir suas necessidades.

Você pode começar a transcrever imediatamente gerando uma chave de API e explorando a documentação.

API de Speech to Text

Transcreva áudios com o ElevenLabs Scribe v2

Obter chave da API Explorar documentação

A maior precisão em Speech to Text para aplicações em grande escala. Detecta ênfases e efeitos sonoros, além de permitir direcionar a transcrição com palavras-chave.

Demo

Código

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

A API Speech to Text mais precisa para grandes volumes

Obter chave da API Explorar documentação

Crie legendas, transcrições editáveis e arquivos de texto para podcasts, vídeos, entrevistas e outros conteúdos gravados – tudo com precisão líder do setor via API.

Precisão sem precedentes na transcrição

O Scribe v2 alcança precisão líder do setor, entregando texto limpo e editável mesmo em áudios desafiadores ou com diferentes sotaques.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Pensada para qualquer cenário

Transcrição que funciona em ambientes barulhentos, com música de fundo, sotaques fortes e áudio de baixa qualidade.

Controle detalhado de tempo, locutores e eventos não verbais.

A API de Transcrição da ElevenLabs detecta risadas, emoções e efeitos sonoros. Use sugestões de termos-chave para orientar a transcrição com termos específicos do seu setor.

Transcreva áudio e vídeo

Envie arquivos MP3, MP4, WAV, MOV e outros formatos comuns. O Scribe processa arquivos de até 10 horas com processamento assíncrono e notificações por webhook para grandes volumes.

Transcrições limpas e editáveis

Receba textos pontuados corretamente, estruturados em parágrafos, prontos para edição, publicação ou outros usos. Não precisa ajustar nada.

Sugestão de termos-chave

Aumente a precisão para até 100 termos específicos do seu setor. Nomes de produtos, termos técnicos e vocabulário especializado são transcritos corretamente já na primeira vez.

Marcação dinâmica de áudio

Identifique eventos não verbais como risadas, aplausos, música e ruídos de fundo. As transcrições trazem todo o contexto do seu áudio, não só as palavras.

Diarização inteligente de locutores

Identifique e marque automaticamente até 48 locutores. Atribuição clara de quem falou o quê, organizada em transcrições fáceis de ler.

Detecção de entidades

Identifique e marque automaticamente 56 tipos de entidades, incluindo nomes, datas, locais e organizações nas suas transcrições.

Scribe v2

Máxima precisão, ideal para grandes volumes.

>95% de precisão
Mais de 90 idiomas
Detecção de eventos não verbais
Detecção de entidades
Sugestão de termos-chave

Saiba mais

Scribe v2 em tempo real

Menor latência, para uso em tempo real.

Latência abaixo de 150ms
Mais de 90 idiomas
Transcrição em streaming
Detecção de atividade de voz
Reconhecimento automático de idioma

Saiba mais

Transcreva áudios em mais de 90 idiomas e diversos sotaques

Precisão excepcional em diferentes sotaques, dialetos e condições de gravação.

Altere o languageCode para visualizar outros idiomas

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Definir idioma
	  diarize: true
	});

console.log(transcription);

Inglês

Chinês

Espanhol

Francês

Português

Alemão

Japonês

Italiano

Hindi

InglêsClique para visualizar

Usada pelas principais empresas e marcas do mundo

Ver histórias de clientes

“De dublar Reels em idiomas locais a gerar músicas e vozes de personagens no Horizon, a plataforma ElevenLabs permite que criadores, empresas e negócios do mundo todo criem com voz, música e som em escala.”
“A precisão incomparável do Scribe em tantos idiomas permite que a Fieldy entenda todas as conversas do dia a dia e escale facilmente para outros continentes. A Fieldy aumentou a retenção de usuários em 50% após migrar para o ElevenLabs Scribe.”
“A ElevenLabs facilitou para nós a integração rápida de recursos avançados de transformar texto em áudio no nosso SDK, permitindo que Agentes respondam em tempo real com vozes expressivas às perguntas dos usuários ou como feedback ao que estão vendo.”
“A Twilio integrou a tecnologia de voz IA generativa da ElevenLabs ao seu CPaaS, aprimorando o ConversationRelay. Essa integração permite que empresas e desenvolvedores criem interações de voz com IA que soam naturais, são expressivas e respondem em tempo real diretamente da plataforma Twilio CPaaS. Nós, da ElevenLabs, estamos animados que a Twilio escolheu a ElevenLabs para tornar o ConversationRelay ainda mais expressivo e natural.”

APIs prontas para produção

Perguntas frequentes

Novidades

Todas as novidades

API de Speech to Text

Transcreva áudios com o ElevenLabs Scribe v2