
API de Speech to Text
Transcreva áudios com o ElevenLabs Scribe v2
A mais alta precisão em Speech to Text para aplicações em lote. Detecte ênfase e efeitos sonoros, e oriente a transcrição com termos-chave.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
- Lovable
- Veed model
- Synthesia
- Stripe
- Perplexity
- Twilio
A API Speech to Text mais precisa para grandes volumes
Crie legendas, transcrições editáveis e arquivos de texto para podcasts, vídeos, entrevistas e outros conteúdos gravados – tudo com precisão líder do setor via API.
Precisão sem precedentes na transcrição
O Scribe v2 alcança precisão líder do setor, entregando texto limpo e editável mesmo em áudios desafiadores ou com diferentes sotaques.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Pensada para qualquer cenário
Transcrição que funciona em ambientes barulhentos, com música de fundo, sotaques fortes e áudio de baixa qualidade.
Controle detalhado de tempo, locutores e eventos não verbais.
A API de Transcrição da ElevenLabs detecta risadas, emoções e efeitos sonoros. Use sugestões de termos-chave para orientar a transcrição com termos específicos do seu setor.
Transcreva áudio e vídeo
.webp&w=3840&q=95)
Transcrições limpas e editáveis
.webp&w=3840&q=95)
Sugestão de termos-chave

Marcação dinâmica de áudio
Identifique eventos não verbais como risadas, aplausos, música e ruídos de fundo. As transcrições trazem todo o contexto do seu áudio, não só as palavras.
Diarização inteligente de locutores
Identifique e marque automaticamente até 48 locutores. Atribuição clara de quem falou o quê, organizada em transcrições fáceis de ler.
Detecção de entidades
Identifique e marque automaticamente 56 tipos de entidades, incluindo nomes, datas, locais e organizações nas suas transcrições.

Scribe v2
Máxima precisão, ideal para grandes volumes.
- >95% de precisão
- Mais de 90 idiomas
- Detecção de eventos não verbais
- Detecção de entidades
- Sugestão de termos-chave

Scribe v2 em tempo real
Menor latência, para uso em tempo real.
- Latência abaixo de 150ms
- Mais de 90 idiomas
- Transcrição em streaming
- Detecção de atividade de voz
- Reconhecimento automático de idioma
Transcreva áudios em mais de 90 idiomas e diversos sotaques
Precisão excepcional em diferentes sotaques, dialetos e condições de gravação.
Altere o languageCode para visualizar outros idiomas
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
const elevenlabs = new ElevenLabsClient({
apiKey: "<your_api_key>"
});
const response = await fetch(
"https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });
const transcription = await elevenlabs
.speechToText.convert({
file: audioBlob,
modelId: "scribe_v2",
tagAudioEvents: true,
languageCode: , // Definir idioma
diarize: true
});
console.log(transcription);Usada pelas principais empresas e marcas do mundo
“De dublar Reels em idiomas locais a gerar músicas e vozes de personagens no Horizon, a plataforma ElevenLabs permite que criadores, empresas e negócios do mundo todo criem com voz, música e som em escala.”
“A precisão incomparável do Scribe em tantos idiomas permite que a Fieldy entenda todas as conversas do dia a dia e escale facilmente para outros continentes. A Fieldy aumentou a retenção de usuários em 50% após migrar para o ElevenLabs Scribe.”
“A ElevenLabs facilitou para nós a integração rápida de recursos avançados de transformar texto em áudio no nosso SDK, permitindo que Agentes respondam em tempo real com vozes expressivas às perguntas dos usuários ou como feedback ao que estão vendo.”

“A Twilio integrou a tecnologia de voz IA generativa da ElevenLabs ao seu CPaaS, aprimorando o ConversationRelay. Essa integração permite que empresas e desenvolvedores criem interações de voz com IA que soam naturais, são expressivas e respondem em tempo real diretamente da plataforma Twilio CPaaS. Nós, da ElevenLabs, estamos animados que a Twilio escolheu a ElevenLabs para tornar o ConversationRelay ainda mais expressivo e natural.”
APIs prontas para produção


.webp&w=3840&q=80)




.webp&w=3840&q=80)
