
Conheça o Flash
- Categoria
- Pesquisa
- Data
Transcreva fala para texto com o modelo ASR mais preciso do mundo
Scribe, nosso primeiro Speech to Text modelo, é o modelo de transcrição mais preciso do mundo. Projetado para lidar com a imprevisibilidade do áudio do mundo real, o Scribe transcreve fala em 99 idiomas, com marcação de tempo por palavra, diarização de falantes e marcação de eventos de áudio—tudo entregue em uma resposta estruturada para integração perfeita.
O Scribe é projetado para precisão. Nos testes de benchmark FLEURS & Common Voice em 99 idiomas, ele supera consistentemente modelos líderes como Gemini 2.0 Flash, Whisper Large V3 e Deepgram Nova-3. Seja para resumos de reuniões, legendas de filmes ou até letras de músicas, o Scribe oferece a menor taxa de erro de transcrição automatizada em italiano (98,7%), inglês (96,7%) e 97 outros idiomas.
O Scribe torna o ASR universalmente acessível—reduzindo drasticamente erros em idiomas tradicionalmente pouco atendidos, como sérvio, cantonês e malaiala, onde modelos concorrentes frequentemente excedem 40% de taxa de erro de palavras.

Desenvolvedores podem integrar o Scribe hoje via nossa API de Speech to Text para obter transcrições JSON estruturadas com diarização de falantes e marcações de tempo por palavra e eventos não verbais (ex.: risos). Uma versão de baixa latência para aplicações em tempo real será lançada em breve.
Criadores e empresas podem usar o Scribe diretamente através do painel da ElevenLabs para enviar arquivos de áudio ou vídeo e gerar transcrições formatadas.
Comece a criar com o Scribe:
Documentação da API | Experimente no Painel da ElevenLabs


Liderança de pesquisa, treinamento, arquitetura
Flavio Schneider
Liderança de projeto, dados de pré-treinamento, dados de ajuste fino
Tim von Känel
Inferência, Otimizações
Maximiliano Levi
Contribuidores de Pesquisa
Johan Nordberg, Piotr Dabkowski
Frontend
Austin Malerba
Backend
Hristo Stoychev
Aquisição de Dados
Alex George

.webp&w=3840&q=80)

