
Conheça o Flash
Você nunca experimentou um TTS tão rápido e natural
Apresentando o Eleven v3 (alpha)
Experimente o v3Transcreva fala para texto com o modelo ASR mais preciso do mundo
Scribe, nosso primeiro Speech to Text modelo, é o modelo de transcrição mais preciso do mundo. Projetado para lidar com a imprevisibilidade do áudio do mundo real, o Scribe transcreve fala em 99 idiomas, com marcação de tempo por palavra, diarização de falantes e marcação de eventos de áudio—tudo entregue em uma resposta estruturada para integração perfeita.
O Scribe é projetado para precisão. Nos testes de benchmark FLEURS & Common Voice em 99 idiomas, ele supera consistentemente modelos líderes como Gemini 2.0 Flash, Whisper Large V3 e Deepgram Nova-3. Seja para resumos de reuniões, legendas de filmes ou até letras de músicas, o Scribe oferece a menor taxa de erro de transcrição automatizada em italiano (98,7%), inglês (96,7%) e 97 outros idiomas.
O Scribe torna o ASR universalmente acessível—reduzindo drasticamente erros em idiomas tradicionalmente pouco atendidos, como sérvio, cantonês e malaiala, onde modelos concorrentes frequentemente excedem 40% de taxa de erro de palavras.
Desenvolvedores podem integrar o Scribe hoje via nossa Speech to Text API para obter transcrições JSON estruturadas com diarização de falantes e marcações de tempo por palavra e eventos não verbais (ex.: risos). Uma versão de baixa latência para aplicações em tempo real será lançada em breve.
Criadores e empresas podem usar o Scribe diretamente através do painel da ElevenLabs para enviar arquivos de áudio ou vídeo e gerar transcrições formatadas.
Comece a criar com o Scribe:
Documentação da API | Experimente no Painel da ElevenLabs
Liderança de pesquisa, treinamento, arquitetura
Flavio Schneider
Liderança de projeto, dados de pré-treinamento, dados de ajuste fino
Tim von Känel
Inferência, Otimizações
Maximiliano Levi
Contribuidores de Pesquisa
Johan Nordberg, Piotr Dabkowski
Frontend
Austin Malerba
Backend
Hristo Stoychev
Aquisição de Dados
Alex George
Você nunca experimentou um TTS tão rápido e natural
Nossa plataforma tudo-em-um para criar agentes de voz interativos e personalizáveis