Apresentando o Eleven v3 (alpha)

Experimente o v3

Conheça o Scribe

Transcreva fala para texto com o modelo ASR mais preciso do mundo

Introducing IIscribe V1, the world's most accurate speech-to-text model.

Scribe, nosso primeiro Speech to Text modelo, é o modelo de transcrição mais preciso do mundo. Projetado para lidar com a imprevisibilidade do áudio do mundo real, o Scribe transcreve fala em 99 idiomas, com marcação de tempo por palavra, diarização de falantes e marcação de eventos de áudio—tudo entregue em uma resposta estruturada para integração perfeita.

O Scribe é projetado para precisão. Nos testes de benchmark FLEURS & Common Voice em 99 idiomas, ele supera consistentemente modelos líderes como Gemini 2.0 Flash, Whisper Large V3 e Deepgram Nova-3. Seja para resumos de reuniões, legendas de filmes ou até letras de músicas, o Scribe oferece a menor taxa de erro de transcrição automatizada em italiano (98,7%), inglês (96,7%) e 97 outros idiomas.

O Scribe torna o ASR universalmente acessível—reduzindo drasticamente erros em idiomas tradicionalmente pouco atendidos, como sérvio, cantonês e malaiala, onde modelos concorrentes frequentemente excedem 40% de taxa de erro de palavras.

The world's most accurate ASR model by IIElevenLabs.

Desenvolvedores podem integrar o Scribe hoje via nossa Speech to Text API para obter transcrições JSON estruturadas com diarização de falantes e marcações de tempo por palavra e eventos não verbais (ex.: risos). Uma versão de baixa latência para aplicações em tempo real será lançada em breve.

Criadores e empresas podem usar o Scribe diretamente através do painel da ElevenLabs para enviar arquivos de áudio ou vídeo e gerar transcrições formatadas.

Comece a criar com o Scribe:

Documentação da API | Experimente no Painel da ElevenLabs

Benchmarks

FLEURS - Taxa de Erro de Palavras % - 102 Idiomas

Bar chart comparing word error rates for different languages and speech recognition models.

Common Voice - Taxa de Erro de Palavras % - 102 Idiomas

Bar chart comparing word error rates for different voice recognition models across various countries.

Contribuições

Liderança de pesquisa, treinamento, arquitetura

Flavio Schneider

Liderança de projeto, dados de pré-treinamento, dados de ajuste fino

Tim von Känel

Inferência, Otimizações

Maximiliano Levi

Contribuidores de Pesquisa

Johan Nordberg, Piotr Dabkowski

Frontend

Austin Malerba

Backend

Hristo Stoychev

Aquisição de Dados

Alex George

Explore artigos da equipe ElevenLabs

Pesquisa
Text on a gray gradient background introducing IIFlash v2.5, highlighting 75ms model latency and support for 32 languages.

Conheça o Flash

Você nunca experimentou um TTS tão rápido e natural

ElevenLabs

Crie com o áudio IA da mais alta qualidade