Conheça o Scribe

Escrito por: Tim von Känel; Flavio Schneider
Publicado: 26 de fev. de 2025

OuvirOuça este artigo

0:00

0:000:00

Scribe, nosso primeiro Speech to Text modelo, é o modelo de transcrição mais preciso do mundo. Projetado para lidar com a imprevisibilidade do áudio do mundo real, o Scribe transcreve fala em 99 idiomas, com marcação de tempo por palavra, diarização de falantes e marcação de eventos de áudio—tudo entregue em uma resposta estruturada para integração perfeita.

O Scribe é projetado para precisão. Nos testes de benchmark FLEURS & Common Voice em 99 idiomas, ele supera consistentemente modelos líderes como Gemini 2.0 Flash, Whisper Large V3 e Deepgram Nova-3. Seja para resumos de reuniões, legendas de filmes ou até letras de músicas, o Scribe oferece a menor taxa de erro de transcrição automatizada em italiano (98,7%), inglês (96,7%) e 97 outros idiomas.

O Scribe torna o ASR universalmente acessível—reduzindo drasticamente erros em idiomas tradicionalmente pouco atendidos, como sérvio, cantonês e malaiala, onde modelos concorrentes frequentemente excedem 40% de taxa de erro de palavras.

The world's most accurate ASR model by IIElevenLabs.

Desenvolvedores podem integrar o Scribe hoje via nossa API de Speech to Text para obter transcrições JSON estruturadas com diarização de falantes e marcações de tempo por palavra e eventos não verbais (ex.: risos). Uma versão de baixa latência para aplicações em tempo real será lançada em breve.

Criadores e empresas podem usar o Scribe diretamente através do painel da ElevenLabs para enviar arquivos de áudio ou vídeo e gerar transcrições formatadas.

Comece a criar com o Scribe:

Documentação da API | Experimente no Painel da ElevenLabs

Benchmarks

FLEURS - Taxa de Erro de Palavras % - 102 Idiomas

Bar chart comparing word error rates for different languages and speech recognition models.

Common Voice - Taxa de Erro de Palavras % - 102 Idiomas

Bar chart comparing word error rates for different voice recognition models across various countries.

Contribuições

Liderança de pesquisa, treinamento, arquitetura

Flavio Schneider

Liderança de projeto, dados de pré-treinamento, dados de ajuste fino

Tim von Känel

Inferência, Otimizações

Maximiliano Levi

Contribuidores de Pesquisa

Johan Nordberg, Piotr Dabkowski

Frontend

Austin Malerba

Backend

Hristo Stoychev

Aquisição de Dados

Alex George

Conheça o Scribe

Benchmarks

FLEURS - Taxa de Erro de Palavras % - 102 Idiomas

Common Voice - Taxa de Erro de Palavras % - 102 Idiomas

Contribuições

Artigos relacionados

Conheça o Flash

Apresentando Agentes de IA Conversacional

ElevenLabs sai do beta e lança Eleven Multilingual v2 - um modelo de fala com IA para 30 idiomas

Apresentando Eleven Multilingual v1: Nosso Novo Modelo de Síntese de Voz