Comparação do Scribe com o modelo 4o Speech to Text da OpenAI

Última atualização 6 de mar. de 2026 • 5 minutos de leitura

A smiling man with wavy hair and a beard, wearing a denim shirt, in black and white.

Um mês após o lançamento, o Scribe continua mostrando que é o modelo de speech to text mais avançado do mercado.

Introducing iScribe v1, the world's most accurate speech-to-text model.

Saiba mais Fale com vendas Experimente grátis

Em apenas um mês desde o lançamento, nosso modelo de speech to text Scribe já conquistou milhares de empresas com sua precisão líder no setor. De legendas para mídia a call centers e transcrições médicas, o Scribe rapidamente se tornou o modelo preferido dos desenvolvedores.

Desempenho líder no setor

Diversas análises independentes confirmaram nossos próprios benchmarks de precisão, com o Scribe superando todos os modelos, incluindo os novos modelos 4o transcribe da OpenAI. Por exemplo, um benchmark da Análise Artificial mostra que o Scribe supera tanto o 4o quanto o 4o mini em taxa de erro de palavras, em média:

O 4o transcribe comete 16% mais erros que o Scribe
O 4o mini transcribe comete 71% mais erros que o Scribe

Third party speech to text benchmark from Artificial Analysis shows Scribe is the best model

O Scribe também supera ou está no mesmo nível dos modelos de transcrição 4o e 4o mini nos próprios benchmarks de lançamento da OpenAI, em 11 dos 15 idiomas testados. Olhando para japonês e hindi, por exemplo, o Scribe é melhor que ambos os modelos 4o da OpenAI por uma margem significativa, nos próprios benchmarks da OpenAI:

No japonês, o modelo 4o speech to text da OpenAI comete 55% mais erros que o Scribe, e o 4o mini comete 105% mais erros
No hindi, o modelo 4o speech to text da OpenAI comete 18% mais erros que o Scribe, e o 4o mini comete 37% mais erros

Tomamos decisões com o Scribe para ser o mais útil possível para os clientes, mesmo que isso possa gerar inconsistências em benchmarks do setor. Por exemplo:

O Scribe transcreve números como “um” “dois” “três”, o que é mais útil para transcrições, mas o benchmark FLEURS usa os números “1”, “2”, “3”, gerando erros artificiais
O Scribe consegue detectar palavras como “hum” “hã” “ei”, outro recurso útil para dar mais contexto ao cliente, mas essas palavras não fazem parte dos benchmarks, criando mais erros artificiais

Por isso é importante olhar para os resultados finais ao avaliar o desempenho. Por exemplo, em inglês, o modelo 4o Speech to Text da OpenAI tem desempenho parecido com o Scribe nos benchmarks. Mas, ao comparar as transcrições em inglês, fica claro como o Scribe é mais avançado.

Comparação de transcrições

Nesta análise de transcrição de uma audiência parlamentar do Reino Unido, você pode ver como o Scribe não comete erros ao captar corretamente sotaques, diferentes tons de voz e ao identificar ruídos de fundo e risadas.

Scribe da ElevenLabs (Tempo para criar a transcrição: 4,66s)

Posso perguntar ao nobre cavalheiro que trabalho está sendo feito para garantir que este local seja mais acessível, especialmente para alguns dos nossos colegas com deficiência? Muito bem. (murmúrio da plateia)Desculpe, deve ser algo do meu sotaque da Oceania. Ele pode repetir a pergunta, por favor? Não consegui acompanhar.(plateia rindo) Uau. Nossa. Muito popular hoje. Hum, eu- eu estava dizendo que- que vários colegas parlamentares com deficiência têm bastante dificuldade para circular em certas áreas do prédio. Já que estamos fazendo essa reforma, o que pode ser feito para garantir que pessoas com deficiência consigam circular com mais facilidade e que o local seja acessível?Sr. Paul. (plateia rindo) Sinto muito mesmo. Ele pode falar bem devagar em inglês da Oceania? Obrigado. Pode dar qualquer resposta. Acho que a resposta... Acho que a resposta pode ser melhor se você puder responder por escrito quando for ler, Sr. Presidente. Certo, Chris Elmore. (risos) Obrigado, Sr. Vice-Presidente, vou tentar acertar de primeira.(murmúrio da plateia) Ah, não. Você é galês. Posso- posso- posso- porque eu sou galês, então Deus o ajude.

4o da OpenAI (Tempo para criar a transcrição: 5,01s)

Posso perguntar ao nobre cavalheiro que trabalho está sendo feito para garantir que este local seja mais acessível, especialmente para alguns dos nossos colegas com deficiência?Desculpe, deve ser algo do meu sotaque da Oceania. Ele pode repetir a pergunta, por favor? Não consegui acompanhar.Bem, muito popular hoje. Estou vendo que vários colegas parlamentares com deficiência têm bastante dificuldade para circular em certas áreas do prédio. Já que estamos fazendo essa reforma, o que pode ser feito para garantir que pessoas com deficiência consigam circular com mais facilidade e que o local seja acessível?Sinto muito mesmo. Por favor, pode falar bem devagar em inglês da Oceania?Acho que a resposta pode ser melhor se você puder responder por escrito quando for ler.Obrigado, Sr. Vice-Presidente. Vou tentar acertar de primeira.Porque eu sou galês, então Deus o ajude.

Acessibilidade com transcrição de gagueira

A cada avanço da IA, um grupo muitas vezes esquecido pode se beneficiar muito: pessoas que gaguejam. A gagueira, um distúrbio genético da fala que afeta cerca de 1% da população, traz desafios únicos para sistemas automáticos de reconhecimento de fala (ASR). Em um estudo com amostras de teste onde a gagueira ocorreu em quase uma a cada quatro palavras, o desempenho do Scribe impressiona ainda mais, com precisão média de 98,7%. Isso mostra mais uma vez que o Scribe lidera o setor e oferece um modelo adaptado para todas as necessidades empresariais.

Soluções para empresas

O desempenho do Scribe ganha vida com recursos pensados para resolver as necessidades de clientes corporativos.

Timestamps precisos em nível de palavra geram muito valor para criadores, mídia e entretenimento, transformando suas transcrições em legendas, buscas e traduções precisas
A diarização inteligente de falantes permite resumir reuniões, apresentações de vendas ou chamadas de suporte ao cliente, trazendo insights mais precisos e práticos e aumentando a colaboração e o treinamento da sua equipe
A marcação dinâmica de áudio oferece mais conteúdo e contexto do seu áudio, permitindo, por exemplo, análise de sentimento
Suporte para 99 idiomas, alcance o mundo todo com uma única integração
Todos esses recursos estão disponíveis na nossa API, permitindo que desenvolvedores criem sem limitações
Uma versão de streaming em tempo real do Scribe, junto com uma de baixa latência, também está prevista para as próximas semanas. Isso vai consolidar o Scribe como o modelo de Speech to Text mais avançado já criado, cobrindo todos os casos de uso do seu negócio e oferecendo mais opções e flexibilidade entre velocidade, preço e precisão.

Comece agora

Experimente o Scribe hoje, nosso produto web é gratuito até 9 de abril. Os preços do Scribe são muito competitivos, a partir de $0,22/hora para clientes corporativos. Fique à vontade para falar com nosso time de vendas, teremos prazer em agendar uma demonstração e mostrar como podemos ajudar sua empresa.

Explore artigos da equipe ElevenLabs

Customer Stories

Tutore deploys conversational agents for corporate language training using ElevenLabs

90% of Tutore’s placement interviews are now conducted by AI agents, accelerating onboarding and reducing costs

Product

Product

Introducing Music Finetunes in ElevenCreative

Generate individual vocals, instruments or full tracks with stylistic consistency using a fine-tuned version of our Music model.

Crie com o áudio de IA da mais alta qualidade

Fale com Vendas Inscreva-se