Pular para o conteúdo

Comparação do Scribe com o modelo 4o Speech to Text da OpenAI

Um mês após o lançamento, o Scribe continua mostrando que é o modelo de speech to text mais avançado do mercado.

Introducing iScribe v1, the world's most accurate speech-to-text model.

Em apenas um mês desde o lançamento, nosso modelo de speech to text Scribe já conquistou milhares de empresas com sua precisão líder no setor. De legendas para mídia a call centers e transcrições médicas, o Scribe rapidamente se tornou o modelo preferido dos desenvolvedores.

Desempenho líder no setor

Diversas análises independentes confirmaram nossos próprios benchmarks de precisão, com o Scribe superando todos os modelos, incluindo os novos modelos 4o transcribe da OpenAI. Por exemplo, um benchmark da Artificial Analysis mostra que o Scribe supera tanto o 4o quanto o 4o mini em taxa de erro de palavras, em média:

  • O 4o transcribe comete 16% mais erros que o Scribe
  • O 4o mini transcribe comete 71% mais erros que o Scribe
Third party speech to text benchmark from Artificial Analysis
Third party speech to text benchmark from Artificial Analysis shows Scribe is the best model

O Scribe também supera ou está no mesmo nível dos modelos de transcrição 4o e 4o mini nos próprios benchmarks de lançamento da OpenAI, em 11 dos 15 idiomas testados. Olhando para japonês e hindi, por exemplo, o Scribe é melhor que ambos os modelos 4o da OpenAI por uma margem significativa, nos próprios benchmarks da OpenAI:

  • No japonês, o modelo 4o speech to text da OpenAI comete 55% mais erros que o Scribe, e o 4o mini comete 105% mais erros
  • No hindi, o modelo 4o speech to text da OpenAI comete 18% mais erros que o Scribe, e o 4o mini comete 37% mais erros

Tomamos decisões com o Scribe para ser o mais útil possível para os clientes, mesmo que isso possa gerar inconsistências em benchmarks do setor. Por exemplo:

  1. O Scribe transcreve números como “um” “dois” “três”, o que é mais útil para transcrições, mas o benchmark FLEURS usa os números “1”, “2”, “3”, gerando erros artificiais
  2. O Scribe consegue detectar palavras como “hum” “hã” “ei”, outro recurso útil para dar mais contexto ao cliente, mas essas palavras não fazem parte dos benchmarks, criando mais erros artificiais

Por isso é importante olhar para os resultados finais ao avaliar o desempenho. Por exemplo, em inglês, o modelo 4o Speech to Text da OpenAI tem desempenho parecido com o Scribe nos benchmarks. Mas, ao comparar as transcrições em inglês, fica claro como o Scribe é mais avançado.

Comparação de transcrições

Nesta análise de transcrição de uma audiência parlamentar do Reino Unido, você pode ver como o Scribe não comete erros ao captar corretamente sotaques, diferentes tons de voz e ao identificar ruídos de fundo e risadas.

Scribe da ElevenLabs (Tempo para criar a transcrição: 4,66s)

Posso perguntar ao nobre cavalheiro que trabalho está sendo feito para garantir que este local seja mais acessível, especialmente para alguns dos nossos colegas com deficiência? Muito bem. (murmúrio da plateia)Desculpe, deve ser algo do meu sotaque da Oceania. Ele pode repetir a pergunta, por favor? Não consegui acompanhar.(plateia rindo) Uau. Nossa. Muito popular hoje. Hum, eu- eu estava dizendo que- que vários colegas parlamentares com deficiência têm bastante dificuldade para circular em certas áreas do prédio. Já que estamos fazendo essa reforma, o que pode ser feito para garantir que pessoas com deficiência consigam circular com mais facilidade e que o local seja acessível?Sr. Paul. (plateia rindo) Sinto muito mesmo. Ele pode falar bem devagar em inglês da Oceania? Obrigado. Pode dar qualquer resposta. Acho que a resposta... Acho que a resposta pode ser melhor se você puder responder por escrito quando for ler, Sr. Presidente. Certo, Chris Elmore. (risos) Obrigado, Sr. Vice-Presidente, vou tentar acertar de primeira.(murmúrio da plateia) Ah, não. Você é galês. Posso- posso- posso- porque eu sou galês, então Deus o ajude.

4o da OpenAI (Tempo para criar a transcrição: 5,01s)

Posso perguntar ao nobre cavalheiro que trabalho está sendo feito para garantir que este local seja mais acessível, especialmente para alguns dos nossos colegas com deficiência?Desculpe, deve ser algo do meu sotaque da Oceania. Ele pode repetir a pergunta, por favor? Não consegui acompanhar.Bem, muito popular hoje. Estou vendo que vários colegas parlamentares com deficiência têm bastante dificuldade para circular em certas áreas do prédio. Já que estamos fazendo essa reforma, o que pode ser feito para garantir que pessoas com deficiência consigam circular com mais facilidade e que o local seja acessível?Sinto muito mesmo. Por favor, pode falar bem devagar em inglês da Oceania?Acho que a resposta pode ser melhor se você puder responder por escrito quando for ler.Obrigado, Sr. Vice-Presidente. Vou tentar acertar de primeira.Porque eu sou galês, então Deus o ajude.

Acessibilidade com transcrição de gagueira

A cada avanço da IA, um grupo muitas vezes esquecido pode se beneficiar muito: pessoas que gaguejam. A gagueira, um distúrbio genético da fala que afeta cerca de 1% da população, traz desafios únicos para sistemas automáticos de reconhecimento de fala (ASR). Em um estudo com amostras de teste onde a gagueira ocorreu em quase uma a cada quatro palavras, o desempenho do Scribe impressiona ainda mais, com precisão média de 98,7%. Isso mostra mais uma vez que o Scribe lidera o setor e oferece um modelo adaptado para todas as necessidades empresariais.

Soluções para empresas

O desempenho do Scribe ganha vida com recursos pensados para resolver as necessidades de clientes corporativos.

  • Timestamps precisos em nível de palavra geram muito valor para criadores, mídia e entretenimento, transformando suas transcrições em legendas, buscas e traduções precisas
  • A diarização inteligente de falantes permite resumir reuniões, apresentações de vendas ou chamadas de suporte ao cliente, trazendo insights mais precisos e práticos e aumentando a colaboração e o treinamento da sua equipe
  • A marcação dinâmica de áudio oferece mais conteúdo e contexto do seu áudio, permitindo, por exemplo, análise de sentimento
  • Suporte para 99 idiomas, alcance o mundo todo com uma única integração
  • Todos esses recursos estão disponíveis na nossa API, permitindo que desenvolvedores criem sem limitações
  • Uma versão de streaming em tempo real do Scribe, junto com uma de baixa latência, também está prevista para as próximas semanas. Isso vai consolidar o Scribe como o modelo de Speech to Text mais avançado já criado, cobrindo todos os casos de uso do seu negócio e oferecendo mais opções e flexibilidade entre velocidade, preço e precisão.

Comece agora

Experimente o Scribe hoje, nosso produto web é gratuito até 9 de abril. Os preços do Scribe são muito competitivos, a partir de $0,22/hora para clientes corporativos. Fique à vontade para falar com nosso time de vendas, teremos prazer em agendar uma demonstração e mostrar como podemos ajudar sua empresa.

Explore artigos da equipe ElevenLabs

Company
Audi Revolut F1 Team Headset w/ ElevenLabs Logo

We are on the grid

ElevenLabs is an official partner of Audi Revolut F1 Team

ElevenLabs

Crie com o áudio IA da mais alta qualidade