Pular para o conteúdo

API de Speech to Text

Transcreva áudios com o ElevenLabs Scribe v2

A mais alta precisão em Speech to Text para aplicações em lote. Detecte ênfase e efeitos sonoros, e oriente a transcrição com termos-chave.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

A API Speech to Text mais precisa para grandes volumes

Crie legendas, transcrições editáveis e arquivos de texto para podcasts, vídeos, entrevistas e outros conteúdos gravados – tudo com precisão líder do setor via API.

O Scribe v2 alcança precisão líder do setor, entregando texto limpo e editável mesmo em áudios desafiadores ou com diferentes sotaques.

Precisão sem precedentes na transcrição

O Scribe v2 alcança precisão líder do setor, entregando texto limpo e editável mesmo em áudios desafiadores ou com diferentes sotaques.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Pensada para qualquer cenário

Transcrição que funciona em ambientes barulhentos, com música de fundo, sotaques fortes e áudio de baixa qualidade.

Controle detalhado de tempo, locutores e eventos não verbais.

A API de Transcrição da ElevenLabs detecta risadas, emoções e efeitos sonoros. Use sugestões de termos-chave para orientar a transcrição com termos específicos do seu setor.

Transcreva áudio e vídeo

Envie arquivos MP3, MP4, WAV, MOV e outros formatos comuns. O Scribe processa arquivos de até 10 horas com processamento assíncrono e notificações por webhook para grandes volumes.
Transcription Formats

Transcrições limpas e editáveis

Receba textos pontuados corretamente, estruturados em parágrafos, prontos para edição, publicação ou outros usos. Não precisa ajustar nada.
Editable transcripts

Sugestão de termos-chave

Aumente a precisão para até 100 termos específicos do seu setor. Nomes de produtos, termos técnicos e vocabulário especializado são transcritos corretamente já na primeira vez.
Keyterm Prompting

Marcação dinâmica de áudio

Identifique eventos não verbais como risadas, aplausos, música e ruídos de fundo. As transcrições trazem todo o contexto do seu áudio, não só as palavras.

Diarização inteligente de locutores

Identifique e marque automaticamente até 48 locutores. Atribuição clara de quem falou o quê, organizada em transcrições fáceis de ler.

Detecção de entidades

Identifique e marque automaticamente 56 tipos de entidades, incluindo nomes, datas, locais e organizações nas suas transcrições.

Black Mountain

Scribe v2

Máxima precisão, ideal para grandes volumes.

  • >95% de precisão
  • Mais de 90 idiomas
  • Detecção de eventos não verbais
  • Detecção de entidades
  • Sugestão de termos-chave
Mountains

Scribe v2 em tempo real

Menor latência, para uso em tempo real.

  • Latência abaixo de 150ms
  • Mais de 90 idiomas
  • Transcrição em streaming
  • Detecção de atividade de voz
  • Reconhecimento automático de idioma

Transcreva áudios em mais de 90 idiomas e diversos sotaques

Precisão excepcional em diferentes sotaques, dialetos e condições de gravação.

Altere o languageCode para visualizar outros idiomas

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Definir idioma diarize: true }); console.log(transcription);
Flag for en
Inglês
Flag for zh
Chinês
Flag for es
Espanhol
Flag for fr
Francês
Flag for pt
Português
Flag for de
Alemão
Flag for ja
Japonês
Flag for it
Italiano
Flag for hi
Hindi
Flag for en
InglêsClique para visualizar

Usada pelas principais empresas e marcas do mundo

  • De dublar Reels em idiomas locais a gerar músicas e vozes de personagens no Horizon, a plataforma ElevenLabs permite que criadores, empresas e negócios do mundo todo criem com voz, música e som em escala.
    Meta Color Logo
  • A precisão incomparável do Scribe em tantos idiomas permite que a Fieldy entenda todas as conversas do dia a dia e escale facilmente para outros continentes. A Fieldy aumentou a retenção de usuários em 50% após migrar para o ElevenLabs Scribe.
    Fieldy logo
  • A ElevenLabs facilitou para nós a integração rápida de recursos avançados de transformar texto em áudio no nosso SDK, permitindo que Agentes respondam em tempo real com vozes expressivas às perguntas dos usuários ou como feedback ao que estão vendo.
    Stream Color Logo
  • A Twilio integrou a tecnologia de voz IA generativa da ElevenLabs ao seu CPaaS, aprimorando o ConversationRelay. Essa integração permite que empresas e desenvolvedores criem interações de voz com IA que soam naturais, são expressivas e respondem em tempo real diretamente da plataforma Twilio CPaaS. Nós, da ElevenLabs, estamos animados que a Twilio escolheu a ElevenLabs para tornar o ConversationRelay ainda mais expressivo e natural.
    Twilio logo

APIs prontas para produção

Foreground

Perguntas frequentes

A plataforma de áudio IA mais realista