
API de Speech to Text em Tempo Real
Transcreva voz ao vivo com o Scribe v2 Realtime
O Scribe v2 Realtime é o modelo de transcrição em tempo real mais preciso, com latência de 150ms em mais de 90 idiomas. Disponível via API.
- Lovable
- Veed model
- Synthesia
- Stripe
- Perplexity
- Twilio
Feito para velocidade e precisão
Ultra-rápido, ultra-preciso e feito para voz ao vivo. O Scribe v2 Realtime entrega transcrição instantânea para usos em tempo real.
Transcrição em tempo real com máxima precisão
O Scribe v2 Realtime alcança precisão líder do setor com latência de ~150ms, mesmo em condições de áudio desafiadoras ou com diferentes sotaques.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Pensada para qualquer cenário
Transcrição que funciona em ambientes barulhentos, com música de fundo, sotaques fortes e áudio de baixa qualidade.
Reconhecimento de voz projetado para desempenho em tempo real
Baseado no Scribe v1, o Scribe v2 Realtime oferece latência de ~150 ms com precisão avançada em diferentes sotaques, tons e ambientes.

Feito sob medida para Agents e apps de voz
O Scribe v2 Realtime foi criado para desenvolvedores que constroem agentes conversacionais, assistentes de reuniões e aplicativos de voz onde velocidade e precisão são essenciais.
Transcrição preditiva para baixa latência
O Scribe v2 Realtime usa transcrição preditiva para antecipar as próximas palavras e pontuações – garantindo precisão em tempo real.
Detecção de Atividade de Voz
Detecta quando a fala começa e termina, segmentando o áudio de forma precisa para uma transcrição em tempo real mais fluida e eficiente.
Controle Manual de Commit
Dá ao desenvolvedor controle sobre quando finalizar as transcrições – ideal para streaming personalizado e precisão ajustada.
Vários Formatos de Áudio
Compatível com PCM (8–48 kHz) e codificação μ-law para uso em telefonia, navegador e estúdio.
Modelos otimizados para cada necessidade
Scribe v2 para uso em grande volume e Scribe v2 Realtime para aplicações de baixa latência

Scribe v2
Máxima precisão, ideal para grandes volumes.
- Precisão acima de 95%
- Mais de 90 idiomas
- Detecção de eventos não verbais
- Detecção de entidades
- Prompt de termos-chave

Scribe v2 em Tempo Real
Menor latência, para uso em tempo real.
- Latência abaixo de 150ms
- Mais de 90 idiomas
- Transcrição por streaming
- Detecção de atividade de voz
- Reconhecimento automático de idioma
Transcreva voz em mais de 90 idiomas e diversos sotaques
Precisão excepcional em diferentes sotaques, dialetos e condições de gravação.
Altere o languageCode para visualizar os idiomas
import { useScribe } from "@elevenlabs/react";
const scribe = useScribe({
modelId: "scribe_v2_realtime",
languageCode: , // Definir idioma
onSessionStarted: () =>
console.log("Session started"),
onPartialTranscript: (data) =>
console.log("Partial:", data.text)
});A tecnologia por trás das principais empresas e marcas do mundo
“De dublar Reels em idiomas locais a gerar músicas e vozes de personagens no Horizon, a plataforma ElevenLabs permite que criadores, empresas e organizações do mundo todo criem com voz, música e som em escala.”
“A precisão incomparável do Scribe em tantos idiomas permite que o Fieldy entenda todas as conversas do dia a dia e escale facilmente para outros continentes. O Fieldy aumentou a retenção de usuários em 50% após migrar para o Scribe da ElevenLabs.”
“A ElevenLabs facilitou a integração rápida de recursos avançados de transformar texto em áudio no nosso SDK, permitindo que os Agents respondam em tempo real com vozes expressivas às perguntas dos usuários ou como feedback ao que estão vendo.”

“A Twilio integrou a tecnologia de voz IA generativa da ElevenLabs ao seu CPaaS, aprimorando o ConversationRelay. Essa integração permite que empresas e desenvolvedores criem interações de voz IA conversacionais que soam naturais, são expressivas e respondem em tempo real direto da plataforma CPaaS da Twilio. Nós, da ElevenLabs, estamos animados que a Twilio escolheu a ElevenLabs para tornar o ConversationRelay ainda mais expressivo, com as vozes mais naturais e humanas disponíveis.”
APIs prontas para produção

Preços flexíveis de acordo com sua necessidade
Tenha precisão e resposta de alto nível com preços que acompanham desde startups até equipes empresariais.
A partir de $0,28 por hora
em planos Business anuais


.webp&w=3840&q=80)




.webp&w=3840&q=80)
