O que é o Scribe v2 Realtime?

O Scribe v2 Realtime é um modelo de Speech to Text por streaming, feito para transcrição ao vivo. Ele oferece latência de 150 ms com 93,5% de precisão em 30 idiomas – superando Gemini Flash 2.5, GPT-4o Mini Transcribe e Deepgram Nova 3 no benchmark FLEURS.

Qual a diferença entre Scribe v2 Realtime e Scribe v2?

O Scribe v2 Realtime é otimizado para streaming com latência de 150 ms. O Scribe v2 (batch) é voltado para áudios gravados e traz recursos como diarização de falantes, marcação dinâmica de áudio e suporte a 99 idiomas. Use o Realtime para agentes e aplicações ao vivo; use o batch para fluxos de pós-processamento.

Qual é a precisão do Scribe para transcrição em tempo real?

O Scribe v2 Realtime alcança precisão de ponta em 99 idiomas e é robusto mesmo em condições de áudio desafiadoras, sotaques e diferentes qualidades de gravação. Ele supera modelos anteriores e outras APIs líderes em benchmarks públicos.

Aproximadamente 150 ms de ponta a ponta, sem contar a latência da aplicação e da rede. Isso é 3x mais rápido que o GPT-4o Mini Transcribe, que tem 500 ms.

O que é latência negativa / transcrição preditiva?

O Scribe prevê a próxima palavra e pontuação antes mesmo de serem faladas. Assim, a transcrição é confirmada sem esperar por pausas, deixando o resultado em tempo real mais fluido.

Quais idiomas são suportados?

Mais de 90 idiomas com detecção automática. O modelo reconhece trocas de idioma durante a conversa sem precisar de configuração.

Quais formatos de áudio são suportados?

Áudio PCM de 8 kHz a 48 kHz e codificação μ-law. Compatível com telefonia, navegador e fontes de estúdio.

O Scribe v2 Realtime faz diarização de falantes?

No momento, não. Para identificar vários falantes, use o Scribe v2 (batch), que suporta até 48 pessoas.

Qual é o limite de concorrência?

Mais de 30 transmissões simultâneas nos planos Business. Planos Enterprise têm limites maiores. Fale com nosso time para demandas de alto volume.

O Scribe v2 Realtime está disponível no ElevenAgents?

Sim. O Scribe v2 Realtime já está integrado à plataforma Agents por padrão.

Quais certificações de conformidade estão disponíveis?

SOC 2, ISO 27001, PCI DSS Nível 1, HIPAA e LGPD. Modos de retenção zero e residência de dados na UE/Índia disponíveis para Enterprise.

API de Speech to Text em Tempo Real

Transcreva voz ao vivo com o Scribe v2 Realtime

Obter chave da API Explorar documentação

O Scribe v2 Realtime é a transcrição de voz em tempo real mais precisa, com latência de 150ms em mais de 90 idiomas. Disponível via API.

Demo

Código

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

Feito para velocidade e precisão

Obter chave da API Explorar documentação

Ultra-rápido, ultra-preciso e feito para voz ao vivo. O Scribe v2 Realtime entrega transcrição instantânea para usos em tempo real.

Transcrição em tempo real com máxima precisão

O Scribe v2 Realtime alcança precisão líder do setor com latência de ~150ms, mesmo em condições de áudio desafiadoras ou com diferentes sotaques.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Pensada para qualquer cenário

Transcrição que funciona em ambientes barulhentos, com música de fundo, sotaques fortes e áudio de baixa qualidade.

Reconhecimento de voz projetado para desempenho em tempo real

Baseado no Scribe v1, o Scribe v2 Realtime oferece latência de ~150 ms com precisão avançada em diferentes sotaques, tons e ambientes.

Feito sob medida para Agents e apps de voz

O Scribe v2 Realtime foi criado para desenvolvedores que constroem agentes conversacionais, assistentes de reuniões e aplicativos de voz onde velocidade e precisão são essenciais.

Posso obter um reembolso?

Claro. Você pode compartilhar o número do seu pedido, por favor?

É EL4543490

Obrigado. Iniciei o processo de reembolso do pedido.

Reembolso concluído

Transcrição preditiva para baixa latência

O Scribe v2 Realtime usa transcrição preditiva para antecipar as próximas palavras e pontuações – garantindo precisão em tempo real.

Scribe

makes

uses

is

has

new

Detecção de Atividade de Voz

Detecta quando a fala começa e termina, segmentando o áudio de forma precisa para uma transcrição em tempo real mais fluida e eficiente.

Controle Manual de Commit

Dá ao desenvolvedor controle sobre quando finalizar as transcrições – ideal para streaming personalizado e precisão ajustada.

Vários Formatos de Áudio

Compatível com PCM (8–48 kHz) e codificação μ-law para uso em telefonia, navegador e estúdio.

Modelos otimizados para cada necessidade

Scribe v2 para uso em grande volume e Scribe v2 Realtime para aplicações de baixa latência

Scribe v2

Máxima precisão, ideal para grandes volumes.

Precisão acima de 95%
Mais de 90 idiomas
Detecção de eventos não verbais
Detecção de entidades
Prompt de termos-chave

Saiba mais

Scribe v2 em Tempo Real

Menor latência, para uso em tempo real.

Latência abaixo de 150ms
Mais de 90 idiomas
Transcrição por streaming
Detecção de atividade de voz
Reconhecimento automático de idioma

Saiba mais

Transcreva voz em mais de 90 idiomas e diversos sotaques

Precisão excepcional em diferentes sotaques, dialetos e condições de gravação.

Altere o languageCode para visualizar os idiomas

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Definir idioma

  onSessionStarted: () =>
    console.log("Session started"),
  onPartialTranscript: (data) =>
    console.log("Partial:", data.text)
});

Inglês

Chinês

Espanhol

Francês

Português

Alemão

Japonês

Italiano

Hindi

InglêsClique para visualizar

A tecnologia por trás das principais empresas e marcas do mundo

Ver histórias de clientes

“De dublar Reels em idiomas locais a gerar músicas e vozes de personagens no Horizon, a plataforma ElevenLabs permite que criadores, empresas e organizações do mundo todo criem com voz, música e som em escala.”
“A precisão incomparável do Scribe em tantos idiomas permite que o Fieldy entenda todas as conversas do dia a dia e escale facilmente para outros continentes. O Fieldy aumentou a retenção de usuários em 50% após migrar para o Scribe da ElevenLabs.”
“A ElevenLabs facilitou a integração rápida de recursos avançados de transformar texto em áudio no nosso SDK, permitindo que os Agents respondam em tempo real com vozes expressivas às perguntas dos usuários ou como feedback ao que estão vendo.”
“A Twilio integrou a tecnologia de voz IA generativa da ElevenLabs ao seu CPaaS, aprimorando o ConversationRelay. Essa integração permite que empresas e desenvolvedores criem interações de voz IA conversacionais que soam naturais, são expressivas e respondem em tempo real direto da plataforma CPaaS da Twilio. Nós, da ElevenLabs, estamos animados que a Twilio escolheu a ElevenLabs para tornar o ConversationRelay ainda mais expressivo, com as vozes mais naturais e humanas disponíveis.”

APIs prontas para produção

Preços flexíveis de acordo com sua necessidade

Tenha precisão e resposta de alto nível com preços que acompanham desde startups até equipes empresariais.

A partir de $0,28 por hora

em planos Business anuais

Explorar documentação

Perguntas frequentes

Novidades

Todas as novidades

API de Speech to Text em Tempo Real

Transcreva voz ao vivo com o Scribe v2 Realtime

Feito para velocidade e precisão