
API de Transformar Texto em Áudio - Até 40% Mais Rápido no Mundo Todo
Transcreva voz em tempo real com a API da ElevenLabs
O Scribe v2 Realtime é o modelo de transcrição em tempo real mais preciso, com latência de 150ms em mais de 90 idiomas. Disponível via API.
Ultra-rápido, ultra-preciso e feito para voz ao vivo. O Scribe v2 Realtime entrega transcrição instantânea para usos em tempo real.
O Scribe v2 Realtime alcança precisão líder do setor com latência de ~150ms, mesmo em condições de áudio desafiadoras ou com diferentes sotaques.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Transcrição que funciona em ambientes barulhentos, com música de fundo, sotaques fortes e áudio de baixa qualidade.
Baseado no Scribe v1, o Scribe v2 Realtime oferece latência de ~150 ms com precisão avançada em diferentes sotaques, tons e ambientes.

O Scribe v2 Realtime foi criado para desenvolvedores que constroem agentes conversacionais, assistentes de reuniões e aplicativos de voz onde velocidade e precisão são essenciais.
O Scribe v2 Realtime usa transcrição preditiva para antecipar as próximas palavras e pontuações – garantindo precisão em tempo real.
Detecta quando a fala começa e termina, segmentando o áudio de forma precisa para uma transcrição em tempo real mais fluida e eficiente.
Dá ao desenvolvedor controle sobre quando finalizar as transcrições – ideal para streaming personalizado e precisão ajustada.
Compatível com PCM (8–48 kHz) e codificação μ-law para uso em telefonia, navegador e estúdio.
Scribe v2 para uso em grande volume e Scribe v2 Realtime para aplicações de baixa latência

Máxima precisão, ideal para grandes volumes.

Menor latência, para uso em tempo real.
Precisão excepcional em diferentes sotaques, dialetos e condições de gravação.
Altere o languageCode para visualizar os idiomas
import { useScribe } from "@elevenlabs/react";
const scribe = useScribe({
modelId: "scribe_v2_realtime",
languageCode: , // Definir idioma
onSessionStarted: () =>
console.log("Session started"),
onPartialTranscript: (data) =>
console.log("Partial:", data.text)
});“De dublar Reels em idiomas locais a gerar músicas e vozes de personagens no Horizon, a plataforma ElevenLabs permite que criadores, empresas e organizações do mundo todo criem com voz, música e som em escala.”
“A precisão incomparável do Scribe em tantos idiomas permite que o Fieldy entenda todas as conversas do dia a dia e escale facilmente para outros continentes. O Fieldy aumentou a retenção de usuários em 50% após migrar para o Scribe da ElevenLabs.”
“A ElevenLabs facilitou a integração rápida de recursos avançados de transformar texto em áudio no nosso SDK, permitindo que os Agents respondam em tempo real com vozes expressivas às perguntas dos usuários ou como feedback ao que estão vendo.”

“A Twilio integrou a tecnologia de voz IA generativa da ElevenLabs ao seu CPaaS, aprimorando o ConversationRelay. Essa integração permite que empresas e desenvolvedores criem interações de voz IA conversacionais que soam naturais, são expressivas e respondem em tempo real direto da plataforma CPaaS da Twilio. Nós, da ElevenLabs, estamos animados que a Twilio escolheu a ElevenLabs para tornar o ConversationRelay ainda mais expressivo, com as vozes mais naturais e humanas disponíveis.”

Tenha precisão e resposta de alto nível com preços que acompanham desde startups até equipes empresariais.
A partir de $0,28 por hora
em planos Business anuais


API de Transformar Texto em Áudio - Até 40% Mais Rápido no Mundo Todo
.webp&w=3840&q=80)
Converse com uma Estátua: Criando um App Multimodal com ElevenAgents




.webp&w=3840&q=80)
Adicione um Agente de Voz do Papai Noel ao seu app React em minutos

Apresentando o ElevenLabs UI: componentes open source de áudio e agentes para a web
.webp&w=3840&q=80)
ElevenLabs Agents vs OpenAI Realtime API: Batalha de Agentes Conversacionais