Pular para o conteúdo

API de Speech to Text em Tempo Real

Transcreva voz ao vivo com o Scribe v2 Realtime

O Scribe v2 Realtime é o modelo de transcrição em tempo real mais preciso, com latência de 150ms em mais de 90 idiomas. Disponível via API.

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

Feito para velocidade e precisão

Ultra-rápido, ultra-preciso e feito para voz ao vivo. O Scribe v2 Realtime entrega transcrição instantânea para usos em tempo real.

O Scribe v2 Realtime alcança precisão líder do setor com latência de ~150ms, mesmo em condições de áudio desafiadoras ou com diferentes sotaques.

Transcrição em tempo real com máxima precisão

O Scribe v2 Realtime alcança precisão líder do setor com latência de ~150ms, mesmo em condições de áudio desafiadoras ou com diferentes sotaques.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Pensada para qualquer cenário

Transcrição que funciona em ambientes barulhentos, com música de fundo, sotaques fortes e áudio de baixa qualidade.

Reconhecimento de voz projetado para desempenho em tempo real

Baseado no Scribe v1, o Scribe v2 Realtime oferece latência de ~150 ms com precisão avançada em diferentes sotaques, tons e ambientes.

Posso obter um reembolso?
Claro. Você pode compartilhar o número do seu pedido, por favor?
É EL4543490
Obrigado. Iniciei o processo de reembolso do pedido.
Reembolso concluído

Feito sob medida para Agents e apps de voz

O Scribe v2 Realtime foi criado para desenvolvedores que constroem agentes conversacionais, assistentes de reuniões e aplicativos de voz onde velocidade e precisão são essenciais.

Scribe
makes
uses
is
has
new

Transcrição preditiva para baixa latência

O Scribe v2 Realtime usa transcrição preditiva para antecipar as próximas palavras e pontuações – garantindo precisão em tempo real.

Detecção de Atividade de Voz

Detecta quando a fala começa e termina, segmentando o áudio de forma precisa para uma transcrição em tempo real mais fluida e eficiente.

Controle Manual de Commit

Dá ao desenvolvedor controle sobre quando finalizar as transcrições – ideal para streaming personalizado e precisão ajustada.

Vários Formatos de Áudio

Compatível com PCM (8–48 kHz) e codificação μ-law para uso em telefonia, navegador e estúdio.

Modelos otimizados para cada necessidade

Scribe v2 para uso em grande volume e Scribe v2 Realtime para aplicações de baixa latência

Black Mountain

Scribe v2

Máxima precisão, ideal para grandes volumes.

  • Precisão acima de 95%
  • Mais de 90 idiomas
  • Detecção de eventos não verbais
  • Detecção de entidades
  • Prompt de termos-chave
Mountains

Scribe v2 em Tempo Real

Menor latência, para uso em tempo real.

  • Latência abaixo de 150ms
  • Mais de 90 idiomas
  • Transcrição por streaming
  • Detecção de atividade de voz
  • Reconhecimento automático de idioma

Transcreva voz em mais de 90 idiomas e diversos sotaques

Precisão excepcional em diferentes sotaques, dialetos e condições de gravação.

Altere o languageCode para visualizar os idiomas

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Definir idioma onSessionStarted: () => console.log("Session started"), onPartialTranscript: (data) => console.log("Partial:", data.text) });
Flag for en
Inglês
Flag for zh
Chinês
Flag for es
Espanhol
Flag for fr
Francês
Flag for pt
Português
Flag for de
Alemão
Flag for ja
Japonês
Flag for it
Italiano
Flag for hi
Hindi
Flag for en
InglêsClique para visualizar

A tecnologia por trás das principais empresas e marcas do mundo

  • De dublar Reels em idiomas locais a gerar músicas e vozes de personagens no Horizon, a plataforma ElevenLabs permite que criadores, empresas e organizações do mundo todo criem com voz, música e som em escala.
    Meta Color Logo
  • A precisão incomparável do Scribe em tantos idiomas permite que o Fieldy entenda todas as conversas do dia a dia e escale facilmente para outros continentes. O Fieldy aumentou a retenção de usuários em 50% após migrar para o Scribe da ElevenLabs.
    Fieldy logo
  • A ElevenLabs facilitou a integração rápida de recursos avançados de transformar texto em áudio no nosso SDK, permitindo que os Agents respondam em tempo real com vozes expressivas às perguntas dos usuários ou como feedback ao que estão vendo.
    Stream Color Logo
  • A Twilio integrou a tecnologia de voz IA generativa da ElevenLabs ao seu CPaaS, aprimorando o ConversationRelay. Essa integração permite que empresas e desenvolvedores criem interações de voz IA conversacionais que soam naturais, são expressivas e respondem em tempo real direto da plataforma CPaaS da Twilio. Nós, da ElevenLabs, estamos animados que a Twilio escolheu a ElevenLabs para tornar o ConversationRelay ainda mais expressivo, com as vozes mais naturais e humanas disponíveis.
    Twilio logo

APIs prontas para produção

Foreground

Preços flexíveis de acordo com sua necessidade

Tenha precisão e resposta de alto nível com preços que acompanham desde startups até equipes empresariais.

A partir de $0,28 por hora

em planos Business anuais

UI Screenshot

Perguntas frequentes

A plataforma de áudio IA mais realista