Cos’è Scribe v2 Realtime?

Scribe v2 Realtime è un modello streaming di Speech to Text pensato per la trascrizione dal vivo. Offre 150 ms di latenza con il 93,5% di precisione su 30 lingue – superando Gemini Flash 2.5, GPT-4o Mini Transcribe e Deepgram Nova 3 nel benchmark FLEURS.

In cosa Scribe v2 Realtime è diverso da Scribe v2?

Scribe v2 Realtime è ottimizzato per lo streaming con 150 ms di latenza. Scribe v2 (batch) è pensato per audio registrati e offre funzioni aggiuntive come diarizzazione degli speaker, tagging dinamico dell’audio e supporto a 99 lingue. Usa Realtime per agenti e applicazioni live; usa batch per workflow di post-produzione.

Quanto è precisa la trascrizione in tempo reale di Scribe?

Scribe v2 Realtime raggiunge la massima precisione su 99 lingue ed è robusto anche in condizioni audio difficili, con accenti e qualità di registrazione variabili. Supera i modelli precedenti e le principali API nei benchmark pubblici.

Circa 150 ms end-to-end, esclusa la latenza dell’applicazione e della rete. È 3 volte più veloce di GPT-4o Mini Transcribe (500 ms).

Cos’è la latenza negativa / trascrizione predittiva?

Scribe anticipa la prossima parola e la punteggiatura prima che vengano pronunciate. Così le trascrizioni vengono confermate senza attendere silenzi, per un output in tempo reale più fluido.

Quali lingue sono supportate?

Oltre 90 lingue con rilevamento automatico. Il modello gestisce cambi di lingua durante la conversazione senza bisogno di configurazioni.

Quali formati audio sono supportati?

Audio PCM da 8 kHz a 48 kHz e codifica μ-law. Compatibile con fonti telefoniche, browser e studio.

Scribe v2 Realtime supporta la diarizzazione degli speaker?

Non al momento. Per l’identificazione di più speaker, usa Scribe v2 (batch) che supporta fino a 48 speaker.

Qual è il limite di concorrenza?

Oltre 30 stream simultanei nei piani Business. I piani Enterprise includono limiti maggiori. Contatta il team vendite per esigenze di alto volume.

Scribe v2 Realtime è disponibile in ElevenLabs Agents?

Sì. Scribe v2 Realtime è integrato di default nella piattaforma Agents.

Quali certificazioni di conformità sono disponibili?

SOC 2, ISO 27001, PCI DSS Livello 1, HIPAA e GDPR. Modalità zero retention e data residency EU/India disponibili per Enterprise.

API di Speech to Text in tempo reale

Trascrivi parlato dal vivo con Scribe v2 Realtime

Ottieni API key Esplora la documentazione

Scribe v2 Realtime è la trascrizione vocale in tempo reale più precisa, con una latenza di 150 ms in oltre 90 lingue. Disponibile tramite API.

Demo

Codice

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

Progettato per velocità e precisione

Ottieni API key Esplora la documentazione

Ultra-veloce, ultra-preciso e pensato per il parlato dal vivo. Scribe v2 Realtime offre trascrizione istantanea per casi d’uso in tempo reale.

Trascrizione in tempo reale con la massima precisione

Scribe v2 Realtime raggiunge una precisione di trascrizione leader di settore con circa 150 ms di latenza, anche in condizioni audio difficili o con accenti diversi.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Pensato per ogni scenario

Trascrizione che funziona anche in ambienti rumorosi, con musica di sottofondo, accenti marcati e audio di bassa qualità.

Riconoscimento vocale ottimizzato per prestazioni in tempo reale

Basato su Scribe v1, Scribe v2 Realtime garantisce una latenza di circa 150 ms con una precisione rivoluzionaria su accenti, toni e ambienti diversi.

Creato per Agents e app vocali

Scribe v2 Realtime è pensato per sviluppatori che creano agenti conversazionali, assistenti per meeting e applicazioni vocali dove velocità e precisione sono fondamentali.

Posso avere un rimborso?

Certo. Puoi fornire il numero d’ordine?

È EL4543490

Grazie. Ho avviato la procedura di rimborso dell’ordine.

Rimborso completato

Trascrizione predittiva per bassa latenza

Scribe v2 Realtime usa la trascrizione predittiva per anticipare le parole e la punteggiatura più probabili, garantendo precisione in tempo reale.

Scribe

makes

uses

is

has

new

Rilevamento dell'attività vocale

Rileva quando il parlato inizia e finisce, segmentando l’audio in modo preciso per una trascrizione fluida ed efficiente.

Controllo manuale del commit

Dà agli sviluppatori il controllo su quando finalizzare le trascrizioni – ideale per streaming personalizzati e precisione su misura.

Formati audio multipli

Supporta PCM (8–48 kHz) e codifica μ-law per la massima compatibilità tra telefonia, browser e studio.

Modelli ottimizzati per ogni esigenza

Scribe v2 per grandi volumi, Scribe v2 Realtime per casi d’uso a bassa latenza

Scribe v2

Massima precisione, pensato per carichi batch.

Precisione >95%
Oltre 90 lingue
Rilevamento eventi non vocali
Rilevamento entità
Prompting per parole chiave

Scopri di più

Scribe v2 in tempo reale

Latenza minima, per carichi in tempo reale.

Latenza sotto i 150ms
Oltre 90 lingue
Streaming della trascrizione
Rilevamento dell'attività vocale
Riconoscimento automatico della lingua

Scopri di più

Trascrivi parlato in oltre 90 lingue e con tanti accenti diversi

Precisione eccezionale su accenti, dialetti e condizioni di registrazione.

Cambia il languageCode per provare le lingue

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Imposta lingua

  onSessionStarted: () =>
    console.log("Session started"),
  onPartialTranscript: (data) =>
    console.log("Partial:", data.text)
});

Inglese

Cinese

Spagnolo

Francese

Portoghese

Tedesco

Giapponese

Italiano

Hindi

IngleseClicca per ascoltare l’anteprima

Al servizio delle aziende e dei brand leader nel mondo

Scopri le storie dei clienti

“Dai Reel doppiati nelle lingue locali, alla generazione di musica e voci di personaggi in Horizon, la piattaforma ElevenLabs permette a creator, aziende e imprese di tutto il mondo di creare con voce, musica e suoni su larga scala.”
“La precisione di Scribe su così tante lingue permette a Fieldy di capire ogni conversazione quotidiana e di espandersi facilmente in tutto il mondo. Dopo il passaggio a ElevenLabs Scribe, Fieldy ha aumentato la retention degli utenti del 50%.”
“Con ElevenLabs abbiamo integrato rapidamente funzionalità di text-to-speech potenti nel nostro SDK, permettendo agli Agents di rispondere in tempo reale con voci espressive alle domande degli utenti o come feedback su ciò che vedono.”
“Twilio ha integrato la tecnologia di generazione vocale IA di ElevenLabs nel suo CPaaS, migliorando ConversationRelay. Questa integrazione permette a aziende e sviluppatori di creare interazioni vocali IA conversazionali che suonano umane, sono espressive e rispondono in tempo reale direttamente dalla piattaforma Twilio CPaaS. Noi di ElevenLabs siamo entusiasti che Twilio abbia scelto ElevenLabs per rendere ConversationRelay ancora più espressivo e naturale.”

API pronte per la produzione

Prezzi flessibili in base alle tue esigenze

Sperimenta precisione e reattività di livello superiore con prezzi pensati per crescere da startup a team enterprise.

$0,28 all’ora e meno

con i piani Business annuali

Esplora la documentazione

Domande frequenti

Ultimi aggiornamenti

Tutti gli aggiornamenti

API di Speech to Text in tempo reale

Trascrivi parlato dal vivo con Scribe v2 Realtime

Progettato per velocità e precisione