Salta al contenuto

API di Speech to Text in tempo reale

Trascrivi parlato dal vivo con Scribe v2 Realtime

Scribe v2 Realtime è la trascrizione vocale in tempo reale più precisa, con una latenza di 150 ms in oltre 90 lingue. Disponibile tramite API.

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

Progettato per velocità e precisione

Ultra-veloce, ultra-preciso e pensato per il parlato dal vivo. Scribe v2 Realtime offre trascrizione istantanea per casi d’uso in tempo reale.

Scribe v2 Realtime raggiunge una precisione di trascrizione leader di settore con circa 150 ms di latenza, anche in condizioni audio difficili o con accenti diversi.

Trascrizione in tempo reale con la massima precisione

Scribe v2 Realtime raggiunge una precisione di trascrizione leader di settore con circa 150 ms di latenza, anche in condizioni audio difficili o con accenti diversi.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Pensato per ogni scenario

Trascrizione che funziona anche in ambienti rumorosi, con musica di sottofondo, accenti marcati e audio di bassa qualità.

Riconoscimento vocale ottimizzato per prestazioni in tempo reale

Basato su Scribe v1, Scribe v2 Realtime garantisce una latenza di circa 150 ms con una precisione rivoluzionaria su accenti, toni e ambienti diversi.

Posso avere un rimborso?
Certo. Puoi fornire il numero d’ordine?
È EL4543490
Grazie. Ho avviato la procedura di rimborso dell’ordine.
Rimborso completato

Creato per Agents e app vocali

Scribe v2 Realtime è pensato per sviluppatori che creano agenti conversazionali, assistenti per meeting e applicazioni vocali dove velocità e precisione sono fondamentali.

Scribe
makes
uses
is
has
new

Trascrizione predittiva per bassa latenza

Scribe v2 Realtime usa la trascrizione predittiva per anticipare le parole e la punteggiatura più probabili, garantendo precisione in tempo reale.

Rilevamento dell'attività vocale

Rileva quando il parlato inizia e finisce, segmentando l’audio in modo preciso per una trascrizione fluida ed efficiente.

Controllo manuale del commit

Dà agli sviluppatori il controllo su quando finalizzare le trascrizioni – ideale per streaming personalizzati e precisione su misura.

Formati audio multipli

Supporta PCM (8–48 kHz) e codifica μ-law per la massima compatibilità tra telefonia, browser e studio.

Modelli ottimizzati per ogni esigenza

Scribe v2 per grandi volumi, Scribe v2 Realtime per casi d’uso a bassa latenza

Black Mountain

Scribe v2

Massima precisione, pensato per carichi batch.

  • Precisione >95%
  • Oltre 90 lingue
  • Rilevamento eventi non vocali
  • Rilevamento entità
  • Prompting per parole chiave
Mountains

Scribe v2 Realtime

Latenza minima, per carichi in tempo reale.

  • Latenza sotto i 150ms
  • Oltre 90 lingue
  • Streaming della trascrizione
  • Rilevamento dell'attività vocale
  • Riconoscimento automatico della lingua

Trascrivi parlato in oltre 90 lingue e con tanti accenti diversi

Precisione eccezionale su accenti, dialetti e condizioni di registrazione.

Cambia il languageCode per provare le lingue

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Imposta lingua onSessionStarted: () => console.log("Session started"), onPartialTranscript: (data) => console.log("Partial:", data.text) });
Flag for en
Inglese
Flag for zh
Cinese
Flag for es
Spagnolo
Flag for fr
Francese
Flag for pt
Portoghese
Flag for de
Tedesco
Flag for ja
Giapponese
Flag for it
Italiano
Flag for hi
Hindi
Flag for en
IngleseClicca per ascoltare l’anteprima

Al servizio delle aziende e dei brand leader nel mondo

  • Dai Reel doppiati nelle lingue locali, alla generazione di musica e voci di personaggi in Horizon, la piattaforma ElevenLabs permette a creator, aziende e imprese di tutto il mondo di creare con voce, musica e suoni su larga scala.
    Meta Color Logo
  • La precisione di Scribe su così tante lingue permette a Fieldy di capire ogni conversazione quotidiana e di espandersi facilmente in tutto il mondo. Dopo il passaggio a ElevenLabs Scribe, Fieldy ha aumentato la retention degli utenti del 50%.
    Fieldy logo
  • Con ElevenLabs abbiamo integrato rapidamente funzionalità di text-to-speech potenti nel nostro SDK, permettendo agli Agents di rispondere in tempo reale con voci espressive alle domande degli utenti o come feedback su ciò che vedono.
    Stream Color Logo
  • Twilio ha integrato la tecnologia di generazione vocale IA di ElevenLabs nel suo CPaaS, migliorando ConversationRelay. Questa integrazione permette a aziende e sviluppatori di creare interazioni vocali IA conversazionali che suonano umane, sono espressive e rispondono in tempo reale direttamente dalla piattaforma Twilio CPaaS. Noi di ElevenLabs siamo entusiasti che Twilio abbia scelto ElevenLabs per rendere ConversationRelay ancora più espressivo e naturale.
    Twilio logo

API pronte per la produzione

Foreground

Prezzi flessibili in base alle tue esigenze

Sperimenta precisione e reattività di livello superiore con prezzi pensati per crescere da startup a team enterprise.

$0,28 all’ora e meno

con i piani Business annuali

UI Screenshot

Domande frequenti

Ultimi aggiornamenti

La piattaforma audio IA più realistica