Scopri Scribe

Scritto da: Tim von Känel; Flavio Schneider
Pubblicato: 26 feb 2025

AscoltaAscolta questo articolo

0:00

0:000:00

Scribe, il nostro primo Speech to Text è il modello di trascrizione più preciso al mondo. Progettato per gestire l’imprevedibilità dell’audio reale, Scribe trascrive la voce in 99 lingue, con timestamp a livello di parola, diarizzazione dei parlanti e riconoscimento degli eventi audio, tutto in una risposta strutturata per un’integrazione semplice.

Scribe è progettato per la massima precisione. Nei benchmark FLEURS e Common Voice su 99 lingue, supera costantemente modelli leader come Gemini 2.0 Flash, Whisper Large V3 e Deepgram Nova-3. Che si tratti di riassunti di riunioni, sottotitoli di film o testi di canzoni, Scribe offre il tasso di errore più basso nella trascrizione automatica in italiano (98,7%), inglese (96,7%) e in altre 97 lingue.

Scribe rende l’ASR accessibile a tutti, riducendo drasticamente gli errori nelle lingue tradizionalmente meno supportate come serbo, cantonese e malayalam, dove altri modelli spesso superano il 40% di errori.

The world's most accurate ASR model by IIElevenLabs.

Gli sviluppatori possono integrare Scribe già da oggi tramite la nostra API Speech to Text per ottenere trascrizioni in JSON strutturato con diarizzazione dei parlanti, timestamp a livello di parola e marcatori di eventi non vocali (ad esempio risate). Una versione a bassa latenza per applicazioni in tempo reale sarà disponibile a breve.

Creator e aziende possono usare Scribe direttamente dal dashboard di ElevenLabs per caricare file audio o video e generare trascrizioni formattate.

Inizia a usare Scribe:

Documentazione API | Provalo nel Dashboard di ElevenLabs

Benchmark

FLEURS - Tasso di errore sulle parole % - 102 lingue

Bar chart comparing word error rates for different languages and speech recognition models.

Common Voice - Tasso di errore sulle parole % - 102 lingue

Bar chart comparing word error rates for different voice recognition models across various countries.

Contributi

Responsabile ricerca, training, architettura

Flavio Schneider

Responsabile progetto, dati di pre-training, dati di fine-tuning

Tim von Känel

Inferenza, ottimizzazioni

Maximiliano Levi

Collaboratori alla ricerca

Johan Nordberg, Piotr Dabkowski

Frontend

Austin Malerba

Backend

Hristo Stoychev

Acquisizione dati

Alex George

Scopri Scribe

Benchmark

FLEURS - Tasso di errore sulle parole % - 102 lingue

Common Voice - Tasso di errore sulle parole % - 102 lingue

Contributi

Articoli simili

Scopri Flash

Presentiamo gli agenti conversazionali IA

Eleven v3 è ora disponibile per tutti

Presentiamo Scribe v2