
Scopri Flash
- Categoria
- Ricerca
- Data
Trascrivi l’audio in testo con il modello ASR più preciso al mondo
Scribe, il nostro primo Speech to Text è il modello di trascrizione più preciso al mondo. Progettato per gestire l’imprevedibilità dell’audio reale, Scribe trascrive la voce in 99 lingue, con timestamp a livello di parola, diarizzazione dei parlanti e riconoscimento degli eventi audio, tutto in una risposta strutturata per un’integrazione semplice.
Scribe è progettato per la massima precisione. Nei benchmark FLEURS e Common Voice su 99 lingue, supera costantemente modelli leader come Gemini 2.0 Flash, Whisper Large V3 e Deepgram Nova-3. Che si tratti di riassunti di riunioni, sottotitoli di film o testi di canzoni, Scribe offre il tasso di errore più basso nella trascrizione automatica in italiano (98,7%), inglese (96,7%) e in altre 97 lingue.
Scribe rende l’ASR accessibile a tutti, riducendo drasticamente gli errori nelle lingue tradizionalmente meno supportate come serbo, cantonese e malayalam, dove altri modelli spesso superano il 40% di errori.

Gli sviluppatori possono integrare Scribe già da oggi tramite la nostra API Speech to Text per ottenere trascrizioni in JSON strutturato con diarizzazione dei parlanti, timestamp a livello di parola e marcatori di eventi non vocali (ad esempio risate). Una versione a bassa latenza per applicazioni in tempo reale sarà disponibile a breve.
Creator e aziende possono usare Scribe direttamente dal dashboard di ElevenLabs per caricare file audio o video e generare trascrizioni formattate.
Inizia a usare Scribe:
Documentazione API | Provalo nel Dashboard di ElevenLabs


Responsabile ricerca, training, architettura
Flavio Schneider
Responsabile progetto, dati di pre-training, dati di fine-tuning
Tim von Känel
Inferenza, ottimizzazioni
Maximiliano Levi
Collaboratori alla ricerca
Johan Nordberg, Piotr Dabkowski
Frontend
Austin Malerba
Backend
Hristo Stoychev
Acquisizione dati
Alex George

.webp&w=3840&q=80)

