Découvrez Scribe

Rédigé par: Tim von Känel; Flavio Schneider
Publié: 26 févr. 2025

ÉcouterÉcouter cet article

0:00

0:000:00

Scribe, notre premier Speech to Text modèle, est le modèle de transcription le plus précis au monde. Conçu pour gérer l'imprévisibilité de l'audio réel, Scribe transcrit la parole en 99 langues, avec des horodatages au niveau des mots, la diarisation des locuteurs et le marquage des événements audio—le tout livré dans une réponse structurée pour une intégration fluide.

Scribe est conçu pour la précision. Dans les tests de référence FLEURS & Common Voice sur 99 langues, il surpasse constamment les modèles leaders comme Gemini 2.0 Flash, Whisper Large V3 et Deepgram Nova-3. Que ce soit pour des résumés de réunions, des sous-titres de films ou même des paroles de chansons, Scribe offre le taux d'erreur de transcription automatisée le plus bas en italien (98,7 %), en anglais (96,7 %) et dans 97 autres langues.

Scribe rend l'ASR universellement accessible—réduisant considérablement les erreurs dans les langues traditionnellement mal desservies comme le serbe, le cantonais et le malayalam, où les modèles concurrents dépassent souvent 40 % de taux d'erreur.

The world's most accurate ASR model by IIElevenLabs.

Les développeurs peuvent intégrer Scribe dès aujourd'hui via notre API Speech to Text pour obtenir des transcriptions JSON structurées avec diarisation des locuteurs et horodatages au niveau des mots & marqueurs d'événements non vocaux (par exemple, rires). Une version à faible latence pour les applications en temps réel sera bientôt disponible.

Les créateurs et entreprises peuvent utiliser Scribe directement via le tableau de bord ElevenLabs pour télécharger des fichiers audio ou vidéo et générer des transcriptions formatées.

Commencez à créer avec Scribe :

Documentation de l'API | Essayez dans le tableau de bord ElevenLabs