
Découvrez Flash
Vous n'avez jamais expérimenté un TTS aussi rapide et de type humain
Présentation de Eleven v3 Alpha
Essayez v3Transcrivez la parole en texte avec le modèle ASR le plus précis au monde
Scribe, notre premier Speech to Text modèle, est le modèle de transcription le plus précis au monde. Conçu pour gérer l'imprévisibilité de l'audio réel, Scribe transcrit la parole en 99 langues, avec des horodatages au niveau des mots, la diarisation des locuteurs et le marquage des événements audio—le tout livré dans une réponse structurée pour une intégration fluide.
Scribe est conçu pour la précision. Dans les tests de référence FLEURS & Common Voice sur 99 langues, il surpasse constamment les modèles leaders comme Gemini 2.0 Flash, Whisper Large V3 et Deepgram Nova-3. Que ce soit pour des résumés de réunions, des sous-titres de films ou même des paroles de chansons, Scribe offre le taux d'erreur de transcription automatisée le plus bas en italien (98,7 %), en anglais (96,7 %) et dans 97 autres langues.
Scribe rend l'ASR universellement accessible—réduisant considérablement les erreurs dans les langues traditionnellement mal desservies comme le serbe, le cantonais et le malayalam, où les modèles concurrents dépassent souvent 40 % de taux d'erreur.
Les développeurs peuvent intégrer Scribe dès aujourd'hui via notre Speech to Text API pour obtenir des transcriptions JSON structurées avec diarisation des locuteurs et horodatages au niveau des mots & marqueurs d'événements non vocaux (par exemple, rires). Une version à faible latence pour les applications en temps réel sera bientôt disponible.
Les créateurs et entreprises peuvent utiliser Scribe directement via le tableau de bord ElevenLabs pour télécharger des fichiers audio ou vidéo et générer des transcriptions formatées.
Commencez à créer avec Scribe :
Documentation de l'API | Essayez dans le tableau de bord ElevenLabs
Responsable de la recherche, formation, architecture
Flavio Schneider
Responsable de projet, données de pré-formation, données de réglage fin
Tim von Känel
Inférence, Optimisations
Maximiliano Levi
Contributeurs à la recherche
Johan Nordberg, Piotr Dabkowski
Frontend
Austin Malerba
Backend
Hristo Stoychev
Acquisition de données
Alex George
Vous n'avez jamais expérimenté un TTS aussi rapide et de type humain
Notre plateforme tout-en-un pour créer des agents vocaux interactifs et personnalisables