Présentation de Eleven v3 Alpha

Essayez v3

Découvrez Scribe

Transcrivez la parole en texte avec le modèle ASR le plus précis au monde

Introducing IIscribe V1, the world's most accurate speech-to-text model.

Scribe, notre premier Speech to Text modèle, est le modèle de transcription le plus précis au monde. Conçu pour gérer l'imprévisibilité de l'audio réel, Scribe transcrit la parole en 99 langues, avec des horodatages au niveau des mots, la diarisation des locuteurs et le marquage des événements audio—le tout livré dans une réponse structurée pour une intégration fluide.

Scribe est conçu pour la précision. Dans les tests de référence FLEURS & Common Voice sur 99 langues, il surpasse constamment les modèles leaders comme Gemini 2.0 Flash, Whisper Large V3 et Deepgram Nova-3. Que ce soit pour des résumés de réunions, des sous-titres de films ou même des paroles de chansons, Scribe offre le taux d'erreur de transcription automatisée le plus bas en italien (98,7 %), en anglais (96,7 %) et dans 97 autres langues.

Scribe rend l'ASR universellement accessible—réduisant considérablement les erreurs dans les langues traditionnellement mal desservies comme le serbe, le cantonais et le malayalam, où les modèles concurrents dépassent souvent 40 % de taux d'erreur.

The world's most accurate ASR model by IIElevenLabs.

Les développeurs peuvent intégrer Scribe dès aujourd'hui via notre Speech to Text API pour obtenir des transcriptions JSON structurées avec diarisation des locuteurs et horodatages au niveau des mots & marqueurs d'événements non vocaux (par exemple, rires). Une version à faible latence pour les applications en temps réel sera bientôt disponible.

Les créateurs et entreprises peuvent utiliser Scribe directement via le tableau de bord ElevenLabs pour télécharger des fichiers audio ou vidéo et générer des transcriptions formatées.

Commencez à créer avec Scribe :

Documentation de l'API | Essayez dans le tableau de bord ElevenLabs

Références

FLEURS - Taux d'erreur de mots % - 102 langues

Bar chart comparing word error rates for different languages and speech recognition models.

Common Voice - Taux d'erreur de mots % - 102 langues

Bar chart comparing word error rates for different voice recognition models across various countries.

Contributions

Responsable de la recherche, formation, architecture

Flavio Schneider

Responsable de projet, données de pré-formation, données de réglage fin

Tim von Känel

Inférence, Optimisations

Maximiliano Levi

Contributeurs à la recherche

Johan Nordberg, Piotr Dabkowski

Frontend

Austin Malerba

Backend

Hristo Stoychev

Acquisition de données

Alex George

En voir plus

Recherche
Text on a gray gradient background introducing IIFlash v2.5, highlighting 75ms model latency and support for 32 languages.

Découvrez Flash

Vous n'avez jamais expérimenté un TTS aussi rapide et de type humain

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter