Comparaison de Scribe avec le modèle Speech to Text 4o d’OpenAI

Dernière mise à jour 6 mars 2026 • 5 minutes de lecture

A smiling man with wavy hair and a beard, wearing a denim shirt, in black and white.

Un mois après son lancement, Scribe continue de prouver qu’il est le modèle de speech to text le plus avancé du secteur.

Introducing iScribe v1, the world's most accurate speech-to-text model.

En savoir plus Contactez le service commercial Essai gratuit

En seulement un mois après le lancement, notre modèle speech to text Scribe a séduit des milliers d’entreprises grâce à sa précision inégalée. Des sous-titres médias aux centres d’appels en passant par les transcriptions médicales, Scribe est rapidement devenu le choix préféré des développeurs.

Des performances inégalées

Plusieurs analyses indépendantes ont confirmé nos propres mesures de précision, avec Scribe surpassant tous les modèles, y compris les nouveaux modèles de transcription 4o d’OpenAI. Par exemple, un benchmark réalisé par Analyse artificielle montre que Scribe fait mieux que 4o et 4o mini sur le taux d’erreur de mots, en moyenne :

4o transcribe fait 16 % d’erreurs en plus que Scribe
4o mini transcribe fait 71 % d’erreurs en plus que Scribe

Third party speech to text benchmark from Artificial Analysis shows Scribe is the best model

Scribe surpasse ou égale aussi les modèles de transcription 4o et 4o mini dans le benchmark de lancement d’OpenAI, pour 11 des 15 langues testées. Par exemple, en japonais et en hindi, Scribe fait nettement mieux que les deux modèles 4o d’OpenAI, selon leurs propres benchmarks :

En japonais, le modèle Speech to Text 4o d’OpenAI fait 55 % d’erreurs en plus que Scribe, et 105 % d’erreurs en plus pour leur modèle 4o mini
En hindi, le modèle Speech to Text 4o d’OpenAI fait 18 % d’erreurs en plus que Scribe, et 37 % d’erreurs en plus pour leur modèle 4o mini

Nous avons fait des choix avec Scribe pour qu’il soit le plus utile possible pour nos clients, même si cela peut créer des écarts dans certains benchmarks du secteur. Par exemple :

Scribe transcrit les chiffres comme « un », « deux », « trois », ce qui est plus utile pour les transcriptions, alors que le benchmark FLEURS utilise les chiffres « 1 », « 2 », « 3 », ce qui crée des erreurs
Scribe détecte aussi des mots comme « euh », « ah », « hé », une fonctionnalité utile pour donner plus de contexte, mais ces mots ne sont pas pris en compte dans les benchmarks, ce qui crée là aussi des erreurs artificielles

C’est pourquoi il est utile de regarder les résultats finaux pour évaluer les performances. Par exemple, en anglais, le modèle Speech to Text 4o d’OpenAI a des performances similaires à Scribe dans les benchmarks. Mais comparer les transcriptions anglaises met vraiment en avant les capacités avancées de Scribe.

Comparaison de transcription

Dans cette analyse de transcription d’une audition parlementaire britannique, vous pouvez voir que Scribe ne fait aucune erreur tout en captant correctement les accents, les différents tons de voix et en identifiant les bruits de fond et les rires.

Scribe d’ElevenLabs (Temps de transcription : 4,66 s)

Puis-je demander à l’honorable monsieur quels travaux sont en cours pour rendre ce lieu plus accessible, notamment pour certains de nos collègues en situation de handicap ?Bien dit. (murmures dans la salle)Je suis désolé, c’est sûrement à cause de mon accent antipodéen. Pourrait-il répéter la question, car je ne l’ai pas suivie ?(rires dans la salle) Waouh. Oh, waouh. Très populaire aujourd’hui. Euh, je- je disais que- que plusieurs collègues parlementaires en situation de handicap ont du mal à circuler dans certaines parties du bâtiment. Puisqu’on fait ces travaux de rénovation, que peut-on faire pour que les personnes en situation de handicap puissent se déplacer plus facilement et que le lieu soit accessible ?M. Paul. (rires dans la salle) Je suis vraiment désolé.Pourrait-il le faire très lentement en anglais antipodéen ?Merci. Donnez n’importe quelle réponse. Je- je pense que la réponse... Je pense que la réponse serait plus clairesi vous pouvez répondre par écritquand vous lirez, Monsieur le Président. Très bien, Chris Elmore. (rires)Merci, Monsieur le Vice-Président, je vais essayer du premier coup.(murmures dans la salle) Oh non. Vous êtes gallois. Puis-je- puis-je- puis-je- parce que je suis gallois, alors que Dieu l’aide.

4o d’OpenAI (Temps de transcription : 5,01 s)

Puis-je demander à l’honorable monsieur quels travaux sont en cours pour garantir que ce lieu soit plus accessible, notamment pour certains de nos collègues en situation de handicap ?Désolé, c’est sûrement à cause de mon accent antipodéen. Pourrait-il répéter la question, car je ne l’ai pas suivie ?Eh bien, très populaire aujourd’hui. Je constate que plusieurs collègues parlementaires en situation de handicap ont du mal à circuler dans certaines parties du bâtiment. Puisqu’on fait ces travaux de rénovation, que peut-on faire pour garantir que les personnes en situation de handicap puissent se déplacer plus facilement et que le lieu soit accessible ?Je suis vraiment désolé.Pourriez-vous le faire très lentement en anglais antipodéen ?Je pense que la réponse serait plus clairesi vous pouvez répondre par écritquand vous le lirez.Merci, Monsieur le Vice-Président. Je vais essayer du premier coup.Parce que je suis gallois, alors que Dieu l’aide.

Accessibilité et transcription du bégaiement

À chaque avancée de l’IA, un groupe souvent oublié peut en profiter énormément : les personnes qui bégaient. Le bégaiement, un trouble génétique de la parole qui touche environ 1 % de la population, pose des défis uniques aux systèmes de reconnaissance automatique de la parole (ASR). Dans une étude avec des échantillons où le bégaiement concernait près d’un mot sur quatre, Scribe affiche des performances impressionnantes avec une précision moyenne de 98,7 %. Cela prouve encore une fois que Scribe est en tête du secteur et propose un modèle adapté à tous les besoins des entreprises.

Des solutions pour les entreprises

Les performances de Scribe prennent tout leur sens grâce à ses fonctionnalités pensées pour répondre aux besoins des clients professionnels.

Des timecodes précis au niveau du mot apportent une vraie valeur ajoutée aux créateurs, médias et divertissement, en transformant vos transcriptions en sous-titres, en entrées recherchables et en traductions précises
La diarisation intelligente des intervenants permet de résumer vos réunions, présentations commerciales ou appels de support client pour obtenir des analyses précises et exploitables, et renforcer la collaboration et la formation au sein de votre équipe
Le marquage audio dynamique vous donne plus de contenu et de contexte à partir de votre audio, pour permettre par exemple l’analyse de sentiment
Support de 99 langues, touchez facilement le monde entier avec une seule intégration
Toutes ces fonctionnalités sont disponibles dans notre API, pour permettre aux développeurs de créer sans compromis
Une version streaming en temps réel de Scribe, ainsi qu’une version à faible latence, sont également prévues dans les prochaines semaines. Cela fera de Scribe le modèle Speech to Text le plus avancé jamais créé, couvrant tous vos cas d’usage professionnels, et vous offrant plus de choix et de flexibilité entre vitesse, prix et précision.

Commencez dès aujourd’hui

Essayez Scribe dès maintenant, notre produit web est gratuit jusqu’au 9 avril. Les tarifs de Scribe sont très compétitifs, à partir de 0,22 $/heure pour les clients professionnels. N’hésitez pas à contacter notre équipe commerciale, nous serons ravis d’organiser une démo et de vous montrer comment nous pouvons aider votre entreprise.

Découvrez les articles de l'équipe ElevenLabs

Customer Stories

Tutore deploys conversational agents for corporate language training using ElevenLabs

90% of Tutore’s placement interviews are now conducted by AI agents, accelerating onboarding and reducing costs

Product

Product

Introducing Music Finetunes in ElevenCreative

Generate individual vocals, instruments or full tracks with stylistic consistency using a fine-tuned version of our Music model.

Créez avec l'audio IA de la plus haute qualité

Contactez les ventes Inscrivez-vous