Passer au contenu

Comparaison de Scribe avec le modèle Speech to Text 4o d’OpenAI

Un mois après son lancement, Scribe continue de prouver qu’il est le modèle de speech to text le plus avancé du secteur.

Introducing iScribe v1, the world's most accurate speech-to-text model.

En seulement un mois après le lancement, notre modèle speech to text Scribe a séduit des milliers d’entreprises grâce à sa précision inégalée. Des sous-titres médias aux centres d’appels en passant par les transcriptions médicales, Scribe est rapidement devenu le choix préféré des développeurs.

Des performances inégalées

Plusieurs analyses indépendantes ont confirmé nos propres mesures de précision, avec Scribe surpassant tous les modèles, y compris les nouveaux modèles de transcription 4o d’OpenAI. Par exemple, un benchmark réalisé par Artificial Analysis montre que Scribe fait mieux que 4o et 4o mini sur le taux d’erreur de mots, en moyenne :

  • 4o transcribe fait 16 % d’erreurs en plus que Scribe
  • 4o mini transcribe fait 71 % d’erreurs en plus que Scribe
Third party speech to text benchmark from Artificial Analysis
Third party speech to text benchmark from Artificial Analysis shows Scribe is the best model

Scribe surpasse ou égale aussi les modèles de transcription 4o et 4o mini dans le benchmark de lancement d’OpenAI, pour 11 des 15 langues testées. Par exemple, en japonais et en hindi, Scribe fait nettement mieux que les deux modèles 4o d’OpenAI, selon leurs propres benchmarks :

  • En japonais, le modèle Speech to Text 4o d’OpenAI fait 55 % d’erreurs en plus que Scribe, et 105 % d’erreurs en plus pour leur modèle 4o mini
  • En hindi, le modèle Speech to Text 4o d’OpenAI fait 18 % d’erreurs en plus que Scribe, et 37 % d’erreurs en plus pour leur modèle 4o mini

Nous avons fait des choix avec Scribe pour qu’il soit le plus utile possible pour nos clients, même si cela peut créer des écarts dans certains benchmarks du secteur. Par exemple :

  1. Scribe transcrit les chiffres comme « un », « deux », « trois », ce qui est plus utile pour les transcriptions, alors que le benchmark FLEURS utilise les chiffres « 1 », « 2 », « 3 », ce qui crée des erreurs
  2. Scribe détecte aussi des mots comme « euh », « ah », « hé », une fonctionnalité utile pour donner plus de contexte, mais ces mots ne sont pas pris en compte dans les benchmarks, ce qui crée là aussi des erreurs artificielles

C’est pourquoi il est utile de regarder les résultats finaux pour évaluer les performances. Par exemple, en anglais, le modèle Speech to Text 4o d’OpenAI a des performances similaires à Scribe dans les benchmarks. Mais comparer les transcriptions anglaises met vraiment en avant les capacités avancées de Scribe.

Comparaison de transcription

Dans cette analyse de transcription d’une audition parlementaire britannique, vous pouvez voir que Scribe ne fait aucune erreur tout en captant correctement les accents, les différents tons de voix et en identifiant les bruits de fond et les rires.

Scribe d’ElevenLabs (Temps de transcription : 4,66 s)

Puis-je demander à l’honorable monsieur quels travaux sont en cours pour rendre ce lieu plus accessible, notamment pour certains de nos collègues en situation de handicap ?Bien dit. (murmures dans la salle)Je suis désolé, c’est sûrement à cause de mon accent antipodéen. Pourrait-il répéter la question, car je ne l’ai pas suivie ?(rires dans la salle) Waouh. Oh, waouh. Très populaire aujourd’hui. Euh, je- je disais que- que plusieurs collègues parlementaires en situation de handicap ont du mal à circuler dans certaines parties du bâtiment. Puisqu’on fait ces travaux de rénovation, que peut-on faire pour que les personnes en situation de handicap puissent se déplacer plus facilement et que le lieu soit accessible ?M. Paul. (rires dans la salle) Je suis vraiment désolé.Pourrait-il le faire très lentement en anglais antipodéen ?Merci. Donnez n’importe quelle réponse. Je- je pense que la réponse... Je pense que la réponse serait plus clairesi vous pouvez répondre par écritquand vous lirez, Monsieur le Président. Très bien, Chris Elmore. (rires)Merci, Monsieur le Vice-Président, je vais essayer du premier coup.(murmures dans la salle) Oh non. Vous êtes gallois. Puis-je- puis-je- puis-je- parce que je suis gallois, alors que Dieu l’aide.

4o d’OpenAI (Temps de transcription : 5,01 s)

Puis-je demander à l’honorable monsieur quels travaux sont en cours pour garantir que ce lieu soit plus accessible, notamment pour certains de nos collègues en situation de handicap ?Désolé, c’est sûrement à cause de mon accent antipodéen. Pourrait-il répéter la question, car je ne l’ai pas suivie ?Eh bien, très populaire aujourd’hui. Je constate que plusieurs collègues parlementaires en situation de handicap ont du mal à circuler dans certaines parties du bâtiment. Puisqu’on fait ces travaux de rénovation, que peut-on faire pour garantir que les personnes en situation de handicap puissent se déplacer plus facilement et que le lieu soit accessible ?Je suis vraiment désolé.Pourriez-vous le faire très lentement en anglais antipodéen ?Je pense que la réponse serait plus clairesi vous pouvez répondre par écritquand vous le lirez.Merci, Monsieur le Vice-Président. Je vais essayer du premier coup.Parce que je suis gallois, alors que Dieu l’aide.

Accessibilité et transcription du bégaiement

À chaque avancée de l’IA, un groupe souvent oublié peut en profiter énormément : les personnes qui bégaient. Le bégaiement, un trouble génétique de la parole qui touche environ 1 % de la population, pose des défis uniques aux systèmes de reconnaissance automatique de la parole (ASR). Dans une étude avec des échantillons où le bégaiement concernait près d’un mot sur quatre, Scribe affiche des performances impressionnantes avec une précision moyenne de 98,7 %. Cela prouve encore une fois que Scribe est en tête du secteur et propose un modèle adapté à tous les besoins des entreprises.

Des solutions pour les entreprises

Les performances de Scribe prennent tout leur sens grâce à ses fonctionnalités pensées pour répondre aux besoins des clients professionnels.

  • Des timecodes précis au niveau du mot apportent une vraie valeur ajoutée aux créateurs, médias et divertissement, en transformant vos transcriptions en sous-titres, en entrées recherchables et en traductions précises
  • La diarisation intelligente des intervenants permet de résumer vos réunions, présentations commerciales ou appels de support client pour obtenir des analyses précises et exploitables, et renforcer la collaboration et la formation au sein de votre équipe
  • Le marquage audio dynamique vous donne plus de contenu et de contexte à partir de votre audio, pour permettre par exemple l’analyse de sentiment
  • Support de 99 langues, touchez facilement le monde entier avec une seule intégration
  • Toutes ces fonctionnalités sont disponibles dans notre API, pour permettre aux développeurs de créer sans compromis
  • Une version streaming en temps réel de Scribe, ainsi qu’une version à faible latence, sont également prévues dans les prochaines semaines. Cela fera de Scribe le modèle Speech to Text le plus avancé jamais créé, couvrant tous vos cas d’usage professionnels, et vous offrant plus de choix et de flexibilité entre vitesse, prix et précision.

Commencez dès aujourd’hui

Essayez Scribe dès maintenant, notre produit web est gratuit jusqu’au 9 avril. Les tarifs de Scribe sont très compétitifs, à partir de 0,22 $/heure pour les clients professionnels. N’hésitez pas à contacter notre équipe commerciale, nous serons ravis d’organiser une démo et de vous montrer comment nous pouvons aider votre entreprise.

Découvrez les articles de l'équipe ElevenLabs

Company
Audi Revolut F1 Team Headset w/ ElevenLabs Logo

We are on the grid

ElevenLabs is an official partner of Audi Revolut F1 Team

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter