Direkt zum Inhalt

Scribe im Vergleich zum OpenAI 4o Sprache-zu-Text-Modell

Einen Monat nach dem Start bestätigt Scribe weiterhin, das fortschrittlichste Sprache-zu-Text-Modell der Branche zu sein.

Introducing iScribe v1, the world's most accurate speech-to-text model.

In nur einem Monat nach dem Start hat unser Sprache-zu-Text-Modell Scribe mit seiner führenden Genauigkeit bereits Tausende Unternehmen überzeugt. Von Medien-Untertiteln über Callcenter bis hin zu medizinischen Transkriptionen – Scribe ist schnell zum bevorzugten Modell für Entwickler geworden.

Branchenführende Leistung

Mehrere unabhängige Analysen bestätigen unsere eigenen Genauigkeits-Benchmarks: Scribe übertrifft alle Modelle, einschließlich der neuen 4o-Transkriptionsmodelle von OpenAI. Ein Benchmark von Artificial Analysis zeigt, dass Scribe sowohl 4o als auch 4o mini beim Word Error Rate deutlich übertrifft, im Durchschnitt:

  • 4o transcribe macht 16 % mehr Fehler als Scribe
  • 4o mini transcribe macht 71 % mehr Fehler als Scribe
Third party speech to text benchmark from Artificial Analysis
Third party speech to text benchmark from Artificial Analysis shows Scribe is the best model

Scribe übertrifft oder liegt gleichauf mit den 4o- und 4o mini-Transkriptionsmodellen in OpenAIs eigenen Benchmarks für 11 von 15 getesteten Sprachen. Zum Beispiel bei Japanisch und Hindi ist Scribe in OpenAIs eigenen Tests beiden 4o-Modellen deutlich überlegen:

  • Im Japanischen macht das OpenAI 4o Sprache-zu-Text-Modell 55 % mehr Fehler als Scribe, beim 4o mini sind es sogar 105 % mehr Fehler
  • Im Hindi macht das OpenAI 4o Sprache-zu-Text-Modell 18 % mehr Fehler als Scribe, beim 4o mini sind es 37 % mehr Fehler

Wir haben Scribe so entwickelt, dass es für Kunden möglichst nützlich ist – auch wenn das zu Abweichungen in Branchen-Benchmarks führen kann. Zum Beispiel:

  1. Scribe erkennt Zahlen als „eins“, „zwei“, „drei“, was für Transkripte hilfreicher ist. Der FLEURS-Benchmark nutzt jedoch die Ziffern „1“, „2“, „3“, was zu Fehlern führt.
  2. Scribe erkennt Wörter wie „äh“, „hm“, „hey“ – ein weiteres nützliches Feature, um mehr Kontext zu liefern. Diese Wörter sind jedoch nicht Teil der Benchmarks, was erneut zu künstlichen Fehlern führt.

Deshalb ist es sinnvoll, die Endergebnisse zu betrachten, wenn es um Leistung geht. Im Englischen etwa ist das OpenAI 4o Sprache-zu-Text-Modell in Benchmarks ähnlich stark wie Scribe. Ein Vergleich der englischen Transkripte zeigt jedoch deutlich die fortschrittlichen Fähigkeiten von Scribe.

Transkriptvergleich

In dieser Transkriptanalyse einer britischen Parlamentsanhörung sehen Sie, wie Scribe keine Fehler macht, Akzente und verschiedene Stimmfarben korrekt erfasst und Hintergrundgeräusche sowie Lachen richtig kennzeichnet.

Scribe von ElevenLabs (Erstellungszeit des Transkripts: 4,66 s)

Darf ich den ehrenwerten Herrn fragen, welche Maßnahmen ergriffen werden, um diesen Ort barrierefreier zu machen, insbesondere für einige unserer Kollegen mit Behinderung?Zustimmung. (Gemurmel im Publikum) Entschuldigung, das liegt wohl an meinem antipodischen Hintergrund. Könnte er die Frage bitte wiederholen? Ich habe sie nicht verstanden.(Publikum lacht) Wow. Oh, wow. Heute sehr beliebt. Ähm, ich- ich wollte sagen, dass- dass einige Parlamentskollegen mit Behinderung es ziemlich schwer haben, sich in bestimmten Bereichen des Gebäudes zu bewegen. Da wir gerade renovieren, was kann getan werden, damit Menschen mit Behinderung sich freier bewegen können und der Ort barrierefrei wird?Herr Paul. (Publikum lacht) Es tut mir wirklich leid. Könnte er es bitte ganz langsam auf Antipodisch-Englisch sagen? Danke. Geben Sie einfach irgendeine Antwort. Ich denke, die Antwort... Ich denke, die Antwort könnte helfen, wenn Sie schriftlich antworten wenn Sie lesen, Herr Präsident. Gut, Chris Elmore. (lacht) Danke, Herr Vizepräsident, ich versuche es gleich beim ersten Mal.(Gemurmel im Publikum) Oh nein. Sie sind Waliser. Kann ich- kann ich- kann ich- weil ich Waliser bin,, möge Gott ihm helfen.

OpenAI 4o (Erstellungszeit des Transkripts: 5,01 s)

Darf ich den ehrenwerten Herrn fragen, welche Maßnahmen ergriffen werden, um diesen Ort barrierefreier zu machen, insbesondere für einige unserer Kollegen mit Behinderung?Entschuldigung, das liegt wohl an meinem antipodischen Hintergrund. Könnte er die Frage bitte wiederholen? Ich habe sie nicht verstanden.Nun, heute sehr beliebt. Ich sehe, dass einige Parlamentskollegen mit Behinderung es ziemlich schwer haben, sich in bestimmten Bereichen des Gebäudes zu bewegen. Da wir gerade renovieren, was kann getan werden, damit Menschen mit Behinderung sich freier bewegen können und der Ort barrierefrei wird?Es tut mir wirklich leid. Könnten Sie es bitte ganz langsam auf Antipodisch-Englisch sagen?Ich denke, die Antwort könnte helfen, wenn Sie schriftlich antworten wenn Sie es lesen.Danke, Herr Vizepräsident. Ich versuche es gleich beim ersten Mal.Weil ich Waliser bin, möge Gott ihm helfen.

Barrierefreiheit bei Stotter-Transkription

Mit jedem Fortschritt in der KI profitiert eine oft übersehene Gruppe besonders: Menschen, die stottern. Stottern ist eine genetische Sprachstörung, die etwa 1 % der Bevölkerung betrifft und automatische Spracherkennungssysteme (ASR) vor besondere Herausforderungen stellt. In einer Studie mit Testproben, bei denen in fast jedem vierten Wort gestottert wurde, erreichte Scribe eine durchschnittliche Genauigkeit von 98,7 %. Das zeigt erneut, dass Scribe die Branche anführt und ein Modell für alle Unternehmensanforderungen bietet.

Lösungen für Unternehmen

Die Leistungsfähigkeit von Scribe zeigt sich besonders durch Funktionen, die gezielt auf die Anforderungen von Unternehmenskunden zugeschnitten sind.

  • Präzise Wort-Zeitstempel bieten großen Mehrwert für Creator, Medien und Entertainment: Ihre Transkripte werden zu Untertiteln, durchsuchbaren Einträgen und präzisen Übersetzungen.
  • Intelligente Sprecher-Diarisation ermöglicht es, Meetings, Verkaufsgespräche oder Support-Anrufe zusammenzufassen, um präzise und umsetzbare Erkenntnisse zu gewinnen und die Zusammenarbeit sowie das Training im Team zu verbessern.
  • Dynamisches Audio-Tagging liefert mehr Inhalt und Kontext aus Ihren Audiodaten, zum Beispiel für Sentiment-Analysen.
  • Unterstützung für 99 Sprachen – erreichen Sie die Welt mit nur einer Integration.
  • Alle diese Funktionen sind über unsere API verfügbar, sodass Entwickler ohne Kompromisse arbeiten können.
  • Eine Echtzeit-Streaming-Version von Scribe sowie eine Variante mit niedriger Latenz sind in den kommenden Wochen geplant. Damit wird Scribe das fortschrittlichste Sprache-zu-Text-Modell für alle geschäftlichen Anwendungsfälle und bietet Ihnen mehr Auswahl und Flexibilität zwischen Geschwindigkeit, Preis und Genauigkeit.

Jetzt starten

Scribe jetzt testen, unser Web-Produkt ist bis zum 9. April kostenlos. Die Preise für Scribe sind sehr wettbewerbsfähig und beginnen für Unternehmenskunden ab 0,22 $/Stunde. Kontaktieren Sie gerne unser Vertriebsteam, wir richten gerne eine Demo ein und zeigen Ihnen, wie wir Ihr Unternehmen unterstützen können.

Entdecken Sie Artikel des ElevenLabs-Teams

Developer
ElevenLabs Skills

ElevenLabs Agent Skills

We’re introducing ElevenLabs Agent Skills, a collection of agent skills to enable you to build faster with ElevenLabs.

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden