
Lernen Sie Flash kennen
So schnell haben Sie noch nie eine menschliche TTS erlebt
Transkribiere Sprache in Text mit dem genauesten ASR-Modell der Welt
Schreiber, unser erster [Speech to Text] Das Modell ist das genaueste Transkriptionsmodell der Welt. Entwickelt, um mit der Unvorhersehbarkeit von Audio in der realen Welt umzugehen, transkribiert Scribe Sprache in 99 Sprachen und bietet Zeitstempel auf Wortebene, Sprecherdiarisierung und Audioereignis-Tagging – alles in einer strukturierten Antwort für eine nahtlose Integration.
Scribe ist für Präzision konzipiert. In den FLEURS- und Common Voice-Benchmark-Tests in 99 Sprachen übertrifft es konsequent führende Modelle wie Gemini 2.0 Flash, Whisper Large V3 und Deepgram Nova-3. Ob es sich um Besprechungszusammenfassungen, Filmuntertitel oder sogar Songtexte handelt, Scribe bietet die niedrigste automatisierte Transkriptionsfehlerquote in Italienisch (98,7 %), Englisch (96,7 %) und 97 anderen Sprachen.
Scribe macht ASR universell zugänglich – die Fehlerquote in traditionell unterversorgten Sprachen wie Serbisch, Kantonesisch und Malayalam drastisch senkend, wo konkurrierende Modelle oft über 40 % Wortfehlerquoten liegen.
Entwickler können Scribe heute über unsere Sprache-zu-Text-API strukturierte JSON-Transkripte mit Sprecherdiarisierung und Wortzeitstempeln sowie Nicht-Sprechereignismarkierungen (z. B. Lachen) zu erhalten. Eine latenzarme Version für Echtzeitanwendungen wird bald veröffentlicht.
Schöpfer und Unternehmen können Scribe direkt über die ElevenLabs-Dashboard Audio- oder Videodateien hochzuladen und formatierte Transkripte zu erstellen.
Beginnen Sie mit Scribe:
API-Dokumentation $ Versuchen Sie es im ElevenLabs-Dashboard
Forschungsleitung, Ausbildung, Architektur
Flavio Schneider
Projektleiter, Vortrainingsdaten, Feinabstimmungsdaten
Tim von Känel
Schlussfolgerung, Optimierungen
Maximiliano Levi
Forschungsbeiträge
Johan Nordberg, Piotr Dabkowski
Frontend
Austin Malerba
Backend
Hristo Stoychev
Datenakquise
Alex George
So schnell haben Sie noch nie eine menschliche TTS erlebt
Unsere All-in-One-Plattform zum Erstellen anpassbarer, interaktiver Sprachagenten