Entdecken Sie Eleven Music. Erstellen Sie den perfekten Song für jeden Moment.

Mehr erfahren

[SPEECH TO TEXT]

Transkribieren Sie Sprache in Text mit dem weltweit genauesten ASR-Modell

Erzielen Sie mit Scribe branchenführende Transkriptionsgenauigkeit in 99 Sprachen, mit Zeitstempeln auf Zeichenebene, Sprecherdiarisierung und Audio-Event-Tagging – alles in einer strukturierten API-Antwort für eine nahtlose Integration

Sprecher 1
Quick
check-in.
Maple
Street
is
a
mess.
Time
to
fix
it.
Sprecher 2
Totally.
Some
of
those
potholes
could
swallow
a
small
car.
Sprecher 1
Or
a
very
brave
skateboarder.
Sprecher 2
We
start
next
week.
Jonas,
four-week
timeline?
Sprecher 3
Yep,
unless
the
concrete
throws
a
tantrum.
Sprecher 1
I'll
handle
flyers,
maybe
toss
in
a
joke.
"Maple
Street,
soon
less
bumpy."
Sprecher 2
Perfect.
Keep
it
simple
and
positive.
Sprecher 3
And
no
squirrels
on
sight,
please.
Sprecher 1
Agreed.
Let's
roll.
Thanks,
team.

Erleben Sie die umfassende Audio-KI-Plattform

Jedes Wort, perfekt eingefangen

Scribe hört sich jede Nuance an und erfasst jedes Wort mit unübertroffener Präzision. Es bietet Audiotranskription in 99 Sprachen – mit Zeitstempeln auf Zeichenebene, Sprecherdiarisierung und Audioereignis-Tagging – und liefert strukturierte Ergebnisse für eine nahtlose Integration

Leistungsstarke Audio-zu-Text-Funktionen für Ihre App

Verwandeln Sie Ihre Audiodaten in makellosen Text mit Scribe, dem weltweit fortschrittlichsten ASR-Modell (automatische Spracherkennung) mit der einfachsten Sprache-zu-Text-API-Integration

Sirius software interface with gradient color bar, labeled "II Scribe V1," "Gemini 2.0 Flash," and "Whisper Large v3" on a black background.

Branchenführende Genauigkeit

Erreichen Sie Präzision wie nie zuvor – Scribe bietet die branchenweit niedrigste Wortfehlerrate für eine perfekt genaue Transkription

Three glowing, multicolored circular shapes on a black background.

Diarisierung von Smart Speakern

In jedem Gespräch, selbst in den geschäftigsten, unterscheidet und kennzeichnet Scribe intuitiv jeden Sprecher für klare, organisierte Transkripte

Audio level meter with red and white bars, showing levels around 1:00.

Präzise Zeitstempel auf Wortebene

Halten Sie den genauen Moment fest, in dem jedes Wort gesprochen wird. Die detaillierten Zeitstempel von Scribe ermöglichen eine nahtlose Synchronisierung von Untertiteln und interaktive Audioerlebnisse

laughter

Dynamisches Audio-Tagging

Vom Lachen bis zu den Schritten – das Transkriptionsmodell von Scribe markiert jedes Klangereignis und bereichert Ihre Transkripte mit dem vollständigen Kontext Ihres Audiomaterials

99 Languages supported

Globale Sprachunterstützung

Überwinden Sie Sprachbarrieren mit Unterstützung für 99 Sprachen – Scribe schaltet KI-Transkriptionsfunktionen für Sprachen frei, die bisher unerreichbar waren

Entwickler

Integrieren Sie ElevenLabs Scribe

Integrieren Sie das weltweit genaueste Sprache-zu-Text-Modell nahtlos in Ihre Anwendung. Beginnen Sie mit unseren entwicklerfreundlichen Beispielen, die Funktionen wie Diarisierung, Zeitstempel auf Zeichenebene und Audioereignis-Tagging für einwandfreie Transkriptionen vorstellen

FLEURS Benchmark-Leistung

Die Leistung von Scribe V1 ist auf dem FLEURS-Benchmark auf dem neuesten Stand der Technik.

Common Voice Benchmark Leistung

Die Leistung von Scribe V1 ist auf dem Common Voice Benchmark auf dem neuesten Stand der Technik.

Benchmarks

Das genaueste ASR-Modell der Welt, das über 99 Sprachen unterstützt.

Center screen displays a presentation slide titled "The world's most accurate ASR model" by IIElevenLabs, with a gradient bar labeled "II Scribe" and version "V1".

Im Vergleich zu anderen ASR-Modellen bietet Scribe eine Transkriptionsgenauigkeit von über 98 % in wichtigen Sprachen und reduziert gleichzeitig die Fehlerquote in traditionell unterversorgten Sprachen wie Serbisch, Kantonesisch und Malayalam erheblich.

Beginnen Sie mit der kostenlosen Transkription

Preise für Speech-to-Text-Pläne

Schnittstelle

Abrechnung

Kostenlos

0 $/Mon.
Jetzt starten

Inklusive Stunden

Preis pro enthaltene Stunde

Preis pro zusätzliche Stunde

2 Stunden 30 Minuten

Kostenfreie Nutzung erfordert Namensnennung und schließt kommerzielle Lizenzierung aus

Häufig gestellte Fragen

Exzellente Genauigkeit (≤ 5% Wortfehlerrate - WER)
Bulgarisch, Katalanisch, Tschechisch, Dänisch, Niederländisch, Englisch, Finnisch, Französisch, Galicisch, Deutsch, Griechisch, Hindi, Indonesisch, Italienisch, Japanisch, Kannada, Malaiisch, Malayalam, Mazedonisch, Norwegisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch, Slowakisch, Spanisch, Schwedisch, Türkisch, Ukrainisch, Vietnamesisch

Hohe Genauigkeit (>5% bis ≤10% WER)
Bengalisch, Weißrussisch, Bosnisch, Kantonesisch, Estnisch, Filipino, Gujarati, Ungarisch, Kasachisch, Lettisch, Litauisch, Mandarin, Marathi, Nepali, Odia, Persisch, Slowenisch, Tamil, Telugu

Gut (>10% bis ≤25% WER)
Afrikaans, Arabisch, Armenisch, Assamesisch, Asturisch, Aserbaidschanisch, Burmesisch, Cebuano, Kroatisch, Georgisch, Hausa, Hebräisch, Isländisch, Javanisch, Kabuverdianu, Koreanisch, Kirgisisch, Lingala, Maltesisch, Mongolisch, Māori, Okzitanisch, Punjabi, Sindhi, Suaheli, Tadschikisch, Thailändisch, Urdu, Usbekisch, Walisisch

Moderat (>25% bis ≤50% WER)
Amharisch, Chichewa, Fulah, Ganda, Igbo, Irisch, Khmer, Kurdisch, Lao, Luxemburgisch, Luo, Nördliches Sotho, Paschtu, Shona, Somali, Umbundu, Wolof, Xhosa, Zulu

Speech-to-Text (STT) ist eine Technologie, die gesprochene Sprache mithilfe automatischer Spracherkennung (ASR) in geschriebenen Text umwandelt. Sie verarbeitet Audiosignale, identifiziert Sprachmuster und transkribiert sie mit hoher Genauigkeit in Text. Die KI-gestützte Speech-to-Text-Software von ElevenLabs ist darauf ausgelegt, Audio- und Videoinhalte mit menschlicher Präzision zu transkribieren, was sie ideal für Voice-to-Text-Umwandlung, Audiotranskription und Echtzeit-Spracherkennung macht. Speech-to-Text-Technologie wird verwendet für: ✔ Audio-zu-Text-Transkription für Podcasts, Meetings und Interviews. ✔ Untertitel und Bildunterschriften in Videoinhalten. ✔ Voice-to-Text-Software für freihändiges Tippen und Barrierefreiheitswerkzeuge. ElevenLabs ASR bietet schnelle, zuverlässige und hochpräzise Speech-to-Text-Umwandlung für mehrere Sprachen und Akzente.

ElevenLabs bietet Videotranskription, um gesprochene Dialoge in Textformat umzuwandeln, was die Erstellung von Untertiteln, Bildunterschriften und durchsuchbaren Transkripten erleichtert. Schritte zur Transkription von Video in Text: 1. Laden Sie Ihre Videodatei in ElevenLabs ASR hoch 2. Die Spracherkennungstechnologie verarbeitet das Audio 3. Ein Transkript wird automatisch mit Zeitstempeln erstellt 4. Laden Sie die Textdatei herunter oder exportieren Sie Untertitel zur Bearbeitung. Dieses KI-gestützte Videotranskriptionsmodell hilft Content-Erstellern, Unternehmen und Pädagogen, Videosprache schnell in präzisen Text für Barrierefreiheit und Content-Wiederverwendung umzuwandeln.

Scribe funktioniert derzeit gut für Anwendungsfälle, bei denen das Eingangs-Audio im Voraus verfügbar ist. Eine Version mit niedriger Latenz für Echtzeit wird bald veröffentlicht.

Ab $0,40 pro Stunde transkribierten Audios, bei größeren Mengen deutlich günstiger mit Enterprise-Plänen.

Aktuelle Anleitungen & How-To's zu Speech-to-Text

Forschung
Introducing IIscribe V1, the world's most accurate speech-to-text model.

Treffen Sie Scribe

Autoren
A young man with short brown hair, smiling, wearing a dark patterned shirt and a blazer.
A man standing on a beach with rows of blue umbrellas and a hillside town in the background.
Ressourcen
A close-up of a professional microphone in a recording studio with audio equipment in the background.

Beste Speech-to-Text-Apps 2025

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden