Was ist die ElevenLabs Bulk Transcription API?

Die Bulk Transcription API ist Teil von Scribe, unserem Speech to Text-System für großvolumige Audio- und Videotranskription. Sie ermöglicht es Entwicklern und Unternehmen, stundenlange Aufnahmen mit höchster Genauigkeit in 99 Sprachen zu verarbeiten.

Welche Audio- und Videodateien kann ich hochladen?

Scribe unterstützt alle gängigen Formate, darunter MP4, MOV, MP3, WAV und weitere.

Wie genau ist Scribe bei der Massen-Transkription?

Scribe v2 erreicht branchenführende Genauigkeit in 99 Sprachen und ist robust gegenüber schwierigen Audioverhältnissen, Akzenten und Aufnahmequalität. Übertrifft Vorgängermodelle und andere führende APIs in öffentlichen Benchmarks.

Wie lange dauert die Transkription großer Dateien?

Die Verarbeitungszeit hängt von Dateilänge und Parallelisierung ab. Scribe ist auf hohen Durchsatz optimiert und verarbeitet große Mengen mit hoher Parallelität – Transkripte werden in Sekunden bis Minuten geliefert.

Unterstützt Scribe Sprechertrennung und Zeitstempel?

Ja. Die API bietet intelligente Sprechertrennung, Zeitstempel auf Wort- und Zeichenebene sowie dynamisches Audio-Tagging für Nicht-Sprachereignisse wie Lachen oder Musik.

Kann ich das Modell für fachspezifische Begriffe anpassen?

Ja. Sie können eigene Vokabulare definieren, um die korrekte Transkription von Produktnamen, Fachbegriffen oder Markenausdrücken mit Schlüsselbegriff-Steuerung sicherzustellen.

Ist die Bulk Transcription API sicher und konform?

Scribe unterstützt SOC 2, DSGVO und optional HIPAA-Konformität. Daten werden während der Übertragung und Speicherung verschlüsselt. Teams können EU-Datenresidenz oder Zero Retention-Modus für strengere Kontrolle aktivieren.

Wie wird die Bulk Transcription API abgerechnet?

Die Abrechnung erfolgt nutzungsbasiert pro Minute Eingangsaudio. Mengenrabatte und Enterprise-Pläne für große Volumen verfügbar. Kontaktieren Sie unser Vertriebsteam, um Ihre Anforderungen zu besprechen.

Wie kann ich starten?

Sie können sofort mit der Transkription starten, indem Sie einen API-Schlüssel generieren und die API-Dokumentation nutzen.

Speech to Text API

Spracherkennung mit ElevenLabs Scribe v2

API-Schlüssel erhalten Dokumentation entdecken

Höchste Genauigkeit bei Speech to Text für große Anwendungen. Erkennt Betonungen und Soundeffekte und ermöglicht gezielte Transkription mit Keyterm Prompting.

Demo

Code

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

Präziseste Speech to Text API für Batch-Verarbeitung

API-Schlüssel erhalten Dokumentation entdecken

Erstellen Sie Untertitel, Transkripte und bearbeitbare Mitschriften für Podcasts, Videos, Interviews und andere Aufnahmen – alles mit branchenführender Genauigkeit per API.

Transkriptionsgenauigkeit auf neuem Niveau

Scribe v2 erreicht branchenführende Transkriptionsgenauigkeit und liefert sauberen, bearbeitbaren Text – auch bei schwierigen Audioverhältnissen oder verschiedenen Akzenten.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Für jeden Anwendungsfall entwickelt

Transkription funktioniert auch bei Hintergrundgeräuschen, Musik, starken Akzenten und niedriger Audioqualität.

Fein abgestimmte Kontrolle über Timing, Sprecher und Nicht-Sprachereignisse.

Die ElevenLabs Transcription API erkennt Lachen, Emotionen und Soundeffekte. Nutzen Sie Keyterm Prompting, um die Transkription mit fachspezifischen Begriffen zu steuern.

Audio und Video transkribieren

Laden Sie MP3, MP4, WAV, MOV und andere gängige Formate hoch. Scribe verarbeitet Dateien bis zu 10 Stunden mit asynchroner Verarbeitung und Webhook-Benachrichtigungen für große Mengen.

Saubere, bearbeitbare Transkripte

Erhalten Sie korrekt strukturierte Texte mit Interpunktion und Absätzen – bereit zum Bearbeiten, Veröffentlichen oder zur Weiterverarbeitung. Keine Nachbearbeitung nötig.

Keyterm Prompting

Verbessern Sie die Erkennungsgenauigkeit für bis zu 100 fachspezifische Begriffe. Produktnamen, Fachbegriffe und Spezialvokabular werden direkt korrekt transkribiert.

Dynamisches Audio-Tagging

Erfassen Sie Nicht-Sprachereignisse wie Lachen, Applaus, Musik und Hintergrundgeräusche. Transkripte enthalten den vollständigen Kontext Ihrer Audiodatei, nicht nur die gesprochenen Worte.

Intelligente Sprecher-Diarisierung

Erkennen und kennzeichnen Sie automatisch bis zu 48 Sprecher. Klare Zuordnung, wer was gesagt hat, übersichtlich in lesbaren Transkripten.

Entitätenerkennung

Erkennen und markieren Sie automatisch 56 Entitätentypen, darunter Namen, Daten, Orte und Organisationen in Ihren Transkripten.

Scribe v2

Höchste Genauigkeit, optimiert für Batch-Verarbeitung.

>95 % Genauigkeit
90+ Sprachen
Erkennung von Nicht-Sprachereignissen
Entitätenerkennung
Keyterm Prompting

Mehr erfahren

Scribe v2 Echtzeit

Niedrigste Latenz, für Echtzeitanwendungen.

Unter 150 ms Latenz
90+ Sprachen
Transkriptions-Streaming
Sprachaktivitätserkennung
Automatische Spracherkennung

Mehr erfahren

Transkribieren Sie Sprache in über 90 Sprachen und zahlreichen Akzenten

Zuverlässige Genauigkeit über Akzente, Dialekte und Aufnahmebedingungen hinweg.

Ändern Sie den languageCode, um Sprachen zu testen

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Sprache festlegen
	  diarize: true
	});

console.log(transcription);

Englisch

Chinesisch

Spanisch

Französisch

Portugiesisch

Deutsch

Japanisch

Italienisch

Hindi

EnglischZum Vorschau klicken

Im Einsatz bei führenden Unternehmen und Marken weltweit

Kundenberichte ansehen

“Von der Synchronisation von Reels in Landessprachen bis zur Generierung von Musik und Charakterstimmen in Horizon – die ElevenLabs-Plattform ermöglicht es Kreativen, Unternehmen und Organisationen weltweit, mit Stimme, Musik und Sound in großem Maßstab zu arbeiten.”
“Scribes Genauigkeit in so vielen Sprachen ermöglicht es Fieldy, jede tägliche Unterhaltung zu verstehen und problemlos international zu skalieren. Nach dem Wechsel zu ElevenLabs Scribe konnte Fieldy die Nutzerbindung um 50 % steigern.”
“Mit ElevenLabs konnten wir leistungsstarke Text-to-Speech-Funktionen schnell in unser SDK integrieren. So können Agents in Echtzeit mit ausdrucksstarken Stimmen auf Nutzerfragen oder visuelle Rückmeldungen reagieren.”
“Twilio hat die generative KI-Stimmtechnologie von ElevenLabs in seine CPaaS-Plattform integriert und ConversationRelay verbessert. Diese Integration ermöglicht es Unternehmen und Entwicklern, KI-basierte Sprachinteraktionen zu erstellen, die menschlich klingen, ausdrucksstark sind und in Echtzeit direkt über die Twilio CPaaS-Plattform reagieren. Wir bei ElevenLabs freuen uns, dass Twilio ElevenLabs gewählt hat, um ConversationRelay mit den ausdrucksstärksten, natürlich klingenden Stimmen zu erweitern.”