
Sprache mit der ElevenLabs API transkribieren
Speech to Text API
Spracherkennung mit ElevenLabs Scribe v2
Höchste Genauigkeit bei Speech to Text für große Anwendungen. Erkennt Betonungen und Soundeffekte, steuert die Transkription mit Schlüsselbegriffen.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
- Lovable
- Veed model
- Synthesia
- Stripe
- Perplexity
- Twilio
Präziseste Speech to Text API für Batch-Verarbeitung
Erstellen Sie Untertitel, Transkripte und bearbeitbare Mitschriften für Podcasts, Videos, Interviews und andere Aufnahmen – alles mit branchenführender Genauigkeit per API.
Transkriptionsgenauigkeit auf neuem Niveau
Scribe v2 erreicht branchenführende Transkriptionsgenauigkeit und liefert sauberen, bearbeitbaren Text – auch bei schwierigen Audioverhältnissen oder verschiedenen Akzenten.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Für jeden Anwendungsfall entwickelt
Transkription funktioniert auch bei Hintergrundgeräuschen, Musik, starken Akzenten und niedriger Audioqualität.
Fein abgestimmte Kontrolle über Timing, Sprecher und Nicht-Sprachereignisse.
Die ElevenLabs Transcription API erkennt Lachen, Emotionen und Soundeffekte. Nutzen Sie Keyterm Prompting, um die Transkription mit fachspezifischen Begriffen zu steuern.
Audio und Video transkribieren
.webp&w=3840&q=95)
Saubere, bearbeitbare Transkripte
.webp&w=3840&q=95)
Keyterm Prompting

Dynamisches Audio-Tagging
Erfassen Sie Nicht-Sprachereignisse wie Lachen, Applaus, Musik und Hintergrundgeräusche. Transkripte enthalten den vollständigen Kontext Ihrer Audiodatei, nicht nur die gesprochenen Worte.
Intelligente Sprecher-Diarisierung
Erkennen und kennzeichnen Sie automatisch bis zu 48 Sprecher. Klare Zuordnung, wer was gesagt hat, übersichtlich in lesbaren Transkripten.
Entitätenerkennung
Erkennen und markieren Sie automatisch 56 Entitätentypen, darunter Namen, Daten, Orte und Organisationen in Ihren Transkripten.

Scribe v2
Höchste Genauigkeit, optimiert für Batch-Verarbeitung.
- >95 % Genauigkeit
- 90+ Sprachen
- Erkennung von Nicht-Sprachereignissen
- Entitätenerkennung
- Keyterm Prompting

Scribe v2 Echtzeit
Niedrigste Latenz, für Echtzeitanwendungen.
- Unter 150 ms Latenz
- 90+ Sprachen
- Transkriptions-Streaming
- Sprachaktivitätserkennung
- Automatische Spracherkennung
Transkribieren Sie Sprache in über 90 Sprachen und zahlreichen Akzenten
Zuverlässige Genauigkeit über Akzente, Dialekte und Aufnahmebedingungen hinweg.
Ändern Sie den languageCode, um Sprachen zu testen
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
const elevenlabs = new ElevenLabsClient({
apiKey: "<your_api_key>"
});
const response = await fetch(
"https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });
const transcription = await elevenlabs
.speechToText.convert({
file: audioBlob,
modelId: "scribe_v2",
tagAudioEvents: true,
languageCode: , // Sprache festlegen
diarize: true
});
console.log(transcription);Im Einsatz bei führenden Unternehmen und Marken weltweit
“Von der Synchronisation von Reels in Landessprachen bis zur Generierung von Musik und Charakterstimmen in Horizon – die ElevenLabs-Plattform ermöglicht es Kreativen, Unternehmen und Organisationen weltweit, mit Stimme, Musik und Sound in großem Maßstab zu arbeiten.”
“Scribes Genauigkeit in so vielen Sprachen ermöglicht es Fieldy, jede tägliche Unterhaltung zu verstehen und problemlos international zu skalieren. Nach dem Wechsel zu ElevenLabs Scribe konnte Fieldy die Nutzerbindung um 50 % steigern.”
“Mit ElevenLabs konnten wir leistungsstarke Text-to-Speech-Funktionen schnell in unser SDK integrieren. So können Agents in Echtzeit mit ausdrucksstarken Stimmen auf Nutzerfragen oder visuelle Rückmeldungen reagieren.”

“Twilio hat die generative KI-Stimmtechnologie von ElevenLabs in seine CPaaS-Plattform integriert und ConversationRelay verbessert. Diese Integration ermöglicht es Unternehmen und Entwicklern, KI-basierte Sprachinteraktionen zu erstellen, die menschlich klingen, ausdrucksstark sind und in Echtzeit direkt über die Twilio CPaaS-Plattform reagieren. Wir bei ElevenLabs freuen uns, dass Twilio ElevenLabs gewählt hat, um ConversationRelay mit den ausdrucksstärksten, natürlich klingenden Stimmen zu erweitern.”
APIs für den Produktiveinsatz entwickelt

Häufig gestellte Fragen
Neueste Updates

.webp&w=3840&q=80)
Sprechen Sie mit einer Statue: Entwicklung einer multimodalen App mit ElevenAgents




Elevenlabs OSS Engineers Fund: Unterstützung der Open-Source-Projekte, die unsere Arbeit prägen
.webp&w=3840&q=80)
Fügen Sie Ihrer React-App in wenigen Minuten einen Santa-Stimmenagenten hinzu

Vorstellung von ElevenLabs UI: Open-Source-Audio- und Agentenkomponenten für das Web
.webp&w=3840&q=80)
ElevenLabs Agents vs OpenAI Realtime API: Vergleich der Konversationsagenten