Direkt zum Inhalt

Speech to Text API

Spracherkennung mit ElevenLabs Scribe v2

Höchste Genauigkeit bei Speech to Text für große Anwendungen. Erkennt Betonungen und Soundeffekte, steuert die Transkription mit Schlüsselbegriffen.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

Präziseste Speech to Text API für Batch-Verarbeitung

Erstellen Sie Untertitel, Transkripte und bearbeitbare Mitschriften für Podcasts, Videos, Interviews und andere Aufnahmen – alles mit branchenführender Genauigkeit per API.

Scribe v2 erreicht branchenführende Transkriptionsgenauigkeit und liefert sauberen, bearbeitbaren Text – auch bei schwierigen Audioverhältnissen oder verschiedenen Akzenten.

Transkriptionsgenauigkeit auf neuem Niveau

Scribe v2 erreicht branchenführende Transkriptionsgenauigkeit und liefert sauberen, bearbeitbaren Text – auch bei schwierigen Audioverhältnissen oder verschiedenen Akzenten.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Für jeden Anwendungsfall entwickelt

Transkription funktioniert auch bei Hintergrundgeräuschen, Musik, starken Akzenten und niedriger Audioqualität.

Fein abgestimmte Kontrolle über Timing, Sprecher und Nicht-Sprachereignisse.

Die ElevenLabs Transcription API erkennt Lachen, Emotionen und Soundeffekte. Nutzen Sie Keyterm Prompting, um die Transkription mit fachspezifischen Begriffen zu steuern.

Audio und Video transkribieren

Laden Sie MP3, MP4, WAV, MOV und andere gängige Formate hoch. Scribe verarbeitet Dateien bis zu 10 Stunden mit asynchroner Verarbeitung und Webhook-Benachrichtigungen für große Mengen.
Transcription Formats

Saubere, bearbeitbare Transkripte

Erhalten Sie korrekt strukturierte Texte mit Interpunktion und Absätzen – bereit zum Bearbeiten, Veröffentlichen oder zur Weiterverarbeitung. Keine Nachbearbeitung nötig.
Editable transcripts

Keyterm Prompting

Verbessern Sie die Erkennungsgenauigkeit für bis zu 100 fachspezifische Begriffe. Produktnamen, Fachbegriffe und Spezialvokabular werden direkt korrekt transkribiert.
Keyterm Prompting

Dynamisches Audio-Tagging

Erfassen Sie Nicht-Sprachereignisse wie Lachen, Applaus, Musik und Hintergrundgeräusche. Transkripte enthalten den vollständigen Kontext Ihrer Audiodatei, nicht nur die gesprochenen Worte.

Intelligente Sprecher-Diarisierung

Erkennen und kennzeichnen Sie automatisch bis zu 48 Sprecher. Klare Zuordnung, wer was gesagt hat, übersichtlich in lesbaren Transkripten.

Entitätenerkennung

Erkennen und markieren Sie automatisch 56 Entitätentypen, darunter Namen, Daten, Orte und Organisationen in Ihren Transkripten.

Black Mountain

Scribe v2

Höchste Genauigkeit, optimiert für Batch-Verarbeitung.

  • >95 % Genauigkeit
  • 90+ Sprachen
  • Erkennung von Nicht-Sprachereignissen
  • Entitätenerkennung
  • Keyterm Prompting
Mountains

Scribe v2 Echtzeit

Niedrigste Latenz, für Echtzeitanwendungen.

  • Unter 150 ms Latenz
  • 90+ Sprachen
  • Transkriptions-Streaming
  • Sprachaktivitätserkennung
  • Automatische Spracherkennung

Transkribieren Sie Sprache in über 90 Sprachen und zahlreichen Akzenten

Zuverlässige Genauigkeit über Akzente, Dialekte und Aufnahmebedingungen hinweg.

Ändern Sie den languageCode, um Sprachen zu testen

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Sprache festlegen diarize: true }); console.log(transcription);
Flag for en
Englisch
Flag for zh
Chinesisch
Flag for es
Spanisch
Flag for fr
Französisch
Flag for pt
Portugiesisch
Flag for de
Deutsch
Flag for ja
Japanisch
Flag for it
Italienisch
Flag for hi
Hindi
Flag for en
EnglischZum Vorschau klicken

Im Einsatz bei führenden Unternehmen und Marken weltweit

  • Von der Synchronisation von Reels in Landessprachen bis zur Generierung von Musik und Charakterstimmen in Horizon – die ElevenLabs-Plattform ermöglicht es Kreativen, Unternehmen und Organisationen weltweit, mit Stimme, Musik und Sound in großem Maßstab zu arbeiten.
    Meta Color Logo
  • Scribes Genauigkeit in so vielen Sprachen ermöglicht es Fieldy, jede tägliche Unterhaltung zu verstehen und problemlos international zu skalieren. Nach dem Wechsel zu ElevenLabs Scribe konnte Fieldy die Nutzerbindung um 50 % steigern.
    Fieldy logo
  • Mit ElevenLabs konnten wir leistungsstarke Text-to-Speech-Funktionen schnell in unser SDK integrieren. So können Agents in Echtzeit mit ausdrucksstarken Stimmen auf Nutzerfragen oder visuelle Rückmeldungen reagieren.
    Stream Color Logo
  • Twilio hat die generative KI-Stimmtechnologie von ElevenLabs in seine CPaaS-Plattform integriert und ConversationRelay verbessert. Diese Integration ermöglicht es Unternehmen und Entwicklern, KI-basierte Sprachinteraktionen zu erstellen, die menschlich klingen, ausdrucksstark sind und in Echtzeit direkt über die Twilio CPaaS-Plattform reagieren. Wir bei ElevenLabs freuen uns, dass Twilio ElevenLabs gewählt hat, um ConversationRelay mit den ausdrucksstärksten, natürlich klingenden Stimmen zu erweitern.
    Twilio logo

APIs für den Produktiveinsatz entwickelt

Foreground

Häufig gestellte Fragen

Neueste Updates

Die realistischste Audio-KI-Plattform