
Sprache in Echtzeit mit der ElevenLabs API transkribieren
Echtzeit Speech to Text API
Sprache live mit Scribe v2 Realtime transkribieren
Scribe v2 Realtime ist das präziseste Echtzeit-Transkriptionsmodell mit 150 ms Latenz in über 90 Sprachen. Verfügbar per API.
- Lovable
- Veed model
- Synthesia
- Stripe
- Perplexity
- Twilio
Für Geschwindigkeit und Präzision entwickelt
Extrem schnell, präzise und für Live-Sprache entwickelt. Scribe v2 Realtime liefert sofortige Transkription für Echtzeitanwendungen.
Höchste Genauigkeit in Echtzeit
Scribe v2 Realtime erreicht branchenführende Transkriptionsgenauigkeit mit ~150 ms Latenz – auch bei schwierigen Audioquellen oder unterschiedlichen Akzenten.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Für jeden Anwendungsfall entwickelt
Transkription funktioniert auch bei Hintergrundgeräuschen, Musik, starken Akzenten und niedriger Audioqualität.
Spracherkennung für Echtzeit-Performance optimiert
Basierend auf Scribe v1 bietet Scribe v2 Realtime ~150 ms Latenz mit hoher Genauigkeit über Akzente, Tonlagen und Umgebungen hinweg.

Speziell für Agents und Voice-Anwendungen entwickelt
Scribe v2 Realtime ist speziell für Entwickler konzipiert, die Conversational Agents, Meeting-Assistenten und Voice-Anwendungen bauen, bei denen Geschwindigkeit und Genauigkeit entscheidend sind.
Prädiktive Transkription für niedrige Latenz
Scribe v2 Realtime nutzt prädiktive Transkription, um die wahrscheinlichsten nächsten Wörter und Satzzeichen vorherzusagen – für präzise Echtzeit-Ergebnisse.
Spracherkennung (Voice Activity Detection)
Erkennt, wann Sprache beginnt und endet, und segmentiert Audio präzise für eine reibungslose Echtzeit-Transkription.
Manuelle Commit-Steuerung
Entwickler steuern, wann Transkripte finalisiert werden – ideal für individuelles Streaming und maximale Genauigkeit.
Mehrere Audioformate
Unterstützt PCM (8–48 kHz) und μ-law-Codierung für Kompatibilität mit Telefonie, Browser und Studio.
Modelle für jeden Anwendungsfall optimiert
Scribe v2 für große Datenmengen und Scribe v2 Realtime für Anwendungen mit niedriger Latenz

Scribe v2
Höchste Genauigkeit, für Batch-Workloads entwickelt.
- >95 % Genauigkeit
- Über 90 Sprachen
- Erkennung von Nicht-Sprachereignissen
- Entitätenerkennung
- Keyterm Prompting

Scribe v2 Echtzeit
Niedrigste Latenz, für Echtzeit-Anwendungen.
- Unter 150 ms Latenz
- Über 90 Sprachen
- Transkriptions-Streaming
- Sprachaktivitätserkennung
- Automatische Spracherkennung
Transkribieren Sie Sprache in über 90 Sprachen und zahlreichen Akzenten
Hohe Genauigkeit bei Akzenten, Dialekten und unterschiedlichen Aufnahmebedingungen.
Ändern Sie den languageCode, um Sprachen zu testen
import { useScribe } from "@elevenlabs/react";
const scribe = useScribe({
modelId: "scribe_v2_realtime",
languageCode: , // Sprache festlegen
onSessionStarted: () =>
console.log("Session started"),
onPartialTranscript: (data) =>
console.log("Partial:", data.text)
});Im Einsatz bei führenden Unternehmen und Marken weltweit
“Von der Synchronisation von Reels in Landessprachen bis zur Erstellung von Musik und Charakterstimmen in Horizon – die ElevenLabs-Plattform ermöglicht es Kreativen, Unternehmen und Organisationen weltweit, Stimme, Musik und Sound in großem Maßstab einzusetzen.”
“Die hohe Genauigkeit von Scribe in so vielen Sprachen ermöglicht es Fieldy, jede tägliche Unterhaltung zu verstehen und problemlos international zu skalieren. Nach dem Wechsel zu ElevenLabs Scribe ist die Nutzerbindung bei Fieldy um 50 % gestiegen.”
“Mit ElevenLabs konnten wir leistungsstarke Text-to-Speech-Funktionen schnell in unser SDK integrieren. So können Agents in Echtzeit mit ausdrucksstarken Stimmen auf Nutzeranfragen oder visuelle Rückmeldungen reagieren.”

“Twilio hat die generative KI-Stimmtechnologie von ElevenLabs in seine CPaaS-Plattform integriert und ConversationRelay erweitert. Damit können Unternehmen und Entwickler KI-basierte Sprachinteraktionen erstellen, die menschlich klingen, ausdrucksstark sind und in Echtzeit direkt über Twilio CPaaS reagieren. Wir bei ElevenLabs freuen uns, dass Twilio ElevenLabs gewählt hat, um ConversationRelay mit den ausdrucksstärksten, natürlich klingenden Stimmen zu verbessern.”
APIs für den Produktiveinsatz

Flexible Preise nach Bedarf
Erleben Sie höchste Genauigkeit und Reaktionsgeschwindigkeit – mit Preisen, die vom Startup bis zum Enterprise-Team skalieren.
Ab $0,28 pro Stunde und günstiger
bei jährlichen Business-Tarifen

Häufig gestellte Fragen
Neueste Updates

.webp&w=3840&q=80)
Sprechen Sie mit einer Statue: Entwicklung einer multimodalen App mit ElevenAgents




Elevenlabs OSS Engineers Fund: Unterstützung der Open-Source-Projekte, die unsere Arbeit prägen
.webp&w=3840&q=80)
Fügen Sie Ihrer React-App in wenigen Minuten einen Santa-Stimmenagenten hinzu

Vorstellung von ElevenLabs UI: Open-Source-Audio- und Agentenkomponenten für das Web
.webp&w=3840&q=80)
ElevenLabs Agents vs OpenAI Realtime API: Vergleich der Konversationsagenten