
Scribe v2 wurde aktualisiert
- Kategorie
- Entwickler
- Datum
Scribe v2 Realtime ist die präziseste Echtzeit-Spracherkennung mit 150 ms Latenz in über 90 Sprachen. Verfügbar per API.
Extrem schnell, präzise und für Live-Sprache entwickelt. Scribe v2 Realtime liefert sofortige Transkription für Echtzeitanwendungen.
Scribe v2 Realtime erreicht branchenführende Transkriptionsgenauigkeit mit ~150 ms Latenz – auch bei schwierigen Audioquellen oder unterschiedlichen Akzenten.
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Transkription funktioniert auch bei Hintergrundgeräuschen, Musik, starken Akzenten und niedriger Audioqualität.
Basierend auf Scribe v1 bietet Scribe v2 Realtime ~150 ms Latenz mit hoher Genauigkeit über Akzente, Tonlagen und Umgebungen hinweg.

Scribe v2 Realtime ist speziell für Entwickler konzipiert, die Conversational Agents, Meeting-Assistenten und Voice-Anwendungen bauen, bei denen Geschwindigkeit und Genauigkeit entscheidend sind.
Scribe v2 Realtime nutzt prädiktive Transkription, um die wahrscheinlichsten nächsten Wörter und Satzzeichen vorherzusagen – für präzise Echtzeit-Ergebnisse.
Erkennt, wann Sprache beginnt und endet, und segmentiert Audio präzise für eine reibungslose Echtzeit-Transkription.
Entwickler steuern, wann Transkripte finalisiert werden – ideal für individuelles Streaming und maximale Genauigkeit.
Unterstützt PCM (8–48 kHz) und μ-law-Codierung für Kompatibilität mit Telefonie, Browser und Studio.
Scribe v2 für große Datenmengen und Scribe v2 Realtime für Anwendungen mit niedriger Latenz

Höchste Genauigkeit, für Batch-Workloads entwickelt.

Niedrigste Latenz, für Echtzeit-Anwendungen.
Hohe Genauigkeit bei Akzenten, Dialekten und unterschiedlichen Aufnahmebedingungen.
Ändern Sie den languageCode, um Sprachen zu testen
import { useScribe } from "@elevenlabs/react";
const scribe = useScribe({
modelId: "scribe_v2_realtime",
languageCode: , // Sprache festlegen
onSessionStarted: () =>
console.log("Session started"),
onPartialTranscript: (data) =>
console.log("Partial:", data.text)
});“Von der Synchronisation von Reels in Landessprachen bis zur Erstellung von Musik und Charakterstimmen in Horizon – die ElevenLabs-Plattform ermöglicht es Kreativen, Unternehmen und Organisationen weltweit, Stimme, Musik und Sound in großem Maßstab einzusetzen.”
“Die hohe Genauigkeit von Scribe in so vielen Sprachen ermöglicht es Fieldy, jede tägliche Unterhaltung zu verstehen und problemlos international zu skalieren. Nach dem Wechsel zu ElevenLabs Scribe ist die Nutzerbindung bei Fieldy um 50 % gestiegen.”
“Mit ElevenLabs konnten wir leistungsstarke Text-to-Speech-Funktionen schnell in unser SDK integrieren. So können Agents in Echtzeit mit ausdrucksstarken Stimmen auf Nutzeranfragen oder visuelle Rückmeldungen reagieren.”

“Twilio hat die generative KI-Stimmtechnologie von ElevenLabs in seine CPaaS-Plattform integriert und ConversationRelay erweitert. Damit können Unternehmen und Entwickler KI-basierte Sprachinteraktionen erstellen, die menschlich klingen, ausdrucksstark sind und in Echtzeit direkt über Twilio CPaaS reagieren. Wir bei ElevenLabs freuen uns, dass Twilio ElevenLabs gewählt hat, um ConversationRelay mit den ausdrucksstärksten, natürlich klingenden Stimmen zu verbessern.”

Erleben Sie höchste Genauigkeit und Reaktionsgeschwindigkeit – mit Preisen, die vom Startup bis zum Enterprise-Team skalieren.
Ab $0,28 pro Stunde und günstiger
bei jährlichen Business-Tarifen









