Was ist Scribe v2 Realtime?

Scribe v2 Realtime ist ein Streaming-Speech-to-Text-Modell für Live-Transkriptionen. Es bietet 150 ms Latenz und 93,5 % Genauigkeit in 30 Sprachen – besser als Gemini Flash 2.5, GPT-4o Mini Transcribe und Deepgram Nova 3 im FLEURS-Benchmark.

Worin unterscheidet sich Scribe v2 Realtime von Scribe v2?

Scribe v2 Realtime ist für Streaming mit 150 ms Latenz optimiert. Scribe v2 (Batch) ist für aufgezeichnete Audiodaten mit zusätzlichen Funktionen wie Speaker Diarization, dynamischem Audio-Tagging und Unterstützung für 99 Sprachen. Nutzen Sie Realtime für Agenten und Live-Anwendungen, Batch für nachgelagerte Workflows.

Wie genau ist Scribe bei Echtzeit-Transkriptionen?

Scribe v2 Realtime erreicht höchste Genauigkeit in 99 Sprachen und ist robust gegenüber schwierigen Audio-Bedingungen, Akzenten und Aufnahmequalität. Es übertrifft Vorgängermodelle und andere führende APIs in öffentlichen Benchmarks.

Wie hoch ist die Latenz?

Etwa 150 ms End-to-End, ohne Anwendungs- und Netzwerklatenz. Das ist dreimal schneller als GPT-4o Mini Transcribe mit 500 ms.

Was bedeutet negative Latenz / prädiktive Transkription?

Scribe erkennt das nächste Wort und Satzzeichen, bevor sie gesprochen werden. So werden Transkripte ohne Verzögerung ausgegeben – für flüssige Echtzeit-Ergebnisse.

Welche Sprachen werden unterstützt?

Über 90 Sprachen mit automatischer Spracherkennung. Das Modell erkennt Sprachwechsel im Gespräch ohne Konfigurationsänderung.

Welche Audioformate werden unterstützt?

PCM-Audio von 8 kHz bis 48 kHz sowie μ-law-Codierung. Kompatibel mit Telefonie, Browser und Studioquellen.

Unterstützt Scribe v2 Realtime Speaker Diarization?

Derzeit nicht. Für die Erkennung mehrerer Sprecher nutzen Sie Scribe v2 (Batch), das bis zu 48 Sprecher unterstützt.

Wie hoch ist das Parallelitätslimit?

Über 30 parallele Streams im Business-Tarif. Enterprise-Tarife bieten höhere Limits. Kontaktieren Sie den Vertrieb für große Volumen.

Ist Scribe v2 Realtime in ElevenLabs Agents verfügbar?

Ja. Scribe v2 Realtime ist standardmäßig in der Agents-Plattform integriert.

Welche Compliance-Zertifizierungen gibt es?

SOC 2, ISO 27001, PCI DSS Level 1, HIPAA und DSGVO. Zero Retention-Modus und EU/Indien-Datenresidenz für Enterprise verfügbar.

Echtzeit Speech to Text API

Sprache live mit Scribe v2 Realtime transkribieren

API-Schlüssel erhalten Dokumentation entdecken

Scribe v2 Realtime ist die präziseste Echtzeit-Spracherkennung mit 150 ms Latenz in über 90 Sprachen. Verfügbar per API.

Demo

Code

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

Für Geschwindigkeit und Präzision entwickelt

API-Schlüssel erhalten Dokumentation entdecken

Extrem schnell, präzise und für Live-Sprache entwickelt. Scribe v2 Realtime liefert sofortige Transkription für Echtzeitanwendungen.

Höchste Genauigkeit in Echtzeit

Scribe v2 Realtime erreicht branchenführende Transkriptionsgenauigkeit mit ~150 ms Latenz – auch bei schwierigen Audioquellen oder unterschiedlichen Akzenten.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Für jeden Anwendungsfall entwickelt

Transkription funktioniert auch bei Hintergrundgeräuschen, Musik, starken Akzenten und niedriger Audioqualität.

Spracherkennung für Echtzeit-Performance optimiert

Basierend auf Scribe v1 bietet Scribe v2 Realtime ~150 ms Latenz mit hoher Genauigkeit über Akzente, Tonlagen und Umgebungen hinweg.

Speziell für Agents und Voice-Anwendungen entwickelt

Scribe v2 Realtime ist speziell für Entwickler konzipiert, die Conversational Agents, Meeting-Assistenten und Voice-Anwendungen bauen, bei denen Geschwindigkeit und Genauigkeit entscheidend sind.

Kann ich eine Rückerstattung bekommen?

Natürlich. Können Sie mir bitte Ihre Bestellnummer mitteilen?

Es ist EL4543490

Danke. Ich habe den Rückerstattungsprozess eingeleitet.

Rückerstattung abgeschlossen

Prädiktive Transkription für niedrige Latenz

Scribe v2 Realtime nutzt prädiktive Transkription, um die wahrscheinlichsten nächsten Wörter und Satzzeichen vorherzusagen – für präzise Echtzeit-Ergebnisse.

Scribe

makes

uses

is

has

new

Spracherkennung (Voice Activity Detection)

Erkennt, wann Sprache beginnt und endet, und segmentiert Audio präzise für eine reibungslose Echtzeit-Transkription.

Manuelle Commit-Steuerung

Entwickler steuern, wann Transkripte finalisiert werden – ideal für individuelles Streaming und maximale Genauigkeit.

Mehrere Audioformate

Unterstützt PCM (8–48 kHz) und μ-law-Codierung für Kompatibilität mit Telefonie, Browser und Studio.

Modelle für jeden Anwendungsfall optimiert

Scribe v2 für große Datenmengen und Scribe v2 Realtime für Anwendungen mit niedriger Latenz

Scribe v2

Höchste Genauigkeit, für Batch-Workloads entwickelt.

>95 % Genauigkeit
Über 90 Sprachen
Erkennung von Nicht-Sprachereignissen
Entitätenerkennung
Schlüsselbegriff-Aufforderung

Mehr erfahren

Scribe v2 Echtzeit

Niedrigste Latenz, für Echtzeit-Anwendungen.

Unter 150 ms Latenz
Über 90 Sprachen
Transkriptions-Streaming
Sprachaktivitätserkennung
Automatische Spracherkennung

Mehr erfahren

Transkribieren Sie Sprache in über 90 Sprachen und zahlreichen Akzenten

Hohe Genauigkeit bei Akzenten, Dialekten und unterschiedlichen Aufnahmebedingungen.

Ändern Sie den languageCode, um Sprachen zu testen

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Sprache festlegen

  onSessionStarted: () =>
    console.log("Session started"),
  onPartialTranscript: (data) =>
    console.log("Partial:", data.text)
});

Englisch

Chinesisch

Spanisch

Französisch

Portugiesisch

Deutsch

Japanisch

Italienisch

Hindi

EnglischZum Vorschau klicken

Im Einsatz bei führenden Unternehmen und Marken weltweit

Kundenberichte ansehen

“Von der Synchronisation von Reels in Landessprachen bis zur Erstellung von Musik und Charakterstimmen in Horizon – die ElevenLabs-Plattform ermöglicht es Kreativen, Unternehmen und Organisationen weltweit, Stimme, Musik und Sound in großem Maßstab einzusetzen.”
“Die hohe Genauigkeit von Scribe in so vielen Sprachen ermöglicht es Fieldy, jede tägliche Unterhaltung zu verstehen und problemlos international zu skalieren. Nach dem Wechsel zu ElevenLabs Scribe ist die Nutzerbindung bei Fieldy um 50 % gestiegen.”
“Mit ElevenLabs konnten wir leistungsstarke Text-to-Speech-Funktionen schnell in unser SDK integrieren. So können Agents in Echtzeit mit ausdrucksstarken Stimmen auf Nutzeranfragen oder visuelle Rückmeldungen reagieren.”
“Twilio hat die generative KI-Stimmtechnologie von ElevenLabs in seine CPaaS-Plattform integriert und ConversationRelay erweitert. Damit können Unternehmen und Entwickler KI-basierte Sprachinteraktionen erstellen, die menschlich klingen, ausdrucksstark sind und in Echtzeit direkt über Twilio CPaaS reagieren. Wir bei ElevenLabs freuen uns, dass Twilio ElevenLabs gewählt hat, um ConversationRelay mit den ausdrucksstärksten, natürlich klingenden Stimmen zu verbessern.”