So funktioniert Scribe v2 Realtime

Verfasst von: Tadas Petra
Veröffentlicht: 4. März 2026
Zuletzt aktualisiert: 27. Mai 2026

AnhörenArtikel anhören

0:00

0:000:00

Scribe v2 Realtime ist ein äußerst schnelles

Zum Beispiel konnten wir mit Scribe v2 Realtime und der Chrome Translator API diesen Echtzeit-Sprachübersetzer entwickeln.

Live transcription on the left and committed transcripts on the right in a list

Wenn Sie eine Schritt-für-Schritt-Anleitung zu diesem Demo möchten, finden Sie diese hier. In diesem Leitfaden geht es um das grundlegende Verständnis von Scribe v2 Realtime und wie es funktioniert.

Das Modell

ElevenLabs bietet zwei Modelle zur Transkription von Audio an: Scribe v2 und Scribe v2 Realtime.

Optimized For

Scribe v2

Accuracy

Scribe v2 Realtime

Ultra low latency

Use Case

Scribe v2

Batch transcription, subtitling, and captioning at scale.

Scribe v2 Realtime

Voice agents, meeting notetakers, and other live applications.

Model

Optimized For

Use Case

Scribe v2

Accuracy

Batch transcription, subtitling, and captioning at scale.

Scribe v2 Realtime

Ultra low latency

Voice agents, meeting notetakers, and other live applications.

Scribe v2 eignet sich gut für asynchrone Transkriptionen, während Scribe v2 Realtime verwendet wird, wenn die Transkription live erfolgen muss.

Für eine Live-Sprachübersetzungsanwendung ist Scribe v2 Realtime die passende Wahl.

Die API

Um dieses Modell zu nutzen, verwenden Sie die Speech to Text API. Es sind zwei Schritte erforderlich, um zu starten:

Scribe-Instanz initialisieren
Mit der API verbinden

Je nachdem, wo Sie die API aufrufen, müssen Sie sie unterschiedlich initialisieren. Bei einem serverseitigen Aufruf können Sie direkt mit dem API-Schlüssel initialisieren und diese Instanz dann für die Verbindung zu Scribe v2 Realtime nutzen.

Aber einen API-Schlüssel auf der Client-Seite offenzulegen, ist ein großes Sicherheitsrisiko. Wenn Sie also clientseitig streamen, müssen Sie mit einem Einmal-Token initialisieren.

Dieses Token muss serverseitig generiert werden, um den API-Schlüssel zu schützen.

Da wir eine React-Anwendung bauen, nutzen wir das Token-Verfahren. Dieses Token wird während der Verbindungsphase übergeben, sodass das Erstellen einer Scribe-Instanz sehr einfach ist.

import { useScribe } from "@elevenlabs/react";

function MyComponent() {
  const scribe = useScribe({
    modelId: "scribe_v2_realtime",
  });
  
  //...
}

Verbindung zu Scribe v2 Realtime herstellen

Nach der passenden Initialisierung können Sie sich mit Scribe v2 Realtime verbinden. Für das React-Sprachübersetzungsprojekt haben wir clientseitiges Streaming genutzt und daher jedes Mal ein Einmal-Token vom Backend benötigt. Dieses Token muss bei jeder Verbindung zur API generiert und übergeben werden.

const handleStart = async () => {
  const token = await fetchTokenFromServer();

  await scribe.connect({
    token,
    microphone: {
	  echoCancellation: true,
	  noiseSuppression: true,
    },
  });
};

Commit-Strategie

Bei der Arbeit mit Scribe v2 Realtime gibt es zwei Arten von Transkripten: vorläufige und bestätigte.

Die vorläufigen Transkripte sind die „Live-Transkripte“. Diese Transkription erfolgt über Websocket und wird während des Sprechens zurückgegeben. Wenn Sie also sagen „Die Katze ist ...“, sehen Sie diese Wörter in Echtzeit.

Die andere Art ist das bestätigte Transkript. Transkriptionen werden in Segmenten verarbeitet. Wann und wie Sie Ihre Transkripte bestätigen, bestimmt die Segmentierung. Dafür müssen Sie eine Commit-Strategie festlegen.

Es gibt zwei Optionen für Commit-Strategien. Die erste ist manuell – Sie entscheiden selbst, wann Transkripte bestätigt werden. Am besten geschieht das während Sprechpausen oder an logischen Punkten, etwa bei Sprecherwechsel.

Die andere Option ist, Scribe v2 Realtime die Segmentierung automatisch mit Voice Activity Detection (VAD) überlassen. Dabei werden Sprach- und Pausensegmente erkannt. Wird ein Pausenschwellenwert erreicht, bestätigt die Engine das Segment automatisch.

Warum brauchen Sie überhaupt eine Commit-Strategie?

Während Sie sprechen, transkribiert Scribe v2 Realtime jedes Wort. Wenn Sie zum Beispiel „I scream...“ sagen, kann das als „Ice cream...“ erkannt werden. Mit dem vollständigen Kontext des Segments „I scream every time I see a spider in the bathroom“ ist das Ergebnis jedoch genauer.

Die vorläufigen Transkripte können also in Echtzeit angezeigt werden, während die bestätigten Transkripte eine genauere Wiedergabe des Gesprächsverlaufs bieten.

Transkripte anzeigen

Sobald Sie mit Scribe v2 Realtime verbunden sind, läuft die Transkription. Sie greifen über die Eigenschaften partialTranscript und committedTranscripts auf die Transkripte zu.

<div>
  <button onClick={handleStart} disabled={scribe.isConnected}>
	Start Recording
  </button>
  <button onClick={scribe.disconnect} disabled={!scribe.isConnected}>
	Stop
  </button>

  {scribe.partialTranscript && <p>Live: {scribe.partialTranscript}</p>}

  <div>
	{scribe.committedTranscripts.map((t) => (
	  <p key={t.id}>{t.text}</p>
	))}
  </div>
</div>

Das partialTranscript ist das Echtzeit-Transkript des aktuellen Segments. Das committedTranscript ist der Gesprächsverlauf – eine Liste der bestätigten Segmente während der Verbindung zu Scribe v2 Realtime.

Mit KI übersetzen

Das ist alles, was Sie brauchen, um Echtzeit-Transkripte Ihrer Gespräche zu erhalten. Sie können die Anwendung jetzt mit einer passenden Oberfläche erweitern oder weitere Funktionen wie Live-Übersetzung hinzufügen.

Um den Echtzeit-Sprachübersetzer aus dem Demo zu erstellen, übergeben Sie die Transkripte an die Chrome KI Translator API und zeigen das Ergebnis in Echtzeit an.