Jak działa Scribe v2 Realtime

Autor: Tadas Petra
Opublikowano: 4 mar 2026
Ostatnia aktualizacja: 27 maj 2026

PosłuchajPosłuchaj tego artykułu

0:00

0:000:00

Scribe v2 Realtime to bardzo szybki

Na przykład, dzięki Scribe v2 Realtime i Chrome Translator API zbudowaliśmy tłumacza językowego działającego w czasie rzeczywistym.

Live transcription on the left and committed transcripts on the right in a list

Jeśli chcesz zobaczyć instrukcję krok po kroku do tego demo, znajdziesz ją tutaj. Ten przewodnik skupia się na ogólnym działaniu Scribe v2 Realtime i tym, jak to działa.

Model

W ElevenLabs masz dwa modele do transkrypcji audio: Scribe v2 i Scribe v2 Realtime.

Optimized For

Scribe v2

Accuracy

Scribe v2 Realtime

Ultra low latency

Use Case

Scribe v2

Batch transcription, subtitling, and captioning at scale.

Scribe v2 Realtime

Voice agents, meeting notetakers, and other live applications.

Model

Optimized For

Use Case

Scribe v2

Accuracy

Batch transcription, subtitling, and captioning at scale.

Scribe v2 Realtime

Ultra low latency

Voice agents, meeting notetakers, and other live applications.

Scribe v2 sprawdza się, gdy transkrypcja nie musi być na żywo, a Scribe v2 Realtime jest do transkrypcji w czasie rzeczywistym.

Do tłumaczenia języka na żywo najlepszy będzie Scribe v2 Realtime.

API

Aby korzystać z tego modelu, użyj Speech to Text API. Na start musisz wykonać dwa kroki:

Zainicjuj instancję Scribe
Połącz się z API

W zależności od tego, gdzie wywołujesz API, inicjalizacja wygląda inaczej. Jeśli robisz to po stronie serwera, możesz użyć klucza API i połączyć się z Scribe v2 Realtime.

Ale udostępnianie klucza API po stronie klienta to duże ryzyko. Dlatego jeśli streamujesz po stronie klienta, musisz użyć tokena jednorazowego.

Ten token trzeba wygenerować po stronie serwera, żeby chronić klucz API.

Ponieważ budujemy aplikację w React, użyjemy tokena. Token przekazujesz podczas łączenia, więc stworzenie instancji Scribe jest bardzo proste.

import { useScribe } from "@elevenlabs/react";

function MyComponent() {
  const scribe = useScribe({
    modelId: "scribe_v2_realtime",
  });
  
  //...
}

Łączenie z Scribe v2 Realtime

Po poprawnej inicjalizacji możesz połączyć się z Scribe v2 Realtime. W projekcie tłumacza w React użyliśmy streamingu po stronie klienta, więc potrzebny był token z backendu. Token trzeba generować i przekazywać za każdym razem, gdy łączysz się z API.

const handleStart = async () => {
  const token = await fetchTokenFromServer();

  await scribe.connect({
    token,
    microphone: {
	  echoCancellation: true,
	  noiseSuppression: true,
    },
  });
};

Strategia commitowania

W Scribe v2 Realtime są dwa typy transkrypcji: częściowe i zatwierdzone.

Częściowe transkrypcje to „transkrypcje na żywo”. Powstają przez websocket i pojawiają się na bieżąco, gdy mówisz. Jeśli powiesz „Kot jest...”, te słowa zobaczysz od razu.

Drugi typ to transkrypcje zatwierdzone. Transkrypcje dzielą się na segmenty. To, kiedy i jak je zatwierdzasz, decyduje o podziale tekstu. Do tego potrzebujesz strategii commitowania.

Są dwie opcje strategii commitowania. Pierwsza to ręczna – masz pełną kontrolę, kiedy zatwierdzasz transkrypcje. Najlepiej robić to podczas pauz lub w logicznych momentach, np. po zakończeniu wypowiedzi.

Druga opcja to automatyczne zatwierdzanie przez Scribe v2 Realtime z użyciem Voice Activity Detection (VAD). Ten sposób sam wykrywa mowę i ciszę. Gdy wykryje ciszę, transkrypcja zostaje zatwierdzona automatycznie.

Po co w ogóle strategia commitowania?

Podczas mówienia Scribe v2 Realtime transkrybuje każde słowo. Jeśli powiesz „I scream...”, może to rozpoznać jako „Ice cream...”. Ale mając cały segment „I scream every time I see a spider in the bathroom”, wynik jest dokładniejszy.

Częściowe transkrypcje możesz pokazywać na żywo, a zatwierdzone będą dokładniejszym zapisem rozmowy.

Wyświetlanie transkrypcji

Po połączeniu z Scribe v2 Realtime transkrypcja działa. Dostęp do transkrypcji masz przez właściwości partialTranscript i committedTranscripts.

<div>
  <button onClick={handleStart} disabled={scribe.isConnected}>
	Start Recording
  </button>
  <button onClick={scribe.disconnect} disabled={!scribe.isConnected}>
	Stop
  </button>

  {scribe.partialTranscript && <p>Live: {scribe.partialTranscript}</p>}

  <div>
	{scribe.committedTranscripts.map((t) => (
	  <p key={t.id}>{t.text}</p>
	))}
  </div>
</div>

partialTranscript to transkrypcja na żywo aktualnego segmentu. committedTranscript to historia rozmowy, czyli lista zatwierdzonych segmentów podczas połączenia z Scribe v2 Realtime.

Tłumacz z AI

To wszystko, czego potrzebujesz, by mieć transkrypcje rozmów na żywo. Teraz możesz dodać ładny interfejs albo kolejne funkcje, np. tłumaczenie języka na żywo.

Aby stworzyć tłumacza językowego z demo, przekaż transkrypcje doChrome AI Translator API i wyświetlaj wynik na żywo.