Scribe v2 Realtime कैसे काम करता है

लेखक: Tadas Petra
प्रकाशित: 4 मार्च 2026
आखिरी बार अपडेट किया गया: 27 मई 2026

सुनेंइस आर्टिकल को सुनें

0:00

0:000:00

Scribe v2 Realtime एक बेहद तेज़

उदाहरण के लिए, हमने Scribe v2 Realtime और Chrome Translator API का इस्तेमाल करके यह रियल-टाइम लैंग्वेज ट्रांसलेटर बनाया।

Live transcription on the left and committed transcripts on the right in a list

अगर आप इस डेमो का स्टेप-बाय-स्टेप ट्यूटोरियल चाहते हैं, तो वह आपको यहाँ मिल जाएगा। यह गाइड Scribe v2 Realtime की हाई लेवल समझ और उसके काम करने के तरीके पर फोकस करेगा।

मॉडल

ElevenLabs ऑडियो ट्रांसक्राइब करने के लिए दो मॉडल्स देता है: Scribe v2 और Scribe v2 Realtime।

Optimized For

Scribe v2

Accuracy

Scribe v2 Realtime

Ultra low latency

Use Case

Scribe v2

Batch transcription, subtitling, and captioning at scale.

Scribe v2 Realtime

Voice agents, meeting notetakers, and other live applications.

Model

Optimized For

Use Case

Scribe v2

Accuracy

Batch transcription, subtitling, and captioning at scale.

Scribe v2 Realtime

Ultra low latency

Voice agents, meeting notetakers, and other live applications.

Scribe v2 उन ट्रांसक्रिप्शन के लिए बढ़िया है जो एसिंक्रोनस हो सकती हैं, जबकि Scribe v2 Realtime तब इस्तेमाल होता है जब आपको ट्रांसक्रिप्शन लाइव चाहिए।

लाइव लैंग्वेज ट्रांसलेशन ऐप्लिकेशन के लिए Scribe v2 Realtime सबसे सही विकल्प है।

API

इस मॉडल को इस्तेमाल करने के लिए आपको स्पीच टू टेक्स्ट API का इस्तेमाल करना होगा। शुरू करने के लिए आपको दो स्टेप्स पूरे करने होंगे:

Scribe इंस्टेंस इनिशियलाइज़ करें
API से कनेक्ट करें

आप API को जहाँ से कॉल कर रहे हैं, उसके हिसाब से इनिशियलाइज़ करने का तरीका अलग होगा। अगर आप इसे सर्वर-साइड कॉल कर रहे हैं, तो सीधे API की से इनिशियलाइज़ कर सकते हैं और फिर उसी इंस्टेंस से Scribe v2 Realtime से कनेक्ट कर सकते हैं।

लेकिन, API की को क्लाइंट पर एक्सपोज़ करना बड़ी सुरक्षा रिस्क है। इसलिए, अगर आप क्लाइंट-साइड से स्ट्रीमिंग कर रहे हैं, तो आपको सिंगल-यूज़ टोकन से इनिशियलाइज़ करना होगा।

यह टोकन API की को सुरक्षित रखने के लिए सर्वर-साइड जनरेट करना ज़रूरी है।

क्योंकि हम React ऐप बना रहे हैं, हम टोकन वाला तरीका अपनाएंगे। यह टोकन कनेक्शन के वक्त पास किया जाता है, जिससे Scribe इंस्टेंस बनाना बहुत आसान हो जाता है।

import { useScribe } from "@elevenlabs/react";

function MyComponent() {
  const scribe = useScribe({
    modelId: "scribe_v2_realtime",
  });
  
  //...
}

Scribe v2 Realtime से कनेक्ट करना

एक बार सही तरीके से इनिशियलाइज़ करने के बाद, आप Scribe v2 Realtime से कनेक्ट कर सकते हैं। React लैंग्वेज ट्रांसलेशन प्रोजेक्ट में हमने क्लाइंट-साइड स्ट्रीमिंग का इस्तेमाल किया, इसलिए हमें बैकएंड से हर बार एक सिंगल-यूज़ टोकन चाहिए होता है। यह टोकन हर बार API से कनेक्ट करते समय जनरेट और पास करना होता है।

const handleStart = async () => {
  const token = await fetchTokenFromServer();

  await scribe.connect({
    token,
    microphone: {
	  echoCancellation: true,
	  noiseSuppression: true,
    },
  });
};

कमिट स्ट्रैटेजी

Scribe v2 Realtime के साथ काम करते समय दो तरह के ट्रांसक्रिप्ट्स होते हैं: पार्टियल और कमिटेड।

पार्टियल ट्रांसक्रिप्ट्स "लाइव ट्रांसक्रिप्ट्स" होते हैं। यह ट्रांसक्रिप्शन वेब्सॉकेट के ज़रिए होता है और जैसे-जैसे आप बोलते हैं, आपको मिलता जाता है। जैसे अगर आप बोलें "The cat is ...", तो ये शब्द आपको रियल-टाइम में दिखेंगे।

दूसरी तरह का ट्रांसक्रिप्ट कमिटेड ट्रांसक्रिप्ट होता है। ट्रांसक्रिप्शन सेगमेंट्स में काम करता है। आप कब और कैसे अपनी ट्रांसक्रिप्शन को कमिट करते हैं, इससे आपके ट्रांसक्रिप्ट के सेगमेंट्स तय होते हैं। इसके लिए आपको एक कमिट स्ट्रैटेजी तय करनी होती है।

कमिट स्ट्रैटेजी के लिए दो ऑप्शन हैं। पहला है मैन्युअल, जिसमें आप पूरी तरह कंट्रोल कर सकते हैं कि ट्रांसक्रिप्ट्स कब कमिट हों। इसका सबसे अच्छा तरीका है साइलेंस या किसी लॉजिकल पॉइंट (जैसे टर्न मॉडल) पर कमिट करना।

दूसरा ऑप्शन है Scribe v2 Realtime को खुद ही वॉइस एक्टिविटी डिटेक्शन (VAD) से क्वालिटी सेगमेंट्स तय करने देना। इसमें स्पीच और साइलेंस सेगमेंट्स ऑटोमैटिकली डिटेक्ट हो जाते हैं। जब साइलेंस थ्रेशोल्ड आ जाता है, तो ट्रांसक्रिप्शन इंजन खुद ही ट्रांसक्रिप्ट सेगमेंट कमिट कर देता है।

कमिट स्ट्रैटेजी की ज़रूरत क्यों है?

जब आप बोल रहे होते हैं, Scribe v2 Realtime हर शब्द ट्रांसक्राइब कर रहा होता है। जैसे अगर आप बोलें "I scream..." तो यह "Ice cream..." भी समझ सकता है। लेकिन जब पूरा सेगमेंट मिल जाता है, जैसे "I scream every time I see a spider in the bathroom," तो आउटपुट ज़्यादा सही होता है।

तो पार्टियल ट्रांसक्रिप्ट्स रियल टाइम में दिखाए जा सकते हैं, और कमिटेड ट्रांसक्रिप्ट्स बातचीत का ज़्यादा सटीक ट्रांसक्रिप्शन होते हैं।

ट्रांसक्रिप्शन दिखाएं

Scribe v2 Realtime से कनेक्ट होने के बाद ट्रांसक्रिप्शन शुरू हो जाता है। आप partialTranscript और committedTranscripts प्रॉपर्टीज़ से ट्रांसक्रिप्ट्स एक्सेस कर सकते हैं।

<div>
  <button onClick={handleStart} disabled={scribe.isConnected}>
	Start Recording
  </button>
  <button onClick={scribe.disconnect} disabled={!scribe.isConnected}>
	Stop
  </button>

  {scribe.partialTranscript && <p>Live: {scribe.partialTranscript}</p>}

  <div>
	{scribe.committedTranscripts.map((t) => (
	  <p key={t.id}>{t.text}</p>
	))}
  </div>
</div>

partialTranscript उस करंट सेगमेंट का रियल-टाइम ट्रांसक्रिप्ट है, जिसे ट्रांसक्राइब किया जा रहा है। committedTranscript बातचीत का हिस्ट्री है, जिसमें वे सेगमेंट्स होते हैं जो Scribe v2 Realtime से कनेक्ट रहते हुए कमिट किए गए हैं।

AI के साथ ट्रांसलेट करें

इतना ही करना है ताकि आपकी बातचीत के रियल-टाइम ट्रांसक्रिप्ट्स मिल सकें। अब आप इस ऐप को अच्छा UI दे सकते हैं या लाइव लैंग्वेज ट्रांसलेशन जैसी और भी फीचर्स जोड़ सकते हैं।

डेमो में रियल-टाइम लैंग्वेज ट्रांसलेटर बनाने के लिए, आप ट्रांसक्रिप्ट्स कोChrome AI Translator API में पास करें और आउटपुट रियल टाइम में दिखाएं।