
Eleven Music, अब API में उपलब्ध
- श्रेणी
- डेवलपर
- तारीख
Scribe v2 Realtime लाइव ट्रांसलेशन और वॉइस ऐप्लिकेशन्स के लिए कम लेटेंसी ट्रांसक्रिप्शन कैसे देता है
Scribe v2 Realtime एक बेहद तेज़ स्पीच टू टेक्स्ट मॉडल है, जिसे लाइव ट्रांसक्रिप्शन के लिए इस्तेमाल किया जा सकता है। इसकी स्पीड और क्वालिटी के कॉम्बिनेशन से ऐसे यूज़ केस भी मुमकिन हो जाते हैं, जो पहले नहीं थे।
उदाहरण के लिए, हमने Scribe v2 Realtime और Chrome Translator API का इस्तेमाल करके यह रियल-टाइम लैंग्वेज ट्रांसलेटर बनाया।

अगर आप इस डेमो का स्टेप-बाय-स्टेप ट्यूटोरियल चाहते हैं, तो वह आपको यहाँ मिल जाएगा। यह गाइड Scribe v2 Realtime की हाई लेवल समझ और उसके काम करने के तरीके पर फोकस करेगा।
ElevenLabs ऑडियो ट्रांसक्राइब करने के लिए दो मॉडल्स देता है: Scribe v2 और Scribe v2 Realtime।
Scribe v2 उन ट्रांसक्रिप्शन के लिए बढ़िया है जो एसिंक्रोनस हो सकती हैं, जबकि Scribe v2 Realtime तब इस्तेमाल होता है जब आपको ट्रांसक्रिप्शन लाइव चाहिए।
लाइव लैंग्वेज ट्रांसलेशन ऐप्लिकेशन के लिए Scribe v2 Realtime सबसे सही विकल्प है।
इस मॉडल को इस्तेमाल करने के लिए आपको स्पीच टू टेक्स्ट API का इस्तेमाल करना होगा। शुरू करने के लिए आपको दो स्टेप्स पूरे करने होंगे:
आप API को जहाँ से कॉल कर रहे हैं, उसके हिसाब से इनिशियलाइज़ करने का तरीका अलग होगा। अगर आप इसे सर्वर-साइड कॉल कर रहे हैं, तो सीधे API की से इनिशियलाइज़ कर सकते हैं और फिर उसी इंस्टेंस से Scribe v2 Realtime से कनेक्ट कर सकते हैं।
लेकिन, API की को क्लाइंट पर एक्सपोज़ करना बड़ी सुरक्षा रिस्क है। इसलिए, अगर आप क्लाइंट-साइड से स्ट्रीमिंग कर रहे हैं, तो आपको सिंगल-यूज़ टोकन से इनिशियलाइज़ करना होगा।
यह टोकन API की को सुरक्षित रखने के लिए सर्वर-साइड जनरेट करना ज़रूरी है।
क्योंकि हम React ऐप बना रहे हैं, हम टोकन वाला तरीका अपनाएंगे। यह टोकन कनेक्शन के वक्त पास किया जाता है, जिससे Scribe इंस्टेंस बनाना बहुत आसान हो जाता है।
एक बार सही तरीके से इनिशियलाइज़ करने के बाद, आप Scribe v2 Realtime से कनेक्ट कर सकते हैं। React लैंग्वेज ट्रांसलेशन प्रोजेक्ट में हमने क्लाइंट-साइड स्ट्रीमिंग का इस्तेमाल किया, इसलिए हमें बैकएंड से हर बार एक सिंगल-यूज़ टोकन चाहिए होता है। यह टोकन हर बार API से कनेक्ट करते समय जनरेट और पास करना होता है।
Scribe v2 Realtime के साथ काम करते समय दो तरह के ट्रांसक्रिप्ट्स होते हैं: पार्टियल और कमिटेड।
पार्टियल ट्रांसक्रिप्ट्स "लाइव ट्रांसक्रिप्ट्स" होते हैं। यह ट्रांसक्रिप्शन वेब्सॉकेट के ज़रिए होता है और जैसे-जैसे आप बोलते हैं, आपको मिलता जाता है। जैसे अगर आप बोलें "The cat is ...", तो ये शब्द आपको रियल-टाइम में दिखेंगे।
दूसरी तरह का ट्रांसक्रिप्ट कमिटेड ट्रांसक्रिप्ट होता है। ट्रांसक्रिप्शन सेगमेंट्स में काम करता है। आप कब और कैसे अपनी ट्रांसक्रिप्शन को कमिट करते हैं, इससे आपके ट्रांसक्रिप्ट के सेगमेंट्स तय होते हैं। इसके लिए आपको एक कमिट स्ट्रैटेजी तय करनी होती है।
कमिट स्ट्रैटेजी के लिए दो ऑप्शन हैं। पहला है मैन्युअल, जिसमें आप पूरी तरह कंट्रोल कर सकते हैं कि ट्रांसक्रिप्ट्स कब कमिट हों। इसका सबसे अच्छा तरीका है साइलेंस या किसी लॉजिकल पॉइंट (जैसे टर्न मॉडल) पर कमिट करना।
दूसरा ऑप्शन है Scribe v2 Realtime को खुद ही वॉइस एक्टिविटी डिटेक्शन (VAD) से क्वालिटी सेगमेंट्स तय करने देना। इसमें स्पीच और साइलेंस सेगमेंट्स ऑटोमैटिकली डिटेक्ट हो जाते हैं। जब साइलेंस थ्रेशोल्ड आ जाता है, तो ट्रांसक्रिप्शन इंजन खुद ही ट्रांसक्रिप्ट सेगमेंट कमिट कर देता है।
जब आप बोल रहे होते हैं, Scribe v2 Realtime हर शब्द ट्रांसक्राइब कर रहा होता है। जैसे अगर आप बोलें "I scream..." तो यह "Ice cream..." भी समझ सकता है। लेकिन जब पूरा सेगमेंट मिल जाता है, जैसे "I scream every time I see a spider in the bathroom," तो आउटपुट ज़्यादा सही होता है।
तो पार्टियल ट्रांसक्रिप्ट्स रियल टाइम में दिखाए जा सकते हैं, और कमिटेड ट्रांसक्रिप्ट्स बातचीत का ज़्यादा सटीक ट्रांसक्रिप्शन होते हैं।
Scribe v2 Realtime से कनेक्ट होने के बाद ट्रांसक्रिप्शन शुरू हो जाता है। आप partialTranscript और committedTranscripts प्रॉपर्टीज़ से ट्रांसक्रिप्ट्स एक्सेस कर सकते हैं।
partialTranscript उस करंट सेगमेंट का रियल-टाइम ट्रांसक्रिप्ट है, जिसे ट्रांसक्राइब किया जा रहा है। committedTranscript बातचीत का हिस्ट्री है, जिसमें वे सेगमेंट्स होते हैं जो Scribe v2 Realtime से कनेक्ट रहते हुए कमिट किए गए हैं।
इतना ही करना है ताकि आपकी बातचीत के रियल-टाइम ट्रांसक्रिप्ट्स मिल सकें। अब आप इस ऐप को अच्छा UI दे सकते हैं या लाइव लैंग्वेज ट्रांसलेशन जैसी और भी फीचर्स जोड़ सकते हैं।
डेमो में रियल-टाइम लैंग्वेज ट्रांसलेटर बनाने के लिए, आप ट्रांसक्रिप्ट्स कोChrome AI Translator API में पास करें और आउटपुट रियल टाइम में दिखाएं।
पढ़ने के लिए धन्यवाद! ElevenLabs पर साइन अप करें और अपनी ऐप्लिकेशन्स बनाना शुरू करें!

.webp&w=3840&q=80)
.webp&w=3840&q=80)
.webp&w=3840&q=80)