Eleven v3 अल्फा का परिचय

v3 आजमाएं

रियल-टाइम डबिंग का सफर

सर्वश्रेष्ठ उपयोग के मामले और अपनाने की व्यावहारिक चुनौतियाँ

Real-time Dubbing

कुछ लोगों के लिए, रियल-टाइम डबिंग 'हिचहाइकर गाइड टू द गैलेक्सी' के बेबेलफिश की छवि को उभारती है।

बेबेलफिश 'मस्तिष्क तरंग ऊर्जा पर निर्भर करता है, अवचेतन आवृत्तियों को अवशोषित करता है और मस्तिष्क के भाषण केंद्रों में सचेत आवृत्तियों का मैट्रिक्स उत्सर्जित करता है।' व्यवहार में, इसका मतलब है कि जब आप इसे अपने कान में डालते हैं, तो कोई भी व्यक्ति आपसे किसी भी भाषा में बात करता है, तो आप उन्हें तुरंत अपनी मातृभाषा में सुनते हैं (और आप स्रोत ऑडियो को बिल्कुल नहीं सुनते)।

जब तक हम मस्तिष्क तरंगों को पढ़ नहीं सकते, हमें वक्ता के शब्दों को सुनकर उन्हें हमारी लक्षित भाषा में अनुवाद करना होगा। वक्ता के मुंह से निकलते ही हर शब्द का अनुवाद करने का प्रयास करना वास्तविक चुनौतियाँ प्रस्तुत करता है।

कल्पना करें कि आप अंग्रेजी से स्पेनिश में अनुवाद करना चाहते हैं। वक्ता 'The' से शुरू करता है। स्पेनिश में, 'The' का अनुवाद 'El' होता है पुरुषवाचक शब्दों के लिए और 'La' होता है स्त्रीवाचक शब्दों के लिए। इसलिए हम 'The' का निश्चित रूप से अनुवाद नहीं कर सकते जब तक हमें और जानकारी न मिले।

Realtime Dubbing Diagram 1

कल्पना करें कि वक्ता जारी रखता है 'The running water'। अब हमारे पास पहले तीन शब्दों का अनुवाद 'El agua corriente' करने के लिए पर्याप्त जानकारी है। मान लें कि वाक्य जारी रहता है 'The running water is too cold for swimming' तो हम सही दिशा में हैं।

Real-time dubbing diagram 2

लेकिन अगर वक्ता जारी रखता है 'The running water buffalo...' तो हमें पीछे हटना पड़ेगा।

Real-time dubbing diagram 3

बात को और स्पष्ट करने के लिए, अगर वक्ता जारी रखता है 'The running water buffalo protected her calf', तो हमें वाक्य की शुरुआत 'La búfala' से करनी चाहिए थी न कि 'El búfalo' से।

ये “garden path” वाक्य, जो इस तरह से शुरू होते हैं कि श्रोता की प्रारंभिक व्याख्या गलत हो सकती है, कई भाषाओं में मौजूद हैं।

कुछ उपयोग मामलों के लिए, आप स्वीकार कर सकते हैं कि आपको जल्दी डबिंग शुरू करने के बाद पीछे हटना पड़ेगा। अन्य मामलों में, आप अधिक सटीकता के लिए विलंब जोड़ सकते हैं। चूंकि कुछ विलंब सभी डबिंग उपयोग मामलों में अंतर्निहित होता है, हम 'रियल-टाइम' डबिंग को एक सेवा के रूप में परिभाषित करते हैं जिसके माध्यम से आप लगातार ऑडियो स्ट्रीम कर सकते हैं और अनुवादित सामग्री प्राप्त कर सकते हैं।

Translation Pipeline

रियल-टाइम डबिंग के लिए सर्वोत्तम उपयोग मामले

रियल-टाइम डबिंग के सर्वोत्तम व्यावसायिक अनुप्रयोग वे हैं जहाँ

  • एक वैश्विक दर्शक है
  • यह लाइव सामग्री है
  • प्रसारण में कुछ विलंब स्वीकार्य है

खेल

फोर्ब्स ने 2019 में रिपोर्ट किया कि NBA अंतरराष्ट्रीय टीवी अधिकारों में $500m कमा रहा है। NFL अब ब्राज़ील, इंग्लैंड, जर्मनी और मेक्सिको में खेल आयोजित कर रहा है क्योंकि यह भविष्य में अंतरराष्ट्रीय विस्तार को एक मुख्य राजस्व चालक के रूप में देखता है।

और जबकि अधिकांश खेल आयोजन लाइव देखने के लिए होते हैं, लोग पहले से ही कुछ विलंब के आदी हैं, चाहे उन्हें पता हो या नहीं। स्टेडियम में कैप्चर की गई फुटेज को आपके घर की स्क्रीन तक पहुँचने में लगने वाला समय 5 सेकंड से लेकर कुछ मिनटों तक हो सकता है।

आमतौर पर साइट पर कई कैमरा और साउंड ऑपरेटर होते हैं जो अपनी फुटेज को एक प्रोडक्शन सुविधा में स्ट्रीम करते हैं। प्रोडक्शन सुविधा कैमरा फीड्स के बीच स्विच करती है, ऑडियो मिक्स करती है, ग्राफिक्स ओवरले करती है, और टिप्पणी जोड़ती है। वे जानबूझकर अतिरिक्त विलंब भी जोड़ सकते हैं ताकि शाप शब्दों या अन्य अप्रत्याशित सामग्री को सुनकर बीप कर सकें।

मुख्य प्रोडक्शन फीड को प्रसारण नेटवर्क को भेजा जाता है जो अपनी ब्रांडिंग और विज्ञापन जोड़ते हैं और सामग्री को अपने स्थानीय नेटवर्क में वितरित करते हैं। अंत में, अंतिम मील प्रदाता केबल, सैटेलाइट फीड्स और स्ट्रीमिंग सेवाओं के माध्यम से उपभोक्ताओं के साथ सामग्री साझा करते हैं।

Broadcast latency

कई निर्माता रिपोर्ट करते हैं कि डबिंग के लिए 20 सेकंड तक का अतिरिक्त विलंब जोड़ना स्वीकार्य होगा। अतिरिक्त विलंब की भरपाई इस तथ्य से अधिक होती है कि दर्शक अपनी मातृभाषा में सुन सकते हैं।

खेल कंपनियाँ सबसे अधिक गुणवत्ता वाले प्रोडक्ट प्रदान करने की परवाह करती हैं और वे मानती हैं कि गुणवत्ता वाले प्रोडक्ट की कुंजी प्रसारकों की भावना और समय को प्रभावी ढंग से कैप्चर करना है। 'वह शूट करता है, वह स्कोर करता है!' को उत्साह के साथ प्रस्तुत किया जाना चाहिए।

हमारी वॉइस क्लोनिंग मॉडल जो हमारी डबिंग सेवा का आधार हैं, मूल वक्ता की भावना और प्रस्तुति को कैप्चर करने में सक्षम हैं। अनुवाद के विपरीत, अधिक संदर्भ हमेशा बेहतर परिणाम की ओर नहीं ले जाता। हालांकि, हम अभी तक स्पेनिश फुटबॉल कमेंटेटर के भावनात्मक स्तर पर नहीं हैं!

प्रत्येक वॉइस क्लोन अपने इनपुट्स का औसत होता है। यदि आप एक पंक्ति को जोड़ते हैं जो सपाट रूप से प्रस्तुत की गई है जैसे 'उन्हें अधिक आक्रामक होने की आवश्यकता होगी क्योंकि केवल दो मिनट शेष हैं।' के साथ 'वह शूट करता है, वह स्कोर करता है!', तो परिणामी क्लोन दोनों की औसत प्रस्तुति होगी।

Dubbing Studio Soccer Announcer

आज, हम ट्रांसक्रिप्ट अनुवाद की तुलना में वॉइस क्लोनिंग के लिए छोटे संदर्भ लंबाई रखकर इसे पार कर सकते हैं। भविष्य में, हम अपने डबिंग मॉडल को अतिरिक्त संदर्भ (जैसे छवि और वीडियो) प्रदान करके या मूल वक्ता का 'भावनात्मक ट्रांसक्रिप्ट' बनाकर और उसका उपयोग करके डब ऑडियो की प्रस्तुति को निर्देशित करके अतिरिक्त लाभ प्राप्त करने की उम्मीद करते हैं।

समाचार प्रसारण

जैसे 'लाइव' खेल, समाचार प्रसारण एक प्रोडक्शन पाइपलाइन से गुजरता है जो विलंब जोड़ता है। मीडिया कंपनियों के साथ हमारी बातचीत से, भावना को पकड़ना (जबकि महत्वपूर्ण है) कम महत्वपूर्ण है और अक्सर आसान होता है क्योंकि अधिकांश समाचार प्रस्तुतकर्ताओं की प्रस्तुति बहुत सुसंगत होती है। हालांकि, यह अत्यंत महत्वपूर्ण है कि अनुवाद सटीक और सूक्ष्म हो।

स्वचालित अनुवाद सेवा में विफलता की संभावना के अलावा, कुछ अवधारणाओं का कोई प्रत्यक्ष अनुवाद नहीं होता। निम्नलिखित पर विचार करें:

"समुदाय एक स्मरण दिवस के लिए एकत्र हुआ, जहाँ बचे हुए लोगों ने अपनी कहानियाँ साझा कीं और बुजुर्गों ने उपचार के लिए पारंपरिक प्रार्थनाएँ कीं।"

स्पेनिश: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."

हालांकि तकनीकी रूप से सटीक है, 'survivors' बनाम 'sobrevivientes' ऐतिहासिक आघात के संदर्भ में अलग-अलग वजन रखता है - अंग्रेजी में यह अक्सर लचीलापन और गरिमा का संकेत देता है, जबकि 'sobrevivientes' पीड़ितता पर जोर दे सकता है। इसी तरह, 'performed prayers' बनाम 'realizaron oraciones' श्रद्धा में भिन्न होता है - 'performed' समारोह की महत्ता को स्वीकार करता है जबकि 'realizaron' अधिक प्रक्रियात्मक लग सकता है।

बोनस - कन्वर्सेशनल डबिंग की राह

उन लोगों के बीच स्वाभाविक, व्यक्तिगत बातचीत की अनुमति देने के लिए जो एक ही भाषा नहीं बोलते, आपको लगभग तात्कालिक अनुवाद की आवश्यकता होती है।

LLMs की अगली टोकन भविष्यवाणी संभावनाओं का उपयोग करके, आपके पास एक वास्तविक समय मॉडल होता है कि एक वाक्य कहाँ जा रहा है।

LLM Probabilities - Hugging Face

छवि स्रोत - Hugging Face "How to generate text"

यदि हम इस अगली टोकन भविष्यवाणी मॉडल को एक व्यक्तिगत वक्ता पर फाइन ट्यून करते हैं, तो हमें यह समझने में उचित समझ होगी कि वे आगे कहाँ जा रहे हैं। इस जानकारी का उपयोग करके, हम 'धोखा' दे सकते हैं और अनुवाद और भाषण उत्पादन को पहले से ही शुरू कर सकते हैं जब हमें यह उच्च निश्चितता हो कि वक्ता आगे कहाँ जा रहा है।

क्या यह दिलचस्प लगता है और आप AI ऑडियो के भविष्य पर हमारे साथ काम करना चाहते हैं? यहाँ खुले पदों का अन्वेषण करें.

और जानें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें