
पहला AI जो हंस सकता है
हमारा मॉडल अनोखे तरीके से भावनाएं उत्पन्न करता है
Eleven v3 अल्फा का परिचय
v3 आजमाएंकुछ लोगों के लिए, रियल-टाइम डबिंग 'हिचहाइकर गाइड टू द गैलेक्सी' के बेबेलफिश की छवि को उभारती है।
बेबेलफिश 'मस्तिष्क तरंग ऊर्जा पर निर्भर करता है, अवचेतन आवृत्तियों को अवशोषित करता है और मस्तिष्क के भाषण केंद्रों में सचेत आवृत्तियों का मैट्रिक्स उत्सर्जित करता है।' व्यवहार में, इसका मतलब है कि जब आप इसे अपने कान में डालते हैं, तो कोई भी व्यक्ति आपसे किसी भी भाषा में बात करता है, तो आप उन्हें तुरंत अपनी मातृभाषा में सुनते हैं (और आप स्रोत ऑडियो को बिल्कुल नहीं सुनते)।
जब तक हम मस्तिष्क तरंगों को पढ़ नहीं सकते, हमें वक्ता के शब्दों को सुनकर उन्हें हमारी लक्षित भाषा में अनुवाद करना होगा। वक्ता के मुंह से निकलते ही हर शब्द का अनुवाद करने का प्रयास करना वास्तविक चुनौतियाँ प्रस्तुत करता है।
कल्पना करें कि आप अंग्रेजी से स्पेनिश में अनुवाद करना चाहते हैं। वक्ता 'The' से शुरू करता है। स्पेनिश में, 'The' का अनुवाद 'El' होता है पुरुषवाचक शब्दों के लिए और 'La' होता है स्त्रीवाचक शब्दों के लिए। इसलिए हम 'The' का निश्चित रूप से अनुवाद नहीं कर सकते जब तक हमें और जानकारी न मिले।
कल्पना करें कि वक्ता जारी रखता है 'The running water'। अब हमारे पास पहले तीन शब्दों का अनुवाद 'El agua corriente' करने के लिए पर्याप्त जानकारी है। मान लें कि वाक्य जारी रहता है 'The running water is too cold for swimming' तो हम सही दिशा में हैं।
लेकिन अगर वक्ता जारी रखता है 'The running water buffalo...' तो हमें पीछे हटना पड़ेगा।
बात को और स्पष्ट करने के लिए, अगर वक्ता जारी रखता है 'The running water buffalo protected her calf', तो हमें वाक्य की शुरुआत 'La búfala' से करनी चाहिए थी न कि 'El búfalo' से।
ये “garden path” वाक्य, जो इस तरह से शुरू होते हैं कि श्रोता की प्रारंभिक व्याख्या गलत हो सकती है, कई भाषाओं में मौजूद हैं।
कुछ उपयोग मामलों के लिए, आप स्वीकार कर सकते हैं कि आपको जल्दी डबिंग शुरू करने के बाद पीछे हटना पड़ेगा। अन्य मामलों में, आप अधिक सटीकता के लिए विलंब जोड़ सकते हैं। चूंकि कुछ विलंब सभी डबिंग उपयोग मामलों में अंतर्निहित होता है, हम 'रियल-टाइम' डबिंग को एक सेवा के रूप में परिभाषित करते हैं जिसके माध्यम से आप लगातार ऑडियो स्ट्रीम कर सकते हैं और अनुवादित सामग्री प्राप्त कर सकते हैं।
रियल-टाइम डबिंग के सर्वोत्तम व्यावसायिक अनुप्रयोग वे हैं जहाँ
फोर्ब्स ने 2019 में रिपोर्ट किया कि NBA अंतरराष्ट्रीय टीवी अधिकारों में $500m कमा रहा है। NFL अब ब्राज़ील, इंग्लैंड, जर्मनी और मेक्सिको में खेल आयोजित कर रहा है क्योंकि यह भविष्य में अंतरराष्ट्रीय विस्तार को एक मुख्य राजस्व चालक के रूप में देखता है।
और जबकि अधिकांश खेल आयोजन लाइव देखने के लिए होते हैं, लोग पहले से ही कुछ विलंब के आदी हैं, चाहे उन्हें पता हो या नहीं। स्टेडियम में कैप्चर की गई फुटेज को आपके घर की स्क्रीन तक पहुँचने में लगने वाला समय 5 सेकंड से लेकर कुछ मिनटों तक हो सकता है।
आमतौर पर साइट पर कई कैमरा और साउंड ऑपरेटर होते हैं जो अपनी फुटेज को एक प्रोडक्शन सुविधा में स्ट्रीम करते हैं। प्रोडक्शन सुविधा कैमरा फीड्स के बीच स्विच करती है, ऑडियो मिक्स करती है, ग्राफिक्स ओवरले करती है, और टिप्पणी जोड़ती है। वे जानबूझकर अतिरिक्त विलंब भी जोड़ सकते हैं ताकि शाप शब्दों या अन्य अप्रत्याशित सामग्री को सुनकर बीप कर सकें।
मुख्य प्रोडक्शन फीड को प्रसारण नेटवर्क को भेजा जाता है जो अपनी ब्रांडिंग और विज्ञापन जोड़ते हैं और सामग्री को अपने स्थानीय नेटवर्क में वितरित करते हैं। अंत में, अंतिम मील प्रदाता केबल, सैटेलाइट फीड्स और स्ट्रीमिंग सेवाओं के माध्यम से उपभोक्ताओं के साथ सामग्री साझा करते हैं।
कई निर्माता रिपोर्ट करते हैं कि डबिंग के लिए 20 सेकंड तक का अतिरिक्त विलंब जोड़ना स्वीकार्य होगा। अतिरिक्त विलंब की भरपाई इस तथ्य से अधिक होती है कि दर्शक अपनी मातृभाषा में सुन सकते हैं।
खेल कंपनियाँ सबसे अधिक गुणवत्ता वाले प्रोडक्ट प्रदान करने की परवाह करती हैं और वे मानती हैं कि गुणवत्ता वाले प्रोडक्ट की कुंजी प्रसारकों की भावना और समय को प्रभावी ढंग से कैप्चर करना है। 'वह शूट करता है, वह स्कोर करता है!' को उत्साह के साथ प्रस्तुत किया जाना चाहिए।
हमारी वॉइस क्लोनिंग मॉडल जो हमारी डबिंग सेवा का आधार हैं, मूल वक्ता की भावना और प्रस्तुति को कैप्चर करने में सक्षम हैं। अनुवाद के विपरीत, अधिक संदर्भ हमेशा बेहतर परिणाम की ओर नहीं ले जाता। हालांकि, हम अभी तक स्पेनिश फुटबॉल कमेंटेटर के भावनात्मक स्तर पर नहीं हैं!
प्रत्येक वॉइस क्लोन अपने इनपुट्स का औसत होता है। यदि आप एक पंक्ति को जोड़ते हैं जो सपाट रूप से प्रस्तुत की गई है जैसे 'उन्हें अधिक आक्रामक होने की आवश्यकता होगी क्योंकि केवल दो मिनट शेष हैं।' के साथ 'वह शूट करता है, वह स्कोर करता है!', तो परिणामी क्लोन दोनों की औसत प्रस्तुति होगी।
आज, हम ट्रांसक्रिप्ट अनुवाद की तुलना में वॉइस क्लोनिंग के लिए छोटे संदर्भ लंबाई रखकर इसे पार कर सकते हैं। भविष्य में, हम अपने डबिंग मॉडल को अतिरिक्त संदर्भ (जैसे छवि और वीडियो) प्रदान करके या मूल वक्ता का 'भावनात्मक ट्रांसक्रिप्ट' बनाकर और उसका उपयोग करके डब ऑडियो की प्रस्तुति को निर्देशित करके अतिरिक्त लाभ प्राप्त करने की उम्मीद करते हैं।
जैसे 'लाइव' खेल, समाचार प्रसारण एक प्रोडक्शन पाइपलाइन से गुजरता है जो विलंब जोड़ता है। मीडिया कंपनियों के साथ हमारी बातचीत से, भावना को पकड़ना (जबकि महत्वपूर्ण है) कम महत्वपूर्ण है और अक्सर आसान होता है क्योंकि अधिकांश समाचार प्रस्तुतकर्ताओं की प्रस्तुति बहुत सुसंगत होती है। हालांकि, यह अत्यंत महत्वपूर्ण है कि अनुवाद सटीक और सूक्ष्म हो।
स्वचालित अनुवाद सेवा में विफलता की संभावना के अलावा, कुछ अवधारणाओं का कोई प्रत्यक्ष अनुवाद नहीं होता। निम्नलिखित पर विचार करें:
"समुदाय एक स्मरण दिवस के लिए एकत्र हुआ, जहाँ बचे हुए लोगों ने अपनी कहानियाँ साझा कीं और बुजुर्गों ने उपचार के लिए पारंपरिक प्रार्थनाएँ कीं।"
स्पेनिश: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."
हालांकि तकनीकी रूप से सटीक है, 'survivors' बनाम 'sobrevivientes' ऐतिहासिक आघात के संदर्भ में अलग-अलग वजन रखता है - अंग्रेजी में यह अक्सर लचीलापन और गरिमा का संकेत देता है, जबकि 'sobrevivientes' पीड़ितता पर जोर दे सकता है। इसी तरह, 'performed prayers' बनाम 'realizaron oraciones' श्रद्धा में भिन्न होता है - 'performed' समारोह की महत्ता को स्वीकार करता है जबकि 'realizaron' अधिक प्रक्रियात्मक लग सकता है।
उन लोगों के बीच स्वाभाविक, व्यक्तिगत बातचीत की अनुमति देने के लिए जो एक ही भाषा नहीं बोलते, आपको लगभग तात्कालिक अनुवाद की आवश्यकता होती है।
LLMs की अगली टोकन भविष्यवाणी संभावनाओं का उपयोग करके, आपके पास एक वास्तविक समय मॉडल होता है कि एक वाक्य कहाँ जा रहा है।
छवि स्रोत - Hugging Face "How to generate text"
यदि हम इस अगली टोकन भविष्यवाणी मॉडल को एक व्यक्तिगत वक्ता पर फाइन ट्यून करते हैं, तो हमें यह समझने में उचित समझ होगी कि वे आगे कहाँ जा रहे हैं। इस जानकारी का उपयोग करके, हम 'धोखा' दे सकते हैं और अनुवाद और भाषण उत्पादन को पहले से ही शुरू कर सकते हैं जब हमें यह उच्च निश्चितता हो कि वक्ता आगे कहाँ जा रहा है।
क्या यह दिलचस्प लगता है और आप AI ऑडियो के भविष्य पर हमारे साथ काम करना चाहते हैं? यहाँ खुले पदों का अन्वेषण करें.
हमारा मॉडल अनोखे तरीके से भावनाएं उत्पन्न करता है
हम अपना स्वयं का जनरेटिव मॉडल तैनात कर रहे हैं जो उपयोगकर्ताओं को पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने की सुविधा देता है