
तीन नई भाषाओं का परिचय: हंगेरियन, वियतनामी और नॉर्वेजियन
- श्रेणी
- रिसर्च
- तारीख
ध्वनि रूपांतरण से आप एक व्यक्ति की आवाज को दूसरे व्यक्ति की आवाज में परिवर्तित कर सकते हैं। यह लक्ष्यित आवाज को - अर्थात, जिस आवाज को हम रूपांतरित करते हैं - कोड करने के लिए वॉयस क्लोनिंग नामक प्रक्रिया का उपयोग करता है, तथा उसी संदेश को इस तरह से बोलता है जो लक्ष्यित वक्ता की पहचान से मेल खाता है, लेकिन मूल स्वर को सुरक्षित रखता है।
उच्च गुणवत्ता वाली आवाज रूपांतरण और आवाज क्लोनिंग प्रौद्योगिकी में विभिन्न उद्योगों में सामग्री के उत्पादन, वितरण और उससे बातचीत के तरीके में क्रांतिकारी बदलाव लाने की क्षमता है। वे उत्पादन समय और लागत को अनुकूलित करने का वादा करते हैं, तथा रूपांतरण एल्गोरिदम को प्रशिक्षित करने के लिए अपनी आवाज उठाने वालों को निष्क्रिय शुल्क अर्जित करने के तरीके उपलब्ध कराने का वादा करते हैं।
यद्यपि हम अपने टूल पैकेज के भाग के रूप में इलेवन में ध्वनि रूपांतरण सॉफ्टवेयर का विकास करते हैं, तथापि ध्वनि क्लोनिंग और ध्वनि संश्लेषण पर हमारा शोध मुख्य रूप से हमारे मुख्य उत्पाद के विकास को बढ़ावा देता है, जिसे हम अगले वर्ष के प्रारम्भ में जारी करने की योजना बना रहे हैं: पहचान-संरक्षण करने वाला स्वचालित डबिंग टूल।
यहां हमारा लक्ष्य सभी बोली जाने वाली सामग्री को मूल वक्ता की आवाज में, एक बटन के क्लिक पर, विभिन्न भाषाओं में सुलभ बनाना है। अंग्रेजी में एक शैक्षिक यूट्यूब वीडियो की कल्पना करें। यदि कोई व्यक्ति केवल स्पेनिश बोलता है (लेकिन यदि वह भाषा जानता होता तो उसे यह विषय दिलचस्प लगता), तो यह एक समस्या है। निश्चित रूप से, कैप्शन एक समाधान प्रदान करते हैं, लेकिन हमारा उद्देश्य विषय-वस्तु के साथ जुड़ने का एक अधिक मनोरंजक और मनोरंजक तरीका प्रदान करना है। हम चाहते हैं कि वही व्यक्ति स्वाभाविक रूप से वही संदेश देशी स्पेनिश में बोले, भले ही वह वास्तव में ऐसा न करता हो।
इस उद्देश्य से, वॉयस क्लोनिंग हमें उनकी पहचान - उनकी आवाज की ध्वनि - को संरक्षित करने की अनुमति देती है। हम इसका प्रयोग भिन्न भाषा में नये उच्चारण उत्पन्न करने के लिए करते हैं, जिससे ऐसा प्रतीत होता है कि यह वही व्यक्ति बोल रहा है।
आवाज रूपांतरण इसलिए महत्वपूर्ण है क्योंकि हम उनकी भावनाओं, इरादे और प्रस्तुति की शैली को अधिकतम तल्लीनता के लिए संरक्षित करना चाहते हैं। हम मजबूत बहुभाषी मॉडलों को प्रशिक्षित करते हैं, जो हमें स्रोत भाषा में कथनों का विश्लेषण करने और उन्हें सही उच्चारण के साथ लक्ष्य भाषा में मैप करने में सक्षम बनाते हैं।
एक व्यक्ति की आवाज को दूसरे व्यक्ति की आवाज में परिवर्तित करने के लिए, अर्थात स्रोत भाषण को लक्ष्य भाषण में परिवर्तित करने के लिए, हमें स्रोत भाषण सामग्री को लक्ष्य भाषण विशेषताओं के साथ व्यक्त करने के लिए एक एल्गोरिथ्म की आवश्यकता होती है। यहां एक अच्छा उदाहरण फेस-स्वैपिंग एप्स है, जो आपको अपना चेहरा किसी और के चेहरे के साथ मिलाकर दोनों की एक तस्वीर बनाने की सुविधा देता है।
ऐसा करने का तरीका यह है कि किसी चेहरे की छवि ली जाए और उसकी विशेषताओं का मानचित्रण किया जाए। नीचे दिए गए उदाहरण में बिंदु ठीक यही करते हैं: वे वे सीमाएं हैं जिनके अंदर दूसरे चेहरे की विशेषताएं प्रस्तुत की जाएंगी।
ध्वनि रूपांतरण में, हमें एल्गोरिथ्म द्वारा लक्ष्य भाषण गुणों को एनकोड करने के लिए एक तरीके की आवश्यकता होती है। एल्गोरिथ्म को उस भाषण के कई उदाहरणों वाले डेटा के एक सेट पर प्रशिक्षित किया जाता है। यह उन नमूनों को मौलिक स्तर तक - अर्थात् वाणी के "परमाणुओं" तक - तोड़ देता है। वाणी में वाक्य शामिल होते हैं। वाक्य शब्दों से बने होते हैं। शब्द ध्वनि-अक्षरों से बने होते हैं और वे लक्ष्य भाषण की विशेषताओं को दर्शाते हैं। वे मूलभूत स्तर हैं जिस पर एल्गोरिदम कार्य करता है।
ध्वनि रूपांतरण की युक्ति यह है कि लक्ष्य ध्वनि ध्वनियों का उपयोग करके स्रोत ध्वनि सामग्री को प्रस्तुत किया जाए। लेकिन यहां भी एक समझौता है, जैसा कि चेहरा-बदली के उदाहरण में है: एक चेहरे की विशेषताओं को मैप करने के लिए आप जितने अधिक मार्करों का उपयोग करेंगे, आप उनके अंदर मैप किए गए चेहरे पर उतनी ही अधिक बाधाएं लगाएंगे। कम मार्कर का मतलब है कम बाधाएं। आवाज रूपांतरण के संबंध में भी यही बात सत्य है। हम लक्ष्य भाषण को जितनी अधिक प्राथमिकता देंगे, स्रोत भाषण से तालमेल बिगड़ने का खतरा उतना ही अधिक होगा। लेकिन यदि हम इसे पर्याप्त वरीयता नहीं देते हैं, तो हम उस भाषण की विशेषता को खोने का जोखिम उठाते हैं। उदाहरण के लिए, यदि हम किसी व्यक्ति के गुस्से से चिल्लाने की रिकॉर्डिंग मॉर्गन फ्रीमैन की आवाज में प्रस्तुत करें, तो हम मुश्किल में पड़ जाएंगे। भाषण के स्रोत या भावनाओं को बहुत अधिक वरीयता देने से हमें यह धारणा खोनी पड़ती है कि यह वास्तव में मॉर्गन फ्रीमैन बोल रहे हैं। अपने भाषण के पैटर्न पर बहुत अधिक जोर देने से हम मूल भाषण के भावनात्मक आवेश को खो देते हैं।
वॉयस क्लोनिंग से संबंधित नैतिक चिंताओं पर ध्यान दिया जाना आवश्यक है, क्योंकि इस प्रौद्योगिकी के दुरुपयोग की संभावना के कारण बड़ी संख्या में लोग चिंतित हैं। 2020 में घोटालेबाजों द्वारा सीईओ का रूप धारण करके फोन कॉल पर 35 मिलियन डॉलर के बैंक हस्तांतरण को अधिकृत करने के लिए ऑडियो डीपफेक का इस्तेमाल किया गया था। एक ऐसी प्रौद्योगिकी जो यह विश्वास दिला सकती है कि किसी ने कुछ ऐसा कहा है जो उसने नहीं कहा, स्वाभाविक रूप से इस बात की आशंका पैदा करती है कि इसका प्रयोग गलत सूचना देने, बदनाम करने या धोखाधड़ी करने के लिए किया जा सकता है। इसी प्रकार, यदि ध्वनि रूपांतरण उपयोगकर्ताओं को ध्वनि स्वामियों की सहमति के बिना उत्पन्न सामग्री से लाभ उठाने की अनुमति देता है, तो यह कॉपीराइट उल्लंघन के बारे में महत्वपूर्ण प्रश्न उठाता है।
इलेवन में हम यह सुनिश्चित करने के लिए हर संभव प्रयास करने की आवश्यकता महसूस करते हैं कि हमारी प्रौद्योगिकी का उपयोग गलत उद्देश्यों के लिए न किया जाए तथा इसके खतरों से सुरक्षा के लिए सुरक्षा उपाय लागू किए जाएं:
हमारा मानना है कि दुरुपयोग का डर शक्तिशाली नई प्रौद्योगिकियों के प्रति हमारे दृष्टिकोण को प्रभावित करने वाला कारक नहीं होना चाहिए। बल्कि हमें यह सुनिश्चित करने का प्रयास करना चाहिए कि विकास के समय उचित सुरक्षा उपाय लागू किए जाएं ताकि नुकसान का जोखिम न्यूनतम हो सके, जबकि हम व्यापक समुदाय के लिए प्रौद्योगिकी द्वारा प्रदान की जाने वाली क्षमता का अधिकतम लाभ उठा सकें।
ध्वनि रूपांतरण और ध्वनि क्लोनिंग प्रौद्योगिकी फिल्म निर्माण, टेलीविजन, सामग्री निर्माण, खेल विकास, पॉडकास्ट और ऑडियोबुक के साथ-साथ विज्ञापन उद्योगों में भी क्रांतिकारी बदलाव लाने का वादा करती है। लेकिन इनका उपयोग वाणिज्यिक क्षेत्र से आगे बढ़कर चिकित्सा, शिक्षा और संचार में भी हो सकता है।
वॉयस क्लोनिंग एक ऐसे भविष्य का मार्ग प्रशस्त कर रही है, जहां किसी भी विषय-वस्तु को किसी भी भाषा और आवाज में तैयार किया जा सकेगा, जिससे दुनिया भर में लाखों लोगों तक पहुंचा जा सकेगा और एक पूरी तरह से नई अर्थव्यवस्था का निर्माण होगा। इलेवन में हमारा लक्ष्य इस भविष्य को साकार करने में सहायता करना है।



