आवाज़ रूपांतरण

प्रकाशित: 6 सित॰ 2022
आखिरी बार अपडेट किया गया: 28 जुल॰ 2026

सुनेंइस आर्टिकल को सुनें

0:00

0:000:00

आवाज रूपांतरण क्या है?

वॉइस कन्वर्ज़न से आप एक व्यक्ति की आवाज़ को दूसरे की आवाज़ में बदल सकते हैं। इसमें एक प्रक्रिया का इस्तेमाल होता है जिसे

उपयोग

उच्च गुणवत्ता वाली आवाज रूपांतरण और आवाज क्लोनिंग प्रौद्योगिकी में विभिन्न उद्योगों में सामग्री के उत्पादन, वितरण और उससे बातचीत के तरीके में क्रांतिकारी बदलाव लाने की क्षमता है। वे उत्पादन समय और लागत को अनुकूलित करने का वादा करते हैं, तथा रूपांतरण एल्गोरिदम को प्रशिक्षित करने के लिए अपनी आवाज उठाने वालों को निष्क्रिय शुल्क अर्जित करने के तरीके उपलब्ध कराने का वादा करते हैं।

फिल्म निर्माण में अभिनेता सेट या स्टूडियो की यात्रा किए बिना ऑडियो ट्रैक बनाने के लिए अपने वॉयस डेटाबेस को निर्माताओं के साथ साझा कर सकते हैं;
गलत बोली गई पंक्तियों को पोस्ट प्रोडक्शन में अधिक प्रभावी ढंग से पुनः रिकॉर्ड किया जा सकता है;
प्रौद्योगिकी का उपयोग काल्पनिक परिदृश्यों में ऐतिहासिक पात्रों की आवाज़ को विश्वसनीय रूप से पुन: प्रस्तुत करने या मृत अभिनेताओं को वापस जीवन में लाने के लिए भी किया जा सकता है;
वीडियो गेम विकास को भी यह तकनीक समान रूप से उपयोगी लगेगी: उच्चारण को सही करना या केवल प्रयोग करना मौके पर ही किया जा सकता है और रिकॉर्डिंग के लिए अभिनेता की शारीरिक उपस्थिति की आवश्यकता नहीं होगी;
चिकित्सा में, जो मरीज़ बोलने की क्षमता खो चुके हैं, उदाहरण के लिए गले के कैंसर के उपचार के परिणामस्वरूप, उन्हें अपनी आवाज़ में फिर से संवाद करने का मौका दिया जा सकता है;
आभासी सहायक व्यक्तिगत बन सकते हैं क्योंकि घरेलू उपयोगकर्ताओं को संभवतः किसी अजनबी की आवाज के बजाय किसी प्रियजन की आवाज के साथ बातचीत करना अधिक स्वाभाविक लगता है;
इसके विपरीत, विज्ञापन उद्योग को सिंथेटिक वॉयसओवर शुरू करने से लाभ हो सकता है, जो किसी भी इंसान की तरह वास्तविक लगता है, फिर भी अधिकार स्वामित्व और रॉयल्टी से संबंधित मुद्दों से बचा जाता है। दूसरी ओर, यदि वास्तव में एक पहचानने योग्य आवाज की आवश्यकता है, तो यहां भी, विज्ञापन निर्माता किसी विशेष अभिनेता की आवाज को सहमति से क्लोन करने के लिए प्रौद्योगिकी का उपयोग कर सकते हैं, बिना उन्हें लंबे रिकॉर्डिंग सत्रों में शारीरिक रूप से उपस्थित होने की आवश्यकता के;
ऑडियोबुक और पॉडकास्ट उद्योग दो और तेजी से बढ़ते व्यवसाय हैं, जहां वॉयस क्लोनिंग और वॉयस रूपांतरण प्रौद्योगिकी का उपयोग करके इमर्सिव कंटेंट के उत्पादन और संपादन को अनुकूलित करने का अवसर मिलता है।

ग्यारह लैब्स आवाज रूपांतरण

हम ElevenLabs में अपने टूल पैकेज के हिस्से के रूप में वॉइस कन्वर्ज़न सॉफ्टवेयर डेवलप करते हैं, लेकिन हमारा रिसर्च

हमारा मकसद है कि हर बोली गई कंटेंट को अलग-अलग भाषाओं में ओरिजिनल स्पीकर की वॉइस में, सिर्फ एक क्लिक पर, सबके लिए एक्सेसिबल बनाएं। सोचिए एक एजुकेशनल

इस उद्देश्य से, वॉयस क्लोनिंग हमें उनकी पहचान - उनकी आवाज की ध्वनि - को संरक्षित करने की अनुमति देती है। हम इसका प्रयोग भिन्न भाषा में नये उच्चारण उत्पन्न करने के लिए करते हैं, जिससे ऐसा प्रतीत होता है कि यह वही व्यक्ति बोल रहा है।

आवाज रूपांतरण इसलिए महत्वपूर्ण है क्योंकि हम उनकी भावनाओं, इरादे और प्रस्तुति की शैली को अधिकतम तल्लीनता के लिए संरक्षित करना चाहते हैं। हम मजबूत बहुभाषी मॉडलों को प्रशिक्षित करते हैं, जो हमें स्रोत भाषा में कथनों का विश्लेषण करने और उन्हें सही उच्चारण के साथ लक्ष्य भाषा में मैप करने में सक्षम बनाते हैं।

प्रक्रिया

एक व्यक्ति की आवाज को दूसरे व्यक्ति की आवाज में परिवर्तित करने के लिए, अर्थात स्रोत भाषण को लक्ष्य भाषण में परिवर्तित करने के लिए, हमें स्रोत भाषण सामग्री को लक्ष्य भाषण विशेषताओं के साथ व्यक्त करने के लिए एक एल्गोरिथ्म की आवश्यकता होती है। यहां एक अच्छा उदाहरण फेस-स्वैपिंग एप्स है, जो आपको अपना चेहरा किसी और के चेहरे के साथ मिलाकर दोनों की एक तस्वीर बनाने की सुविधा देता है।

ऐसा करने का तरीका यह है कि किसी चेहरे की छवि ली जाए और उसकी विशेषताओं का मानचित्रण किया जाए। नीचे दिए गए उदाहरण में बिंदु ठीक यही करते हैं: वे वे सीमाएं हैं जिनके अंदर दूसरे चेहरे की विशेषताएं प्रस्तुत की जाएंगी।

ध्वनि रूपांतरण में, हमें एल्गोरिथ्म द्वारा लक्ष्य भाषण गुणों को एनकोड करने के लिए एक तरीके की आवश्यकता होती है। एल्गोरिथ्म को उस भाषण के कई उदाहरणों वाले डेटा के एक सेट पर प्रशिक्षित किया जाता है। यह उन नमूनों को मौलिक स्तर तक - अर्थात् वाणी के "परमाणुओं" तक - तोड़ देता है। वाणी में वाक्य शामिल होते हैं। वाक्य शब्दों से बने होते हैं। शब्द ध्वनि-अक्षरों से बने होते हैं और वे लक्ष्य भाषण की विशेषताओं को दर्शाते हैं। वे मूलभूत स्तर हैं जिस पर एल्गोरिदम कार्य करता है।

ध्वनि रूपांतरण की युक्ति यह है कि लक्ष्य ध्वनि ध्वनियों का उपयोग करके स्रोत ध्वनि सामग्री को प्रस्तुत किया जाए। लेकिन यहां भी एक समझौता है, जैसा कि चेहरा-बदली के उदाहरण में है: एक चेहरे की विशेषताओं को मैप करने के लिए आप जितने अधिक मार्करों का उपयोग करेंगे, आप उनके अंदर मैप किए गए चेहरे पर उतनी ही अधिक बाधाएं लगाएंगे। कम मार्कर का मतलब है कम बाधाएं। आवाज रूपांतरण के संबंध में भी यही बात सत्य है। हम लक्ष्य भाषण को जितनी अधिक प्राथमिकता देंगे, स्रोत भाषण से तालमेल बिगड़ने का खतरा उतना ही अधिक होगा। लेकिन यदि हम इसे पर्याप्त वरीयता नहीं देते हैं, तो हम उस भाषण की विशेषता को खोने का जोखिम उठाते हैं। उदाहरण के लिए, यदि हम किसी व्यक्ति के गुस्से से चिल्लाने की रिकॉर्डिंग मॉर्गन फ्रीमैन की आवाज में प्रस्तुत करें, तो हम मुश्किल में पड़ जाएंगे। भाषण के स्रोत या भावनाओं को बहुत अधिक वरीयता देने से हमें यह धारणा खोनी पड़ती है कि यह वास्तव में मॉर्गन फ्रीमैन बोल रहे हैं। अपने भाषण के पैटर्न पर बहुत अधिक जोर देने से हम मूल भाषण के भावनात्मक आवेश को खो देते हैं।

नीति

वॉयस क्लोनिंग से संबंधित नैतिक चिंताओं पर ध्यान दिया जाना आवश्यक है, क्योंकि इस प्रौद्योगिकी के दुरुपयोग की संभावना के कारण बड़ी संख्या में लोग चिंतित हैं। 2020 में घोटालेबाजों द्वारा सीईओ का रूप धारण करके फोन कॉल पर 35 मिलियन डॉलर के बैंक हस्तांतरण को अधिकृत करने के लिए ऑडियो डीपफेक का इस्तेमाल किया गया था। एक ऐसी प्रौद्योगिकी जो यह विश्वास दिला सकती है कि किसी ने कुछ ऐसा कहा है जो उसने नहीं कहा, स्वाभाविक रूप से इस बात की आशंका पैदा करती है कि इसका प्रयोग गलत सूचना देने, बदनाम करने या धोखाधड़ी करने के लिए किया जा सकता है। इसी प्रकार, यदि ध्वनि रूपांतरण उपयोगकर्ताओं को ध्वनि स्वामियों की सहमति के बिना उत्पन्न सामग्री से लाभ उठाने की अनुमति देता है, तो यह कॉपीराइट उल्लंघन के बारे में महत्वपूर्ण प्रश्न उठाता है।

इलेवन में हम यह सुनिश्चित करने के लिए हर संभव प्रयास करने की आवश्यकता महसूस करते हैं कि हमारी प्रौद्योगिकी का उपयोग गलत उद्देश्यों के लिए न किया जाए तथा इसके खतरों से सुरक्षा के लिए सुरक्षा उपाय लागू किए जाएं:

हम केवल उन ग्राहकों के साथ साझेदारी करते हैं जो हमारी शर्तों का पालन करते हैं जो हमारी तकनीक के दुर्भावनापूर्ण उपयोग को गलत सूचना देने, बदनाम करने, धोखाधड़ी करने या किसी अन्य उद्देश्य के लिए प्रतिबंधित करती हैं जिसे अवैध या हानिकारक माना जा सकता है;
इलेवन द्वारा निर्मित सिंथेटिक वीडियो सामग्री में एक स्पष्ट वॉटरमार्क शामिल है, जिसमें कहा गया है कि यह एआई द्वारा निर्मित है। ऑडियो सामग्री में स्पष्ट फ़ाइल विवरण शामिल है। जब हम पहचानने योग्य आवाज़ों का उपयोग करते हैं, तो हम ऐसा प्रदर्शन के उद्देश्य से और ऐसे संदर्भों में करते हैं जो हितों के टकराव को जन्म नहीं देते हैं;
साथ ही हम वॉयस मालिकों और उनके लाइसेंसधारकों को उनके अधिकारों का दावा करने में समर्थन देना चाहते हैं।
यदि आपके पास हमारे रुख को बेहतर बनाने के बारे में कोई सुझाव है तो कृपया हमें बताएं एथिक्स@इलेवनलैब्स.आईओ

हमारा मानना है कि दुरुपयोग का डर शक्तिशाली नई प्रौद्योगिकियों के प्रति हमारे दृष्टिकोण को प्रभावित करने वाला कारक नहीं होना चाहिए। बल्कि हमें यह सुनिश्चित करने का प्रयास करना चाहिए कि विकास के समय उचित सुरक्षा उपाय लागू किए जाएं ताकि नुकसान का जोखिम न्यूनतम हो सके, जबकि हम व्यापक समुदाय के लिए प्रौद्योगिकी द्वारा प्रदान की जाने वाली क्षमता का अधिकतम लाभ उठा सकें।

भविष्य

ध्वनि रूपांतरण और ध्वनि क्लोनिंग प्रौद्योगिकी फिल्म निर्माण, टेलीविजन, सामग्री निर्माण, खेल विकास, पॉडकास्ट और ऑडियोबुक के साथ-साथ विज्ञापन उद्योगों में भी क्रांतिकारी बदलाव लाने का वादा करती है। लेकिन इनका उपयोग वाणिज्यिक क्षेत्र से आगे बढ़कर चिकित्सा, शिक्षा और संचार में भी हो सकता है।

वॉयस क्लोनिंग एक ऐसे भविष्य का मार्ग प्रशस्त कर रही है, जहां किसी भी विषय-वस्तु को किसी भी भाषा और आवाज में तैयार किया जा सकेगा, जिससे दुनिया भर में लाखों लोगों तक पहुंचा जा सकेगा और एक पूरी तरह से नई अर्थव्यवस्था का निर्माण होगा। इलेवन में हमारा लक्ष्य इस भविष्य को साकार करने में सहायता करना है।

आवाज़ रूपांतरण

आवाज रूपांतरण क्या है?

उपयोग

ग्यारह लैब्स आवाज रूपांतरण

प्रक्रिया

नीति

भविष्य

संबंधित लेख

Eleven Music आ गया है

वॉइस डिज़ाइन v3 का परिचय

Eleven v3 (alpha) पेश कर रहे हैं

मिलिए Scribe से