
Le Walk brings cities to life with ElevenLabs
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
ध्वनि रूपांतरण से आप एक व्यक्ति की आवाज को दूसरे व्यक्ति की आवाज में परिवर्तित कर सकते हैं। यह लक्ष्यित आवाज को - अर्थात, जिस आवाज को हम रूपांतरित करते हैं - कोड करने के लिए वॉयस क्लोनिंग नामक प्रक्रिया का उपयोग करता है, तथा उसी संदेश को इस तरह से बोलता है जो लक्ष्यित वक्ता की पहचान से मेल खाता है, लेकिन मूल स्वर को सुरक्षित रखता है।
उच्च गुणवत्ता वाली आवाज रूपांतरण और आवाज क्लोनिंग प्रौद्योगिकी में विभिन्न उद्योगों में सामग्री के उत्पादन, वितरण और उससे बातचीत के तरीके में क्रांतिकारी बदलाव लाने की क्षमता है। वे उत्पादन समय और लागत को अनुकूलित करने का वादा करते हैं, तथा रूपांतरण एल्गोरिदम को प्रशिक्षित करने के लिए अपनी आवाज उठाने वालों को निष्क्रिय शुल्क अर्जित करने के तरीके उपलब्ध कराने का वादा करते हैं।
यद्यपि हम अपने टूल पैकेज के भाग के रूप में इलेवन में ध्वनि रूपांतरण सॉफ्टवेयर का विकास करते हैं, तथापि ध्वनि क्लोनिंग और ध्वनि संश्लेषण पर हमारा शोध मुख्य रूप से हमारे मुख्य उत्पाद के विकास को बढ़ावा देता है, जिसे हम अगले वर्ष के प्रारम्भ में जारी करने की योजना बना रहे हैं: पहचान-संरक्षण करने वाला स्वचालित डबिंग टूल।
यहां हमारा लक्ष्य सभी बोली जाने वाली सामग्री को मूल वक्ता की आवाज में, एक बटन के क्लिक पर, विभिन्न भाषाओं में सुलभ बनाना है। अंग्रेजी में एक शैक्षिक यूट्यूब वीडियो की कल्पना करें। यदि कोई व्यक्ति केवल स्पेनिश बोलता है (लेकिन यदि वह भाषा जानता होता तो उसे यह विषय दिलचस्प लगता), तो यह एक समस्या है। निश्चित रूप से, कैप्शन एक समाधान प्रदान करते हैं, लेकिन हमारा उद्देश्य विषय-वस्तु के साथ जुड़ने का एक अधिक मनोरंजक और मनोरंजक तरीका प्रदान करना है। हम चाहते हैं कि वही व्यक्ति स्वाभाविक रूप से वही संदेश देशी स्पेनिश में बोले, भले ही वह वास्तव में ऐसा न करता हो।
इस उद्देश्य से, वॉयस क्लोनिंग हमें उनकी पहचान - उनकी आवाज की ध्वनि - को संरक्षित करने की अनुमति देती है। हम इसका प्रयोग भिन्न भाषा में नये उच्चारण उत्पन्न करने के लिए करते हैं, जिससे ऐसा प्रतीत होता है कि यह वही व्यक्ति बोल रहा है।
आवाज रूपांतरण इसलिए महत्वपूर्ण है क्योंकि हम उनकी भावनाओं, इरादे और प्रस्तुति की शैली को अधिकतम तल्लीनता के लिए संरक्षित करना चाहते हैं। हम मजबूत बहुभाषी मॉडलों को प्रशिक्षित करते हैं, जो हमें स्रोत भाषा में कथनों का विश्लेषण करने और उन्हें सही उच्चारण के साथ लक्ष्य भाषा में मैप करने में सक्षम बनाते हैं।
एक व्यक्ति की आवाज को दूसरे व्यक्ति की आवाज में परिवर्तित करने के लिए, अर्थात स्रोत भाषण को लक्ष्य भाषण में परिवर्तित करने के लिए, हमें स्रोत भाषण सामग्री को लक्ष्य भाषण विशेषताओं के साथ व्यक्त करने के लिए एक एल्गोरिथ्म की आवश्यकता होती है। यहां एक अच्छा उदाहरण फेस-स्वैपिंग एप्स है, जो आपको अपना चेहरा किसी और के चेहरे के साथ मिलाकर दोनों की एक तस्वीर बनाने की सुविधा देता है।
ऐसा करने का तरीका यह है कि किसी चेहरे की छवि ली जाए और उसकी विशेषताओं का मानचित्रण किया जाए। नीचे दिए गए उदाहरण में बिंदु ठीक यही करते हैं: वे वे सीमाएं हैं जिनके अंदर दूसरे चेहरे की विशेषताएं प्रस्तुत की जाएंगी।
ध्वनि रूपांतरण में, हमें एल्गोरिथ्म द्वारा लक्ष्य भाषण गुणों को एनकोड करने के लिए एक तरीके की आवश्यकता होती है। एल्गोरिथ्म को उस भाषण के कई उदाहरणों वाले डेटा के एक सेट पर प्रशिक्षित किया जाता है। यह उन नमूनों को मौलिक स्तर तक - अर्थात् वाणी के "परमाणुओं" तक - तोड़ देता है। वाणी में वाक्य शामिल होते हैं। वाक्य शब्दों से बने होते हैं। शब्द ध्वनि-अक्षरों से बने होते हैं और वे लक्ष्य भाषण की विशेषताओं को दर्शाते हैं। वे मूलभूत स्तर हैं जिस पर एल्गोरिदम कार्य करता है।
ध्वनि रूपांतरण की युक्ति यह है कि लक्ष्य ध्वनि ध्वनियों का उपयोग करके स्रोत ध्वनि सामग्री को प्रस्तुत किया जाए। लेकिन यहां भी एक समझौता है, जैसा कि चेहरा-बदली के उदाहरण में है: एक चेहरे की विशेषताओं को मैप करने के लिए आप जितने अधिक मार्करों का उपयोग करेंगे, आप उनके अंदर मैप किए गए चेहरे पर उतनी ही अधिक बाधाएं लगाएंगे। कम मार्कर का मतलब है कम बाधाएं। आवाज रूपांतरण के संबंध में भी यही बात सत्य है। हम लक्ष्य भाषण को जितनी अधिक प्राथमिकता देंगे, स्रोत भाषण से तालमेल बिगड़ने का खतरा उतना ही अधिक होगा। लेकिन यदि हम इसे पर्याप्त वरीयता नहीं देते हैं, तो हम उस भाषण की विशेषता को खोने का जोखिम उठाते हैं। उदाहरण के लिए, यदि हम किसी व्यक्ति के गुस्से से चिल्लाने की रिकॉर्डिंग मॉर्गन फ्रीमैन की आवाज में प्रस्तुत करें, तो हम मुश्किल में पड़ जाएंगे। भाषण के स्रोत या भावनाओं को बहुत अधिक वरीयता देने से हमें यह धारणा खोनी पड़ती है कि यह वास्तव में मॉर्गन फ्रीमैन बोल रहे हैं। अपने भाषण के पैटर्न पर बहुत अधिक जोर देने से हम मूल भाषण के भावनात्मक आवेश को खो देते हैं।
वॉयस क्लोनिंग से संबंधित नैतिक चिंताओं पर ध्यान दिया जाना आवश्यक है, क्योंकि इस प्रौद्योगिकी के दुरुपयोग की संभावना के कारण बड़ी संख्या में लोग चिंतित हैं। 2020 में घोटालेबाजों द्वारा सीईओ का रूप धारण करके फोन कॉल पर 35 मिलियन डॉलर के बैंक हस्तांतरण को अधिकृत करने के लिए ऑडियो डीपफेक का इस्तेमाल किया गया था। एक ऐसी प्रौद्योगिकी जो यह विश्वास दिला सकती है कि किसी ने कुछ ऐसा कहा है जो उसने नहीं कहा, स्वाभाविक रूप से इस बात की आशंका पैदा करती है कि इसका प्रयोग गलत सूचना देने, बदनाम करने या धोखाधड़ी करने के लिए किया जा सकता है। इसी प्रकार, यदि ध्वनि रूपांतरण उपयोगकर्ताओं को ध्वनि स्वामियों की सहमति के बिना उत्पन्न सामग्री से लाभ उठाने की अनुमति देता है, तो यह कॉपीराइट उल्लंघन के बारे में महत्वपूर्ण प्रश्न उठाता है।
इलेवन में हम यह सुनिश्चित करने के लिए हर संभव प्रयास करने की आवश्यकता महसूस करते हैं कि हमारी प्रौद्योगिकी का उपयोग गलत उद्देश्यों के लिए न किया जाए तथा इसके खतरों से सुरक्षा के लिए सुरक्षा उपाय लागू किए जाएं:
हमारा मानना है कि दुरुपयोग का डर शक्तिशाली नई प्रौद्योगिकियों के प्रति हमारे दृष्टिकोण को प्रभावित करने वाला कारक नहीं होना चाहिए। बल्कि हमें यह सुनिश्चित करने का प्रयास करना चाहिए कि विकास के समय उचित सुरक्षा उपाय लागू किए जाएं ताकि नुकसान का जोखिम न्यूनतम हो सके, जबकि हम व्यापक समुदाय के लिए प्रौद्योगिकी द्वारा प्रदान की जाने वाली क्षमता का अधिकतम लाभ उठा सकें।
ध्वनि रूपांतरण और ध्वनि क्लोनिंग प्रौद्योगिकी फिल्म निर्माण, टेलीविजन, सामग्री निर्माण, खेल विकास, पॉडकास्ट और ऑडियोबुक के साथ-साथ विज्ञापन उद्योगों में भी क्रांतिकारी बदलाव लाने का वादा करती है। लेकिन इनका उपयोग वाणिज्यिक क्षेत्र से आगे बढ़कर चिकित्सा, शिक्षा और संचार में भी हो सकता है।
वॉयस क्लोनिंग एक ऐसे भविष्य का मार्ग प्रशस्त कर रही है, जहां किसी भी विषय-वस्तु को किसी भी भाषा और आवाज में तैयार किया जा सकेगा, जिससे दुनिया भर में लाखों लोगों तक पहुंचा जा सकेगा और एक पूरी तरह से नई अर्थव्यवस्था का निर्माण होगा। इलेवन में हमारा लक्ष्य इस भविष्य को साकार करने में सहायता करना है।
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Supporting 10,000+ research conversations with natural, trustworthy voices
ElevenLabs द्वारा संचालित एजेंट्स