.webp&w=3840&q=95)
What happens when two AI voice assistants have a conversation?
At the ElevenLabs London Hackathon, developers created GibberLink, a protocol that lets AI agents recognize each other and switch to a hyper-efficient sound-based language
ध्वनि रूपांतरण से आप एक व्यक्ति की आवाज को दूसरे व्यक्ति की आवाज में परिवर्तित कर सकते हैं। यह लक्ष्यित आवाज को - अर्थात, जिस आवाज को हम रूपांतरित करते हैं - कोड करने के लिए वॉयस क्लोनिंग नामक प्रक्रिया का उपयोग करता है, तथा उसी संदेश को इस तरह से बोलता है जो लक्ष्यित वक्ता की पहचान से मेल खाता है, लेकिन मूल स्वर को सुरक्षित रखता है।
उच्च गुणवत्ता वाली आवाज रूपांतरण और आवाज क्लोनिंग प्रौद्योगिकी में विभिन्न उद्योगों में सामग्री के उत्पादन, वितरण और उससे बातचीत के तरीके में क्रांतिकारी बदलाव लाने की क्षमता है। वे उत्पादन समय और लागत को अनुकूलित करने का वादा करते हैं, तथा रूपांतरण एल्गोरिदम को प्रशिक्षित करने के लिए अपनी आवाज उठाने वालों को निष्क्रिय शुल्क अर्जित करने के तरीके उपलब्ध कराने का वादा करते हैं।
यद्यपि हम अपने टूल पैकेज के भाग के रूप में इलेवन में ध्वनि रूपांतरण सॉफ्टवेयर का विकास करते हैं, तथापि ध्वनि क्लोनिंग और ध्वनि संश्लेषण पर हमारा शोध मुख्य रूप से हमारे मुख्य उत्पाद के विकास को बढ़ावा देता है, जिसे हम अगले वर्ष के प्रारम्भ में जारी करने की योजना बना रहे हैं: पहचान-संरक्षण करने वाला स्वचालित डबिंग टूल।
यहां हमारा लक्ष्य सभी बोली जाने वाली सामग्री को मूल वक्ता की आवाज में, एक बटन के क्लिक पर, विभिन्न भाषाओं में सुलभ बनाना है। अंग्रेजी में एक शैक्षिक यूट्यूब वीडियो की कल्पना करें। यदि कोई व्यक्ति केवल स्पेनिश बोलता है (लेकिन यदि वह भाषा जानता होता तो उसे यह विषय दिलचस्प लगता), तो यह एक समस्या है। निश्चित रूप से, कैप्शन एक समाधान प्रदान करते हैं, लेकिन हमारा उद्देश्य विषय-वस्तु के साथ जुड़ने का एक अधिक मनोरंजक और मनोरंजक तरीका प्रदान करना है। हम चाहते हैं कि वही व्यक्ति स्वाभाविक रूप से वही संदेश देशी स्पेनिश में बोले, भले ही वह वास्तव में ऐसा न करता हो।
इस उद्देश्य से, वॉयस क्लोनिंग हमें उनकी पहचान - उनकी आवाज की ध्वनि - को संरक्षित करने की अनुमति देती है। हम इसका प्रयोग भिन्न भाषा में नये उच्चारण उत्पन्न करने के लिए करते हैं, जिससे ऐसा प्रतीत होता है कि यह वही व्यक्ति बोल रहा है।
आवाज रूपांतरण इसलिए महत्वपूर्ण है क्योंकि हम उनकी भावनाओं, इरादे और प्रस्तुति की शैली को अधिकतम तल्लीनता के लिए संरक्षित करना चाहते हैं। हम मजबूत बहुभाषी मॉडलों को प्रशिक्षित करते हैं, जो हमें स्रोत भाषा में कथनों का विश्लेषण करने और उन्हें सही उच्चारण के साथ लक्ष्य भाषा में मैप करने में सक्षम बनाते हैं।
एक व्यक्ति की आवाज को दूसरे व्यक्ति की आवाज में परिवर्तित करने के लिए, अर्थात स्रोत भाषण को लक्ष्य भाषण में परिवर्तित करने के लिए, हमें स्रोत भाषण सामग्री को लक्ष्य भाषण विशेषताओं के साथ व्यक्त करने के लिए एक एल्गोरिथ्म की आवश्यकता होती है। यहां एक अच्छा उदाहरण फेस-स्वैपिंग एप्स है, जो आपको अपना चेहरा किसी और के चेहरे के साथ मिलाकर दोनों की एक तस्वीर बनाने की सुविधा देता है।
ऐसा करने का तरीका यह है कि किसी चेहरे की छवि ली जाए और उसकी विशेषताओं का मानचित्रण किया जाए। नीचे दिए गए उदाहरण में बिंदु ठीक यही करते हैं: वे वे सीमाएं हैं जिनके अंदर दूसरे चेहरे की विशेषताएं प्रस्तुत की जाएंगी।
ध्वनि रूपांतरण में, हमें एल्गोरिथ्म द्वारा लक्ष्य भाषण गुणों को एनकोड करने के लिए एक तरीके की आवश्यकता होती है। एल्गोरिथ्म को उस भाषण के कई उदाहरणों वाले डेटा के एक सेट पर प्रशिक्षित किया जाता है। यह उन नमूनों को मौलिक स्तर तक - अर्थात् वाणी के "परमाणुओं" तक - तोड़ देता है। वाणी में वाक्य शामिल होते हैं। वाक्य शब्दों से बने होते हैं। शब्द ध्वनि-अक्षरों से बने होते हैं और वे लक्ष्य भाषण की विशेषताओं को दर्शाते हैं। वे मूलभूत स्तर हैं जिस पर एल्गोरिदम कार्य करता है।
ध्वनि रूपांतरण की युक्ति यह है कि लक्ष्य ध्वनि ध्वनियों का उपयोग करके स्रोत ध्वनि सामग्री को प्रस्तुत किया जाए। लेकिन यहां भी एक समझौता है, जैसा कि चेहरा-बदली के उदाहरण में है: एक चेहरे की विशेषताओं को मैप करने के लिए आप जितने अधिक मार्करों का उपयोग करेंगे, आप उनके अंदर मैप किए गए चेहरे पर उतनी ही अधिक बाधाएं लगाएंगे। कम मार्कर का मतलब है कम बाधाएं। आवाज रूपांतरण के संबंध में भी यही बात सत्य है। हम लक्ष्य भाषण को जितनी अधिक प्राथमिकता देंगे, स्रोत भाषण से तालमेल बिगड़ने का खतरा उतना ही अधिक होगा। लेकिन यदि हम इसे पर्याप्त वरीयता नहीं देते हैं, तो हम उस भाषण की विशेषता को खोने का जोखिम उठाते हैं। उदाहरण के लिए, यदि हम किसी व्यक्ति के गुस्से से चिल्लाने की रिकॉर्डिंग मॉर्गन फ्रीमैन की आवाज में प्रस्तुत करें, तो हम मुश्किल में पड़ जाएंगे। भाषण के स्रोत या भावनाओं को बहुत अधिक वरीयता देने से हमें यह धारणा खोनी पड़ती है कि यह वास्तव में मॉर्गन फ्रीमैन बोल रहे हैं। अपने भाषण के पैटर्न पर बहुत अधिक जोर देने से हम मूल भाषण के भावनात्मक आवेश को खो देते हैं।
वॉयस क्लोनिंग से संबंधित नैतिक चिंताओं पर ध्यान दिया जाना आवश्यक है, क्योंकि इस प्रौद्योगिकी के दुरुपयोग की संभावना के कारण बड़ी संख्या में लोग चिंतित हैं। 2020 में घोटालेबाजों द्वारा सीईओ का रूप धारण करके फोन कॉल पर 35 मिलियन डॉलर के बैंक हस्तांतरण को अधिकृत करने के लिए ऑडियो डीपफेक का इस्तेमाल किया गया था। एक ऐसी प्रौद्योगिकी जो यह विश्वास दिला सकती है कि किसी ने कुछ ऐसा कहा है जो उसने नहीं कहा, स्वाभाविक रूप से इस बात की आशंका पैदा करती है कि इसका प्रयोग गलत सूचना देने, बदनाम करने या धोखाधड़ी करने के लिए किया जा सकता है। इसी प्रकार, यदि ध्वनि रूपांतरण उपयोगकर्ताओं को ध्वनि स्वामियों की सहमति के बिना उत्पन्न सामग्री से लाभ उठाने की अनुमति देता है, तो यह कॉपीराइट उल्लंघन के बारे में महत्वपूर्ण प्रश्न उठाता है।
इलेवन में हम यह सुनिश्चित करने के लिए हर संभव प्रयास करने की आवश्यकता महसूस करते हैं कि हमारी प्रौद्योगिकी का उपयोग गलत उद्देश्यों के लिए न किया जाए तथा इसके खतरों से सुरक्षा के लिए सुरक्षा उपाय लागू किए जाएं:
हमारा मानना है कि दुरुपयोग का डर शक्तिशाली नई प्रौद्योगिकियों के प्रति हमारे दृष्टिकोण को प्रभावित करने वाला कारक नहीं होना चाहिए। बल्कि हमें यह सुनिश्चित करने का प्रयास करना चाहिए कि विकास के समय उचित सुरक्षा उपाय लागू किए जाएं ताकि नुकसान का जोखिम न्यूनतम हो सके, जबकि हम व्यापक समुदाय के लिए प्रौद्योगिकी द्वारा प्रदान की जाने वाली क्षमता का अधिकतम लाभ उठा सकें।
ध्वनि रूपांतरण और ध्वनि क्लोनिंग प्रौद्योगिकी फिल्म निर्माण, टेलीविजन, सामग्री निर्माण, खेल विकास, पॉडकास्ट और ऑडियोबुक के साथ-साथ विज्ञापन उद्योगों में भी क्रांतिकारी बदलाव लाने का वादा करती है। लेकिन इनका उपयोग वाणिज्यिक क्षेत्र से आगे बढ़कर चिकित्सा, शिक्षा और संचार में भी हो सकता है।
वॉयस क्लोनिंग एक ऐसे भविष्य का मार्ग प्रशस्त कर रही है, जहां किसी भी विषय-वस्तु को किसी भी भाषा और आवाज में तैयार किया जा सकेगा, जिससे दुनिया भर में लाखों लोगों तक पहुंचा जा सकेगा और एक पूरी तरह से नई अर्थव्यवस्था का निर्माण होगा। इलेवन में हमारा लक्ष्य इस भविष्य को साकार करने में सहायता करना है।
At the ElevenLabs London Hackathon, developers created GibberLink, a protocol that lets AI agents recognize each other and switch to a hyper-efficient sound-based language
The fastest, zero-cost way to create and distribute audiobooks globally