
Allô brings AI-powered calls to your pocket with ElevenLabs
A mobile-first phone system for modern SMBs
ध्वनि रूपांतरण से आप एक व्यक्ति की आवाज को दूसरे व्यक्ति की आवाज में परिवर्तित कर सकते हैं। यह लक्ष्यित आवाज को - अर्थात, जिस आवाज को हम रूपांतरित करते हैं - कोड करने के लिए वॉयस क्लोनिंग नामक प्रक्रिया का उपयोग करता है, तथा उसी संदेश को इस तरह से बोलता है जो लक्ष्यित वक्ता की पहचान से मेल खाता है, लेकिन मूल स्वर को सुरक्षित रखता है।
उच्च गुणवत्ता वाली आवाज रूपांतरण और आवाज क्लोनिंग प्रौद्योगिकी में विभिन्न उद्योगों में सामग्री के उत्पादन, वितरण और उससे बातचीत के तरीके में क्रांतिकारी बदलाव लाने की क्षमता है। वे उत्पादन समय और लागत को अनुकूलित करने का वादा करते हैं, तथा रूपांतरण एल्गोरिदम को प्रशिक्षित करने के लिए अपनी आवाज उठाने वालों को निष्क्रिय शुल्क अर्जित करने के तरीके उपलब्ध कराने का वादा करते हैं।
यद्यपि हम अपने टूल पैकेज के भाग के रूप में इलेवन में ध्वनि रूपांतरण सॉफ्टवेयर का विकास करते हैं, तथापि ध्वनि क्लोनिंग और ध्वनि संश्लेषण पर हमारा शोध मुख्य रूप से हमारे मुख्य उत्पाद के विकास को बढ़ावा देता है, जिसे हम अगले वर्ष के प्रारम्भ में जारी करने की योजना बना रहे हैं: पहचान-संरक्षण करने वाला स्वचालित डबिंग टूल।
यहां हमारा लक्ष्य सभी बोली जाने वाली सामग्री को मूल वक्ता की आवाज में, एक बटन के क्लिक पर, विभिन्न भाषाओं में सुलभ बनाना है। अंग्रेजी में एक शैक्षिक यूट्यूब वीडियो की कल्पना करें। यदि कोई व्यक्ति केवल स्पेनिश बोलता है (लेकिन यदि वह भाषा जानता होता तो उसे यह विषय दिलचस्प लगता), तो यह एक समस्या है। निश्चित रूप से, कैप्शन एक समाधान प्रदान करते हैं, लेकिन हमारा उद्देश्य विषय-वस्तु के साथ जुड़ने का एक अधिक मनोरंजक और मनोरंजक तरीका प्रदान करना है। हम चाहते हैं कि वही व्यक्ति स्वाभाविक रूप से वही संदेश देशी स्पेनिश में बोले, भले ही वह वास्तव में ऐसा न करता हो।
इस उद्देश्य से, वॉयस क्लोनिंग हमें उनकी पहचान - उनकी आवाज की ध्वनि - को संरक्षित करने की अनुमति देती है। हम इसका प्रयोग भिन्न भाषा में नये उच्चारण उत्पन्न करने के लिए करते हैं, जिससे ऐसा प्रतीत होता है कि यह वही व्यक्ति बोल रहा है।
आवाज रूपांतरण इसलिए महत्वपूर्ण है क्योंकि हम उनकी भावनाओं, इरादे और प्रस्तुति की शैली को अधिकतम तल्लीनता के लिए संरक्षित करना चाहते हैं। हम मजबूत बहुभाषी मॉडलों को प्रशिक्षित करते हैं, जो हमें स्रोत भाषा में कथनों का विश्लेषण करने और उन्हें सही उच्चारण के साथ लक्ष्य भाषा में मैप करने में सक्षम बनाते हैं।
एक व्यक्ति की आवाज को दूसरे व्यक्ति की आवाज में परिवर्तित करने के लिए, अर्थात स्रोत भाषण को लक्ष्य भाषण में परिवर्तित करने के लिए, हमें स्रोत भाषण सामग्री को लक्ष्य भाषण विशेषताओं के साथ व्यक्त करने के लिए एक एल्गोरिथ्म की आवश्यकता होती है। यहां एक अच्छा उदाहरण फेस-स्वैपिंग एप्स है, जो आपको अपना चेहरा किसी और के चेहरे के साथ मिलाकर दोनों की एक तस्वीर बनाने की सुविधा देता है।
ऐसा करने का तरीका यह है कि किसी चेहरे की छवि ली जाए और उसकी विशेषताओं का मानचित्रण किया जाए। नीचे दिए गए उदाहरण में बिंदु ठीक यही करते हैं: वे वे सीमाएं हैं जिनके अंदर दूसरे चेहरे की विशेषताएं प्रस्तुत की जाएंगी।
ध्वनि रूपांतरण में, हमें एल्गोरिथ्म द्वारा लक्ष्य भाषण गुणों को एनकोड करने के लिए एक तरीके की आवश्यकता होती है। एल्गोरिथ्म को उस भाषण के कई उदाहरणों वाले डेटा के एक सेट पर प्रशिक्षित किया जाता है। यह उन नमूनों को मौलिक स्तर तक - अर्थात् वाणी के "परमाणुओं" तक - तोड़ देता है। वाणी में वाक्य शामिल होते हैं। वाक्य शब्दों से बने होते हैं। शब्द ध्वनि-अक्षरों से बने होते हैं और वे लक्ष्य भाषण की विशेषताओं को दर्शाते हैं। वे मूलभूत स्तर हैं जिस पर एल्गोरिदम कार्य करता है।
ध्वनि रूपांतरण की युक्ति यह है कि लक्ष्य ध्वनि ध्वनियों का उपयोग करके स्रोत ध्वनि सामग्री को प्रस्तुत किया जाए। लेकिन यहां भी एक समझौता है, जैसा कि चेहरा-बदली के उदाहरण में है: एक चेहरे की विशेषताओं को मैप करने के लिए आप जितने अधिक मार्करों का उपयोग करेंगे, आप उनके अंदर मैप किए गए चेहरे पर उतनी ही अधिक बाधाएं लगाएंगे। कम मार्कर का मतलब है कम बाधाएं। आवाज रूपांतरण के संबंध में भी यही बात सत्य है। हम लक्ष्य भाषण को जितनी अधिक प्राथमिकता देंगे, स्रोत भाषण से तालमेल बिगड़ने का खतरा उतना ही अधिक होगा। लेकिन यदि हम इसे पर्याप्त वरीयता नहीं देते हैं, तो हम उस भाषण की विशेषता को खोने का जोखिम उठाते हैं। उदाहरण के लिए, यदि हम किसी व्यक्ति के गुस्से से चिल्लाने की रिकॉर्डिंग मॉर्गन फ्रीमैन की आवाज में प्रस्तुत करें, तो हम मुश्किल में पड़ जाएंगे। भाषण के स्रोत या भावनाओं को बहुत अधिक वरीयता देने से हमें यह धारणा खोनी पड़ती है कि यह वास्तव में मॉर्गन फ्रीमैन बोल रहे हैं। अपने भाषण के पैटर्न पर बहुत अधिक जोर देने से हम मूल भाषण के भावनात्मक आवेश को खो देते हैं।
वॉयस क्लोनिंग से संबंधित नैतिक चिंताओं पर ध्यान दिया जाना आवश्यक है, क्योंकि इस प्रौद्योगिकी के दुरुपयोग की संभावना के कारण बड़ी संख्या में लोग चिंतित हैं। 2020 में घोटालेबाजों द्वारा सीईओ का रूप धारण करके फोन कॉल पर 35 मिलियन डॉलर के बैंक हस्तांतरण को अधिकृत करने के लिए ऑडियो डीपफेक का इस्तेमाल किया गया था। एक ऐसी प्रौद्योगिकी जो यह विश्वास दिला सकती है कि किसी ने कुछ ऐसा कहा है जो उसने नहीं कहा, स्वाभाविक रूप से इस बात की आशंका पैदा करती है कि इसका प्रयोग गलत सूचना देने, बदनाम करने या धोखाधड़ी करने के लिए किया जा सकता है। इसी प्रकार, यदि ध्वनि रूपांतरण उपयोगकर्ताओं को ध्वनि स्वामियों की सहमति के बिना उत्पन्न सामग्री से लाभ उठाने की अनुमति देता है, तो यह कॉपीराइट उल्लंघन के बारे में महत्वपूर्ण प्रश्न उठाता है।
इलेवन में हम यह सुनिश्चित करने के लिए हर संभव प्रयास करने की आवश्यकता महसूस करते हैं कि हमारी प्रौद्योगिकी का उपयोग गलत उद्देश्यों के लिए न किया जाए तथा इसके खतरों से सुरक्षा के लिए सुरक्षा उपाय लागू किए जाएं:
हमारा मानना है कि दुरुपयोग का डर शक्तिशाली नई प्रौद्योगिकियों के प्रति हमारे दृष्टिकोण को प्रभावित करने वाला कारक नहीं होना चाहिए। बल्कि हमें यह सुनिश्चित करने का प्रयास करना चाहिए कि विकास के समय उचित सुरक्षा उपाय लागू किए जाएं ताकि नुकसान का जोखिम न्यूनतम हो सके, जबकि हम व्यापक समुदाय के लिए प्रौद्योगिकी द्वारा प्रदान की जाने वाली क्षमता का अधिकतम लाभ उठा सकें।
ध्वनि रूपांतरण और ध्वनि क्लोनिंग प्रौद्योगिकी फिल्म निर्माण, टेलीविजन, सामग्री निर्माण, खेल विकास, पॉडकास्ट और ऑडियोबुक के साथ-साथ विज्ञापन उद्योगों में भी क्रांतिकारी बदलाव लाने का वादा करती है। लेकिन इनका उपयोग वाणिज्यिक क्षेत्र से आगे बढ़कर चिकित्सा, शिक्षा और संचार में भी हो सकता है।
वॉयस क्लोनिंग एक ऐसे भविष्य का मार्ग प्रशस्त कर रही है, जहां किसी भी विषय-वस्तु को किसी भी भाषा और आवाज में तैयार किया जा सकेगा, जिससे दुनिया भर में लाखों लोगों तक पहुंचा जा सकेगा और एक पूरी तरह से नई अर्थव्यवस्था का निर्माण होगा। इलेवन में हमारा लक्ष्य इस भविष्य को साकार करने में सहायता करना है।
A mobile-first phone system for modern SMBs
Melania Trump brings her #1 New York Times Best Seller memoir to life with AI-powered audiobook now available in ElevenReader
ElevenLabs द्वारा संचालित कन्वर्सेशनल AI