यह आवाज़ मौजूद नहीं है - जनरेटिव वॉयस AI

हम अपना स्वयं का जनरेटिव मॉडल तैनात कर रहे हैं जो उपयोगकर्ताओं को पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने की सुविधा देता है

हाल ही में ऐसा लगता है कि हर कोई जनरेटिव एआई के बारे में बात कर रहा है। चैटजीपीटी, स्टेबल डिफ्यूजन, डैल-ई और मिडजर्नी जैसे डीप लर्निंग-संचालित बड़े भाषा और टेक्स्ट-टू-इमेज मॉडलों ने तकनीकी दुनिया में और उससे परे भी काफी हलचल मचा दी है। कई लोग इन्हें एआई के क्षेत्र में हाल के सबसे महत्वपूर्ण विकासों में शामिल करते हैं। चाहे आप सहमत हों या नहीं, लेकिन आम धारणा यही है कि कोई अत्यंत शक्तिशाली चीज प्रकट हुई है। 2023 में हम ऐसे मॉडलों के बारे में सुनेंगे जो आपको चित्र बनाने या वीडियो बनाने में मदद कर सकते हैं। जैसे कि यह प्रश्न कि नवीनतम-सबसे बढ़िया स्मार्टफोन कौन सा है, हम शीघ्र ही यह भी पूछेंगे कि नवीनतम-सबसे बढ़िया आधारभूत मॉडल कौन सा है। फिर भी, इस सारे उत्साह के बावजूद, हमें लगता है कि जनरेटिव मीडिया में एक ऐसा क्षेत्र है जिसे अभी भी बहुत कम महत्व दिया गया है: वॉयस एआई। यह वह क्षेत्र भी है जिसमें हम अग्रणी बनना चाहते हैं। इलेवन में, हम अपने जीवन को शक्ति देने के लिए प्रत्येक दिन गहन शिक्षण तकनीकों द्वारा अनलॉक की गई क्षमता पर भरोसा करते हैं टेक्स्ट टू स्पीच , और एक क्रांतिकारी वॉइस चेंजर औजार। और अब, हम अपना स्वयं का जनरेटिव मॉडल भी तैनात कर रहे हैं जो आपको बिल्कुल नए सिंथेटिक आवाज़ों को शुरू से डिज़ाइन करने की सुविधा देता है।

वॉयस जेनरेटर - एक आवाज डिजाइन करें

हमारे उपयोगकर्ता अपने पात्रों को जीवंत करने के लिए प्रतिदिन इस मंच का उपयोग करते हैं - चाहे वह ऑडियोबुक, गेम या फैन फिक्शन के लिए हो। हमने महसूस किया कि हमारा वर्तमान स्पीकर बैंक इतना छोटा है कि हर किसी के लिए अपनी विषय-वस्तु की आवश्यकताओं से मेल खाने वाली आवाजें ढूंढ पाना संभव नहीं है, जबकि यह प्रत्येक उपयोगकर्ता के लिए विशिष्ट बनी रहे। हमारा समाधान यह था कि आप पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन कर सकें।

हमें इस बारे में एक विचार आया कि हम इस कार्य को कैसे करेंगे, जो तब सामने आया जब हमने उन तरीकों को समझा जो हम वर्तमान में भाषण संश्लेषण और ध्वनि क्लोनिंग के लिए उपयोग करते हैं। दोनों प्रक्रियाओं में किसी विशेष आवाज की विशेषताओं को एनकोड करने की आवश्यकता होती है। स्पीकर एम्बेडिंग ही इस पहचान को धारण करते हैं - वे स्पीकर की आवाज का एक वेक्टर प्रतिनिधित्व हैं। हमने महसूस किया कि हम एक समर्पित मॉडल को प्रशिक्षित करके स्पीकर एम्बेडिंग के वितरण से नमूना ले सकते हैं, जिससे हम असंख्य नई आवाजें बना सकते हैं।

चूंकि हमारे उपयोगकर्ता ज्यादातर विशिष्ट भाषण विशेषताओं की तलाश करते हैं, इसलिए हमें प्रक्रिया पर कुछ हद तक नियंत्रण जोड़ने की आवश्यकता थी। हमने उनकी विशेषताओं के आधार पर आवाजें उत्पन्न करने के लिए कंडीशनिंग के साथ अपने मॉडल का विस्तार किया। यह मॉडल अब आपको कुछ बुनियादी पैरामीटर निर्धारित करने की सुविधा देता है जो नई आवाज की मूल पहचान स्थापित करते हैं: लिंग, आयु, उच्चारण, सुर और बोलने की शैली। दूसरे शब्दों में, हर बार जब आप 'जेनरेट' पर क्लिक करते हैं, भले ही आप समान आधार पैरामीटर चुनते हों, आपको एक बिल्कुल नई आवाज़ मिलती है जो पहले मौजूद नहीं थी

नीचे कुछ आवाज़ों के उदाहरण दिए गए हैं जिन्हें इस तरह डिज़ाइन किया जा सकता है:

'डिज़ाइन वॉयस' वॉयस लैब के भाग के रूप में इस फरवरी में हमारे प्लेटफॉर्म पर उपलब्ध हो जाएगा।

क्या फायदा?

हमारे उपकरण पहले से ही ऐसी वाणी उत्पन्न कर सकते हैं जो किसी भी मानव की वाणी के समान जीवंत होती है, तथा हम आशा करते हैं कि कृत्रिम आवाजों के संभावित अनुप्रयोगों का क्षेत्र और अधिक विस्तृत होगा। इनमें से कई नए अनुप्रयोगों में, जिनमें समाचार प्रकाशनों या विज्ञापनों के लिए ऑडियो रिकार्ड करना भी शामिल है, यह आवश्यक होगा कि एक आवाज को एक विशेष ब्रांड या उपयोग-मामले तक ही सीमित रखा जाए और उसी के साथ उसकी पहचान की जाए, तथा उसका उपयोग कहीं और न किया जाए। अन्य उपयोग-मामले, जैसे कहानी सुनाना और वीडियो गेम, विकास के आरंभ से ही लचीलेपन और प्रयोग करने की स्वतंत्रता को प्राथमिकता देते हैं। इसलिए आभासी वक्ताओं का एक विशाल समूह बनाने के बजाय, हमने उपयोगकर्ताओं को यह निर्णय लेने का अधिकार दिया कि कौन सी आवाज उनके उद्देश्यों के लिए सबसे उपयुक्त है।

किताब लेखकों को अब न केवल अपने काम को आसानी से ऑडियो में परिवर्तित करने का अवसर मिलता है, बल्कि वे विशिष्ट वर्णन डिजाइन करने पर कलात्मक नियंत्रण भी बनाए रखते हैं। इससे उनके पाठकों को प्रकाशनों के साथ बातचीत करने के नए दिलचस्प तरीके मिलेंगे, साथ ही उन पुस्तकों की संख्या भी बढ़ेगी जिन्हें सुनकर हम आनंद ले सकेंगे।

समाचार प्रकाशकों ने ऑडियो के क्षेत्र में तेजी से कदम बढ़ाए हैं और अपने प्रकाशनों का प्रतिनिधित्व करने के लिए विशिष्ट आवाजों का चयन करना एक महत्वपूर्ण कार्य है - कई श्रोता रूप के साथ-साथ विषय-वस्तु को भी महत्व देते हैं। समान रूप से महत्वपूर्ण बात यह है कि अब प्रकाशक निश्चिंत हो सकते हैं कि कोई विशेष आवाज़ केवल उनका ही प्रतिनिधित्व करती है।

वीडियो गेम डेवलपर्स अब अपनी उंगलियों पर उपलब्ध सभी आवश्यक उपकरणों के साथ बहुत सारे मूक एनपीसी को आवाज दे सकते हैं। वे न केवल गुणवत्ता से समझौता किए बिना अधिक लागत प्रभावी हो सकते हैं, बल्कि अब वे ऐसी आवाजें भी डिजाइन कर सकते हैं जो उनके द्वारा निर्मित आभासी दुनिया के लिए पूरी तरह से अद्वितीय होंगी।

विज्ञापन देना क्रिएटिव को विशेष अभियानों के अनुरूप वॉयसओवर की आवश्यकता होती है, इसलिए विकास के आरंभ में ही गूंजने वाला और उद्देश्य-निर्मित वर्णन डिजाइन करने में सक्षम होना एक बड़ा लाभ है। वे अब बिना किसी अतिरिक्त संसाधन के, तुरन्त ही अनेक आवाजों और प्रस्तुति शैलियों के साथ प्रयोग कर सकते हैं।

से क्रिएटर्स सभी प्रकार की ऑडियो और वीडियो सामग्री का निर्माण करना निगमित कंपनी संचार को आवाज देने के इच्छुक अधिकारियों के लिए, सम्मोहक ऑडियो डिजाइन करने के अवसर, जो अद्वितीय भी हो और विशिष्ट उपयोग-मामले के अनुरूप भी हो, अब अनंत हैं।

नैतिक एआई

जिस प्रकार वॉयस क्लोनिंग के कारण इसके संभावित दुरुपयोग के परिणामों के बारे में आशंकाएं उत्पन्न होती हैं, उसी प्रकार बहुत से लोगों को यह चिंता बढ़ती जा रही है कि एआई प्रौद्योगिकी के प्रसार से पेशेवरों की आजीविका खतरे में पड़ जाएगी। इलेवन में, हम एक ऐसा भविष्य देखते हैं जिसमें आवाज अभिनेता शुल्क के बदले में, विशिष्ट उपयोग के लिए भाषण मॉडलों को प्रशिक्षित करने के लिए अपनी आवाज का लाइसेंस देने में सक्षम होंगे। ग्राहक और स्टूडियो अभी भी अपनी परियोजनाओं में पेशेवर आवाज प्रतिभाओं को शामिल करने में प्रसन्न होंगे और एआई का उपयोग करने से तेजी से काम पूरा करने में मदद मिलेगी और प्रारंभिक विकास में प्रयोग करने और दिशा निर्धारित करने की अधिक स्वतंत्रता मिलेगी। यह प्रौद्योगिकी बोले गए ऑडियो के डिजाइन और रिकॉर्डिंग के तरीके को बदल देगी, लेकिन तथ्य यह है कि अब आवाज अभिनेताओं को हर सत्र के लिए शारीरिक रूप से उपस्थित होने की आवश्यकता नहीं है, जिससे उन्हें किसी भी समय अधिक परियोजनाओं में शामिल होने की स्वतंत्रता मिलेगी, साथ ही साथ अपनी आवाज को अमर बनाने की भी स्वतंत्रता मिलेगी।

इसके अलावा, हम इस बात से उत्साहित हैं कि बहुत सी पुस्तकें, समाचार, स्वतंत्र खेल और अन्य विषय-वस्तु, जिनके लेखक और डेवलपर्स अन्यथा रिकॉर्डिंग लागत वहन करने में सक्षम नहीं होते, अब किसी अन्य माध्यम से उपलब्ध हो जाएंगी। इस बढ़ी हुई पहुंच के साथ प्रत्येक मामले में दर्शकों की संख्या बढ़ाने का अवसर भी मिलता है।

इलेवन में, हम बौद्धिक संपदा अधिकारों का सम्मान करने तथा अपनी प्रौद्योगिकी के संभावित दुरुपयोग के विरुद्ध सुरक्षा उपाय लागू करने के लिए पूरी तरह प्रतिबद्ध हैं:

  • हम केवल उन ग्राहकों के साथ साझेदारी करते हैं जो हमारी शर्तों का पालन करते हैं जो किसी भी ऐसे उद्देश्य के लिए हमारी तकनीक के दुर्भावनापूर्ण उपयोग को प्रतिबंधित करती हैं जिसे अवैध या हानिकारक माना जा सकता है;
  • हम अपने मॉडल द्वारा उत्पन्न सभी ऑडियो को वॉटरमार्क करने पर भी काम कर रहे हैं ताकि इसे तुरंत हमारे पास वापस लाया जा सके;
  • जब हम पहचानने योग्य आवाज़ों का उपयोग करते हैं, तो हम ऐसा प्रदर्शन के उद्देश्य से और ऐसे संदर्भों में करते हैं जो हितों के टकराव को जन्म नहीं देते हैं;
  • साथ ही हम वॉयस मालिकों और उनके लाइसेंसधारकों को उनके अधिकारों का दावा करने में सहायता करना चाहते हैं और सभी ज्ञात उल्लंघनों की समीक्षा की जाएगी और कार्रवाई की जाएगी।

आगे की ओर देखते हुए - अपनी आवाज़ को और बेहतर बनाएँ

भविष्य में हम अपनी आवाज उत्पन्न करने और आवाज क्लोनिंग मॉडल की क्षमताओं को संयोजित करने की योजना बना रहे हैं, ताकि उपयोगकर्ता अपनी आवाज को बेहतर बना सकें। आप अपनी आवाज का क्लोन बना सकेंगे और फिर उसमें किसी भी वांछित प्रभाव के लिए बदलाव कर सकेंगे। यदि आपको डर है कि आपकी स्वाभाविक बोलने की शैली थोड़ी नीरस है, तो आप इसमें विविधता ला सकते हैं। यदि आप वास्तव में रिकॉर्ड किए जाने को नापसंद करते हैं, तो आप आउटपुट में बदलाव करके उसे अधिक प्राकृतिक बना सकते हैं। कोई भी व्यक्ति जिसे किसी भी उद्देश्य के लिए अपनी आवाज में ऑडियो तैयार करने की आवश्यकता है, चाहे वह पहले से रिकॉर्ड की गई प्रस्तुति हो या ऑडियो संदेश, वह हमारे उपकरणों के समूह का उपयोग करके, एक बटन के क्लिक पर ऐसा कर सकेगा।

नए साल की शुभकामनाएँ

2022 के समाप्त होने के साथ, हम अपने बीटा-उपयोगकर्ताओं को उनकी निरंतर भागीदारी और आपके फ़ीडबैक के लिए धन्यवाद देना चाहते हैं। हम जिन सुविधाओं का विकास कर रहे हैं, उनमें से अधिकांश आपके इनपुट और सुझावों पर निर्भर हैं। हमें आपका साथ पाकर बेहद खुशी हो रही है और हम आप सभी को नव वर्ष की शुभकामनाएं देते हैं।

ग्यारह लैब्स बीटा
जाना यहाँ कृपया हमारे बीटा प्लेटफॉर्म के लिए साइन अप करें और इसे स्वयं आज़माएं। हम लगातार सुधार कर रहे हैं और इस प्रारंभिक चरण में सभी उपयोगकर्ता की जानकारी हमारे लिए बहुत मूल्यवान है।

और जानें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

फ़्री शुरू करें

क्या आपके पास पहले से खाता है? लॉग इन करें