ब्लैक फ्राइडे

रिडीम करें

यह आवाज़ मौजूद नहीं है - जनरेटिव वॉइस AI

हम अपना खुद का जनरेटिव मॉडल तैनात कर रहे हैं जो यूज़र्स को पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने देता है

Abstract colorful swirl with dropdown menus for gender, age, and accent, and a style, clarity, and stability slider.

हाल ही में ऐसा लगता है कि हर कोई जनरेटिव AI के बारे में बात कर रहा है। डीप लर्निंग से संचालित बड़े भाषा और टेक्स्ट-टू-इमेज मॉडल जैसे ChatGPT, Stable Diffusion, DALL-E और Midjourney ने टेक दुनिया और उससे बाहर काफी हलचल मचाई है। कई लोग इन्हें AI में हाल के सबसे महत्वपूर्ण विकासों में शामिल करते हैं। चाहे आप सहमत हों या नहीं, सामान्य भावना यह है कि कुछ बहुत शक्तिशाली प्रकट हुआ है। 2023 में हम ऐसे मॉडल्स के बारे में सुनेंगे जो आपको ड्रॉ करने या वीडियो बनाने में मदद कर सकते हैं। जैसे कि नवीनतम स्मार्टफोन के बारे में सवाल होते हैं, हम जल्द ही पूछेंगे कि नवीनतम फाउंडेशन मॉडल क्या है। फिर भी इस उत्साह के बीच, हमें लगता है कि जनरेटिव मीडिया में एक क्षेत्र है जो अभी भी कम चर्चित है: वॉइस AI। यह वह क्षेत्र भी है जिसमें हम नेता बनना चाहते हैं। Eleven में, हम हर दिन डीप लर्निंग तकनीकों द्वारा खोले गए संभावनाओं पर निर्भर करते हैं ताकि हमारी जीवन जैसी टेक्स्ट टू स्पीच और वॉइस क्लोनिंग टूल्स को शक्ति प्रदान कर सकें। और अब, हम अपना खुद का जनरेटिव मॉडल भी तैनात कर रहे हैं जो आपको पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने देता है।

वॉइस जनरेटर - एक आवाज़ डिज़ाइन करें

हमारे यूज़र्स रोज़ाना प्लेटफ़ॉर्म पर आते हैं ताकि अपने किरदारों को जीवंत बना सकें - चाहे वह ऑडियोबुक्स, गेम्स या फैन फिक्शन के लिए हो। हमने महसूस किया कि हमारा वर्तमान स्पीकर बैंक बहुत छोटा है ताकि हर कोई अपनी सामग्री की ज़रूरतों के अनुसार आवाज़ें पा सके और प्रत्येक यूज़र के लिए विशेष बनी रहे। हमारा समाधान था कि आप पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन कर सकें।

हमारे पास एक विचार था कि हम इसे कैसे करेंगे जो हमें वर्तमान में स्पीच सिंथेसिस और वॉइस क्लोनिंग के लिए उपयोग की जाने वाली विधियों को खोलते समय आया। दोनों प्रक्रियाओं के लिए एक विशेष आवाज़ की विशेषताओं को एन्कोड करने का तरीका चाहिए। स्पीकर एम्बेडिंग्स इस पहचान को ले जाते हैं - वे एक स्पीकर की आवाज़ का वेक्टर प्रतिनिधित्व हैं। हमने महसूस किया कि हम स्पीकर एम्बेडिंग्स के वितरण से नमूना ले सकते हैं और एक समर्पित मॉडल को प्रशिक्षित करके अनंत नई आवाज़ें बना सकते हैं।

चूंकि हमारे यूज़र्स ज्यादातर विशिष्ट भाषण विशेषताओं की तलाश करते हैं, हमें प्रक्रिया पर नियंत्रण की एक डिग्री जोड़ने की आवश्यकता थी। हमने अपने मॉडल को कंडीशनिंग के साथ विस्तारित किया ताकि उनकी विशेषताओं के आधार पर आवाज़ें उत्पन्न की जा सकें। मॉडल अब आपको कुछ बुनियादी पैरामीटर सेट करने देता है जो नई आवाज़ की मुख्य पहचान स्थापित करते हैं: लिंग, उम्र, उच्चारण, पिच और बोलने की शैली। दूसरे शब्दों में, हर बार जब आप 'जनरेट' दबाते हैं, भले ही आप वही आधार पैरामीटर चुनें, आपको एक पूरी तरह से नई आवाज़ मिलती है जो पहले मौजूद नहीं थी

नीचे कुछ उदाहरण दिए गए हैं कि इस तरह से आवाज़ें कैसे डिज़ाइन की जा सकती हैं:

'डिज़ाइन वॉइस' इस फरवरी में हमारे प्लेटफ़ॉर्म पर वॉइस लैब के हिस्से के रूप में उपलब्ध होगा।

इसका उपयोग क्या है?

हमारे टूल्स पहले से ही ऐसा भाषण उत्पन्न कर सकते हैं जो किसी भी इंसान की तरह जीवन जैसा हो और हम उम्मीद करते हैं कि कृत्रिम आवाज़ों के संभावित अनुप्रयोगों का क्षेत्र केवल विस्तारित होगा। इनमें से कई नए अनुप्रयोग, जैसे समाचार प्रकाशनों या विज्ञापनों के लिए ऑडियो रिकॉर्ड करना, यह आवश्यक होगा कि एक आवाज़ को एक विशेष ब्रांड या उपयोग-केस के साथ जोड़ा जाए और कहीं और उपयोग न किया जाए। अन्य उपयोग-केस, जैसे कहानी सुनाना और वीडियो गेम्स, विकास के शुरुआती चरण में लचीलापन और प्रयोग की स्वतंत्रता को प्राथमिकता देते हैं। इसलिए एक विशाल वर्चुअल स्पीकर सेट बनाने के बजाय, हमने यूज़र्स को यह तय करने का अंतिम अधिकार देने का निर्णय लिया कि कौन सी आवाज़ें उनके उद्देश्यों के लिए सबसे उपयुक्त हैं।

बुक लेखक अब न केवल अपने काम को आसानी से ऑडियो में बदलने का अवसर प्राप्त करते हैं बल्कि वे विशेष रूप से डिज़ाइन की गई कथन पर कलात्मक नियंत्रण भी बनाए रखते हैं। यह उनके दर्शकों को प्रकाशनों के साथ बातचीत करने के नए और दिलचस्प तरीके प्रदान करता है, साथ ही उन पुस्तकों की संख्या को भी बढ़ाता है जिन्हें हम सुनने का आनंद ले सकते हैं।

समाचार प्रकाशक ऑडियो में तेजी से कदम बढ़ा रहे हैं और अपनी प्रकाशनों का प्रतिनिधित्व करने के लिए विशिष्ट आवाज़ें चुनना एक महत्वपूर्ण कार्य है - कई श्रोता रूप और सामग्री दोनों को महत्व देते हैं। उतना ही महत्वपूर्ण है कि प्रकाशक अब यह सुनिश्चित कर सकते हैं कि एक विशेष आवाज़ केवल उन्हें ही प्रतिनिधित्व करती है।

वीडियो गेम डेवलपर्स अब कई मूक NPCs को आवाज़ दे सकते हैं, सभी आवश्यक टूल्स उनकी उंगलियों पर उपलब्ध हैं। न केवल वे गुणवत्ता से समझौता किए बिना अधिक लागत प्रभावी हो सकते हैं, बल्कि वे अब ऐसी आवाज़ें भी डिज़ाइन कर सकते हैं जो उनके द्वारा बनाए गए वर्चुअल दुनियाओं के लिए पूरी तरह से अनोखी हों।

विज्ञापन क्रिएटिव्स को विशेष अभियानों के लिए वॉइसओवर की आवश्यकता होती है, इसलिए विकास की शुरुआत में गूंजने वाली और उद्देश्य-निर्मित कथन डिज़ाइन करने में सक्षम होना एक महत्वपूर्ण लाभ है। वे अब कई आवाज़ों और डिलीवरी शैलियों के साथ तुरंत प्रयोग कर सकते हैं और अतिरिक्त संसाधनों को शामिल किए बिना।

से क्रिएटर्स जो सभी प्रकार की ऑडियो और वीडियो सामग्री का उत्पादन कर रहे हैं कॉर्पोरेट अधिकारी जो कंपनी संचार को आवाज़ देना चाहते हैं, अब विशेष उपयोग-केस के लिए अद्वितीय और अनुकूलित ऑडियो डिज़ाइन करने के अवसर अनंत हैं।

एथिकल AI

जैसे कि वॉइस क्लोनिंग इसके संभावित दुरुपयोग के परिणामों के बारे में डर पैदा करता है, वैसे ही कई लोग चिंतित हैं कि AI तकनीक का प्रसार पेशेवरों की आजीविका को खतरे में डाल देगा। Eleven में, हम एक ऐसे भविष्य को देखते हैं जिसमें वॉइस ऐक्टर्स अपनी आवाज़ों को विशिष्ट उपयोग के लिए स्पीच मॉडल्स को प्रशिक्षित करने के लिए लाइसेंस कर सकते हैं, शुल्क के बदले में। ग्राहक और स्टूडियो अभी भी खुशी से पेशेवर वॉइस टैलेंट को अपने प्रोजेक्ट्स में शामिल करेंगे और AI का उपयोग केवल तेज़ी से परिणाम प्राप्त करने और विकास के शुरुआती चरण में दिशा स्थापित करने की स्वतंत्रता में योगदान देगा। तकनीक यह बदल देगी कि बोले गए ऑडियो को कैसे डिज़ाइन और रिकॉर्ड किया जाता है, लेकिन तथ्य यह है कि वॉइस ऐक्टर्स को हर सत्र के लिए शारीरिक रूप से उपस्थित होने की आवश्यकता नहीं है, वास्तव में उन्हें एक समय में अधिक प्रोजेक्ट्स में शामिल होने की स्वतंत्रता देता है, साथ ही उनकी आवाज़ों को वास्तव में अमर बनाने की।

इसके अलावा, हम इस बात से उत्साहित हैं कि कई किताबें, समाचार, स्वतंत्र गेम्स और अन्य सामग्री जिनके लेखक और डेवलपर्स रिकॉर्डिंग लागत वहन नहीं कर सकते थे, अब एक अन्य माध्यम के माध्यम से सुलभ हो जाएंगे। इस बढ़ी हुई पहुंच के साथ प्रत्येक मामले में दर्शकों को व्यापक बनाने का अवसर आता है।

Eleven में, हम बौद्धिक संपदा अधिकारों का सम्मान करने और हमारी तकनीक के संभावित दुरुपयोग के खिलाफ सुरक्षा उपायों को लागू करने के लिए पूरी तरह से प्रतिबद्ध हैं:

  • हम केवल उन ग्राहकों के साथ साझेदारी करते हैं जो हमारे नियमों का पालन करते हैं जो हमारी तकनीक के किसी भी अवैध या हानिकारक उद्देश्य के लिए दुरुपयोग को रोकते हैं;
  • हम अपने मॉडल द्वारा उत्पन्न सभी ऑडियो को वॉटरमार्क करने पर भी काम कर रहे हैं ताकि इसे तुरंत हमारे पास वापस ट्रेस किया जा सके;
  • जब हम पहचानने योग्य आवाज़ों का उपयोग करते हैं, तो हम ऐसा प्रदर्शन उद्देश्यों के लिए और उन संदर्भों में करते हैं जो हितों के टकराव को जन्म नहीं देते;
  • साथ ही हम वॉइस मालिकों और उनके लाइसेंसर्स का समर्थन करने का प्रयास करते हैं ताकि वे अपने अधिकारों का दावा कर सकें और सभी ज्ञात उल्लंघनों की समीक्षा और कार्रवाई की जाएगी।

आगे देखते हुए - अपनी खुद की आवाज़ को बढ़ाएं

भविष्य में हम अपने वॉइस जनरेटिंग और वॉइस क्लोनिंग मॉडल्स की क्षमताओं को मिलाने की योजना बना रहे हैं ताकि यूज़र्स अपनी खुद की आवाज़ को बढ़ा सकें। आप अपनी आवाज़ को क्लोन कर सकेंगे और फिर इसे किसी भी इच्छित प्रभाव के लिए हेरफेर कर सकेंगे। यदि आपको डर है कि आपकी प्राकृतिक बोलने की शैली थोड़ी एकरस है, तो आप इसमें विविधता जोड़ सकेंगे। यदि आपको रिकॉर्ड किया जाना पसंद नहीं है, तो आप आउटपुट को अधिक प्राकृतिक ध्वनि में हेरफेर कर सकेंगे। कोई भी व्यक्ति जिसे किसी भी उद्देश्य के लिए अपनी खुद की आवाज़ की विशेषता वाला ऑडियो उत्पन्न करने की आवश्यकता है, चाहे वह पूर्व-रिकॉर्डेड प्रस्तुति हो या ऑडियो संदेश, हमारे टूल्स के सूट का उपयोग करके एक बटन के क्लिक पर ऐसा कर सकेगा।

नया साल मुबारक हो

जैसे ही 2022 समाप्त हुआ, हम अपने बीटा-यूज़र्स को आपकी निरंतर भागीदारी और आपके फीडबैक के लिए धन्यवाद देना चाहते हैं। हम जो कई फीचर्स विकसित कर रहे हैं, वे आपके इनपुट और सुझावों के कारण हैं। हमें आपके साथ होने पर बहुत खुशी है और हम आपको सभी को नया साल मुबारक हो की शुभकामनाएं देते हैं।

Eleven Labs बीटा
जाएं यहां हमारे बीटा प्लेटफ़ॉर्म के लिए साइन अप करने और इसे खुद आज़माने के लिए। हम लगातार सुधार कर रहे हैं और सभी यूज़र इनसाइट हमारे लिए इस शुरुआती चरण में बहुत मूल्यवान हैं।

ElevenLabs टीम के लेखों को देखें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें