.webp&w=3840&q=95)
Yvonne Johnson at the 11/11 ElevenLabs Summit
An authentic voice for change
ब्लैक फ्राइडे
हम अपना खुद का जनरेटिव मॉडल तैनात कर रहे हैं जो यूज़र्स को पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने देता है
हाल ही में ऐसा लगता है कि हर कोई जनरेटिव AI के बारे में बात कर रहा है। डीप लर्निंग से संचालित बड़े भाषा और टेक्स्ट-टू-इमेज मॉडल जैसे ChatGPT, Stable Diffusion, DALL-E और Midjourney ने टेक दुनिया और उससे बाहर काफी हलचल मचाई है। कई लोग इन्हें AI में हाल के सबसे महत्वपूर्ण विकासों में शामिल करते हैं। चाहे आप सहमत हों या नहीं, सामान्य भावना यह है कि कुछ बहुत शक्तिशाली प्रकट हुआ है। 2023 में हम ऐसे मॉडल्स के बारे में सुनेंगे जो आपको ड्रॉ करने या वीडियो बनाने में मदद कर सकते हैं। जैसे कि नवीनतम स्मार्टफोन के बारे में सवाल होते हैं, हम जल्द ही पूछेंगे कि नवीनतम फाउंडेशन मॉडल क्या है। फिर भी इस उत्साह के बीच, हमें लगता है कि जनरेटिव मीडिया में एक क्षेत्र है जो अभी भी कम चर्चित है: वॉइस AI। यह वह क्षेत्र भी है जिसमें हम नेता बनना चाहते हैं। Eleven में, हम हर दिन डीप लर्निंग तकनीकों द्वारा खोले गए संभावनाओं पर निर्भर करते हैं ताकि हमारी जीवन जैसी टेक्स्ट टू स्पीच और वॉइस क्लोनिंग टूल्स को शक्ति प्रदान कर सकें। और अब, हम अपना खुद का जनरेटिव मॉडल भी तैनात कर रहे हैं जो आपको पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने देता है।
हमारे यूज़र्स रोज़ाना प्लेटफ़ॉर्म पर आते हैं ताकि अपने किरदारों को जीवंत बना सकें - चाहे वह ऑडियोबुक्स, गेम्स या फैन फिक्शन के लिए हो। हमने महसूस किया कि हमारा वर्तमान स्पीकर बैंक बहुत छोटा है ताकि हर कोई अपनी सामग्री की ज़रूरतों के अनुसार आवाज़ें पा सके और प्रत्येक यूज़र के लिए विशेष बनी रहे। हमारा समाधान था कि आप पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन कर सकें।
हमारे पास एक विचार था कि हम इसे कैसे करेंगे जो हमें वर्तमान में स्पीच सिंथेसिस और वॉइस क्लोनिंग के लिए उपयोग की जाने वाली विधियों को खोलते समय आया। दोनों प्रक्रियाओं के लिए एक विशेष आवाज़ की विशेषताओं को एन्कोड करने का तरीका चाहिए। स्पीकर एम्बेडिंग्स इस पहचान को ले जाते हैं - वे एक स्पीकर की आवाज़ का वेक्टर प्रतिनिधित्व हैं। हमने महसूस किया कि हम स्पीकर एम्बेडिंग्स के वितरण से नमूना ले सकते हैं और एक समर्पित मॉडल को प्रशिक्षित करके अनंत नई आवाज़ें बना सकते हैं।
चूंकि हमारे यूज़र्स ज्यादातर विशिष्ट भाषण विशेषताओं की तलाश करते हैं, हमें प्रक्रिया पर नियंत्रण की एक डिग्री जोड़ने की आवश्यकता थी। हमने अपने मॉडल को कंडीशनिंग के साथ विस्तारित किया ताकि उनकी विशेषताओं के आधार पर आवाज़ें उत्पन्न की जा सकें। मॉडल अब आपको कुछ बुनियादी पैरामीटर सेट करने देता है जो नई आवाज़ की मुख्य पहचान स्थापित करते हैं: लिंग, उम्र, उच्चारण, पिच और बोलने की शैली। दूसरे शब्दों में, हर बार जब आप 'जनरेट' दबाते हैं, भले ही आप वही आधार पैरामीटर चुनें, आपको एक पूरी तरह से नई आवाज़ मिलती है जो पहले मौजूद नहीं थी।
नीचे कुछ उदाहरण दिए गए हैं कि इस तरह से आवाज़ें कैसे डिज़ाइन की जा सकती हैं:
'डिज़ाइन वॉइस' इस फरवरी में हमारे प्लेटफ़ॉर्म पर वॉइस लैब के हिस्से के रूप में उपलब्ध होगा।
हमारे टूल्स पहले से ही ऐसा भाषण उत्पन्न कर सकते हैं जो किसी भी इंसान की तरह जीवन जैसा हो और हम उम्मीद करते हैं कि कृत्रिम आवाज़ों के संभावित अनुप्रयोगों का क्षेत्र केवल विस्तारित होगा। इनमें से कई नए अनुप्रयोग, जैसे समाचार प्रकाशनों या विज्ञापनों के लिए ऑडियो रिकॉर्ड करना, यह आवश्यक होगा कि एक आवाज़ को एक विशेष ब्रांड या उपयोग-केस के साथ जोड़ा जाए और कहीं और उपयोग न किया जाए। अन्य उपयोग-केस, जैसे कहानी सुनाना और वीडियो गेम्स, विकास के शुरुआती चरण में लचीलापन और प्रयोग की स्वतंत्रता को प्राथमिकता देते हैं। इसलिए एक विशाल वर्चुअल स्पीकर सेट बनाने के बजाय, हमने यूज़र्स को यह तय करने का अंतिम अधिकार देने का निर्णय लिया कि कौन सी आवाज़ें उनके उद्देश्यों के लिए सबसे उपयुक्त हैं।
बुक लेखक अब न केवल अपने काम को आसानी से ऑडियो में बदलने का अवसर प्राप्त करते हैं बल्कि वे विशेष रूप से डिज़ाइन की गई कथन पर कलात्मक नियंत्रण भी बनाए रखते हैं। यह उनके दर्शकों को प्रकाशनों के साथ बातचीत करने के नए और दिलचस्प तरीके प्रदान करता है, साथ ही उन पुस्तकों की संख्या को भी बढ़ाता है जिन्हें हम सुनने का आनंद ले सकते हैं।
समाचार प्रकाशक ऑडियो में तेजी से कदम बढ़ा रहे हैं और अपनी प्रकाशनों का प्रतिनिधित्व करने के लिए विशिष्ट आवाज़ें चुनना एक महत्वपूर्ण कार्य है - कई श्रोता रूप और सामग्री दोनों को महत्व देते हैं। उतना ही महत्वपूर्ण है कि प्रकाशक अब यह सुनिश्चित कर सकते हैं कि एक विशेष आवाज़ केवल उन्हें ही प्रतिनिधित्व करती है।
वीडियो गेम डेवलपर्स अब कई मूक NPCs को आवाज़ दे सकते हैं, सभी आवश्यक टूल्स उनकी उंगलियों पर उपलब्ध हैं। न केवल वे गुणवत्ता से समझौता किए बिना अधिक लागत प्रभावी हो सकते हैं, बल्कि वे अब ऐसी आवाज़ें भी डिज़ाइन कर सकते हैं जो उनके द्वारा बनाए गए वर्चुअल दुनियाओं के लिए पूरी तरह से अनोखी हों।
विज्ञापन क्रिएटिव्स को विशेष अभियानों के लिए वॉइसओवर की आवश्यकता होती है, इसलिए विकास की शुरुआत में गूंजने वाली और उद्देश्य-निर्मित कथन डिज़ाइन करने में सक्षम होना एक महत्वपूर्ण लाभ है। वे अब कई आवाज़ों और डिलीवरी शैलियों के साथ तुरंत प्रयोग कर सकते हैं और अतिरिक्त संसाधनों को शामिल किए बिना।
से क्रिएटर्स जो सभी प्रकार की ऑडियो और वीडियो सामग्री का उत्पादन कर रहे हैं कॉर्पोरेट अधिकारी जो कंपनी संचार को आवाज़ देना चाहते हैं, अब विशेष उपयोग-केस के लिए अद्वितीय और अनुकूलित ऑडियो डिज़ाइन करने के अवसर अनंत हैं।
जैसे कि वॉइस क्लोनिंग इसके संभावित दुरुपयोग के परिणामों के बारे में डर पैदा करता है, वैसे ही कई लोग चिंतित हैं कि AI तकनीक का प्रसार पेशेवरों की आजीविका को खतरे में डाल देगा। Eleven में, हम एक ऐसे भविष्य को देखते हैं जिसमें वॉइस ऐक्टर्स अपनी आवाज़ों को विशिष्ट उपयोग के लिए स्पीच मॉडल्स को प्रशिक्षित करने के लिए लाइसेंस कर सकते हैं, शुल्क के बदले में। ग्राहक और स्टूडियो अभी भी खुशी से पेशेवर वॉइस टैलेंट को अपने प्रोजेक्ट्स में शामिल करेंगे और AI का उपयोग केवल तेज़ी से परिणाम प्राप्त करने और विकास के शुरुआती चरण में दिशा स्थापित करने की स्वतंत्रता में योगदान देगा। तकनीक यह बदल देगी कि बोले गए ऑडियो को कैसे डिज़ाइन और रिकॉर्ड किया जाता है, लेकिन तथ्य यह है कि वॉइस ऐक्टर्स को हर सत्र के लिए शारीरिक रूप से उपस्थित होने की आवश्यकता नहीं है, वास्तव में उन्हें एक समय में अधिक प्रोजेक्ट्स में शामिल होने की स्वतंत्रता देता है, साथ ही उनकी आवाज़ों को वास्तव में अमर बनाने की।
इसके अलावा, हम इस बात से उत्साहित हैं कि कई किताबें, समाचार, स्वतंत्र गेम्स और अन्य सामग्री जिनके लेखक और डेवलपर्स रिकॉर्डिंग लागत वहन नहीं कर सकते थे, अब एक अन्य माध्यम के माध्यम से सुलभ हो जाएंगे। इस बढ़ी हुई पहुंच के साथ प्रत्येक मामले में दर्शकों को व्यापक बनाने का अवसर आता है।
Eleven में, हम बौद्धिक संपदा अधिकारों का सम्मान करने और हमारी तकनीक के संभावित दुरुपयोग के खिलाफ सुरक्षा उपायों को लागू करने के लिए पूरी तरह से प्रतिबद्ध हैं:
भविष्य में हम अपने वॉइस जनरेटिंग और वॉइस क्लोनिंग मॉडल्स की क्षमताओं को मिलाने की योजना बना रहे हैं ताकि यूज़र्स अपनी खुद की आवाज़ को बढ़ा सकें। आप अपनी आवाज़ को क्लोन कर सकेंगे और फिर इसे किसी भी इच्छित प्रभाव के लिए हेरफेर कर सकेंगे। यदि आपको डर है कि आपकी प्राकृतिक बोलने की शैली थोड़ी एकरस है, तो आप इसमें विविधता जोड़ सकेंगे। यदि आपको रिकॉर्ड किया जाना पसंद नहीं है, तो आप आउटपुट को अधिक प्राकृतिक ध्वनि में हेरफेर कर सकेंगे। कोई भी व्यक्ति जिसे किसी भी उद्देश्य के लिए अपनी खुद की आवाज़ की विशेषता वाला ऑडियो उत्पन्न करने की आवश्यकता है, चाहे वह पूर्व-रिकॉर्डेड प्रस्तुति हो या ऑडियो संदेश, हमारे टूल्स के सूट का उपयोग करके एक बटन के क्लिक पर ऐसा कर सकेगा।
जैसे ही 2022 समाप्त हुआ, हम अपने बीटा-यूज़र्स को आपकी निरंतर भागीदारी और आपके फीडबैक के लिए धन्यवाद देना चाहते हैं। हम जो कई फीचर्स विकसित कर रहे हैं, वे आपके इनपुट और सुझावों के कारण हैं। हमें आपके साथ होने पर बहुत खुशी है और हम आपको सभी को नया साल मुबारक हो की शुभकामनाएं देते हैं।
Eleven Labs बीटा
जाएं यहां हमारे बीटा प्लेटफ़ॉर्म के लिए साइन अप करने और इसे खुद आज़माने के लिए। हम लगातार सुधार कर रहे हैं और सभी यूज़र इनसाइट हमारे लिए इस शुरुआती चरण में बहुत मूल्यवान हैं।
.webp&w=3840&q=95)
An authentic voice for change

Expanding access and productivity with voice-first AI
ElevenLabs द्वारा संचालित एजेंट्स