
Tutore deploys conversational agents for corporate language training using ElevenLabs
90% of Tutore’s placement interviews are now conducted by AI agents, accelerating onboarding and reducing costs
हम अपना खुद का जनरेटिव मॉडल तैनात कर रहे हैं जो यूज़र्स को पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने देता है
हाल ही में ऐसा लगता है कि हर कोई जनरेटिव AI के बारे में बात कर रहा है। डीप लर्निंग से संचालित बड़े भाषा और टेक्स्ट-टू-इमेज मॉडल जैसे ChatGPT, Stable Diffusion, DALL-E और Midjourney ने टेक दुनिया और उससे बाहर काफी हलचल मचाई है। कई लोग इन्हें AI में हाल के सबसे महत्वपूर्ण विकासों में शामिल करते हैं। चाहे आप सहमत हों या नहीं, सामान्य भावना यह है कि कुछ बहुत शक्तिशाली प्रकट हुआ है। 2023 में हम ऐसे मॉडल्स के बारे में सुनेंगे जो आपको ड्रॉ करने या वीडियो बनाने में मदद कर सकते हैं। जैसे कि नवीनतम स्मार्टफोन के बारे में सवाल होते हैं, हम जल्द ही पूछेंगे कि नवीनतम फाउंडेशन मॉडल क्या है। फिर भी इस उत्साह के बीच, हमें लगता है कि जनरेटिव मीडिया में एक क्षेत्र है जो अभी भी कम चर्चित है: वॉइस AI। यह वह क्षेत्र भी है जिसमें हम नेता बनना चाहते हैं। Eleven में, हम हर दिन डीप लर्निंग तकनीकों द्वारा खोले गए संभावनाओं पर निर्भर करते हैं ताकि हमारी जीवन जैसी टेक्स्ट टू स्पीच और वॉइस क्लोनिंग टूल्स को शक्ति प्रदान कर सकें। और अब, हम अपना खुद का जनरेटिव मॉडल भी तैनात कर रहे हैं जो आपको पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन करने देता है।
हमारे यूज़र्स रोज़ाना प्लेटफ़ॉर्म पर आते हैं ताकि अपने किरदारों को जीवंत बना सकें - चाहे वह ऑडियोबुक्स, गेम्स या फैन फिक्शन के लिए हो। हमने महसूस किया कि हमारा वर्तमान स्पीकर बैंक बहुत छोटा है ताकि हर कोई अपनी सामग्री की ज़रूरतों के अनुसार आवाज़ें पा सके और प्रत्येक यूज़र के लिए विशेष बनी रहे। हमारा समाधान था कि आप पूरी तरह से नई सिंथेटिक आवाज़ें डिज़ाइन कर सकें।
हमारे पास एक विचार था कि हम इसे कैसे करेंगे जो हमें वर्तमान में स्पीच सिंथेसिस और वॉइस क्लोनिंग के लिए उपयोग की जाने वाली विधियों को खोलते समय आया। दोनों प्रक्रियाओं के लिए एक विशेष आवाज़ की विशेषताओं को एन्कोड करने का तरीका चाहिए। स्पीकर एम्बेडिंग्स इस पहचान को ले जाते हैं - वे एक स्पीकर की आवाज़ का वेक्टर प्रतिनिधित्व हैं। हमने महसूस किया कि हम स्पीकर एम्बेडिंग्स के वितरण से नमूना ले सकते हैं और एक समर्पित मॉडल को प्रशिक्षित करके अनंत नई आवाज़ें बना सकते हैं।
चूंकि हमारे यूज़र्स ज्यादातर विशिष्ट भाषण विशेषताओं की तलाश करते हैं, हमें प्रक्रिया पर नियंत्रण की एक डिग्री जोड़ने की आवश्यकता थी। हमने अपने मॉडल को कंडीशनिंग के साथ विस्तारित किया ताकि उनकी विशेषताओं के आधार पर आवाज़ें उत्पन्न की जा सकें। मॉडल अब आपको कुछ बुनियादी पैरामीटर सेट करने देता है जो नई आवाज़ की मुख्य पहचान स्थापित करते हैं: लिंग, उम्र, उच्चारण, पिच और बोलने की शैली। दूसरे शब्दों में, हर बार जब आप 'जनरेट' दबाते हैं, भले ही आप वही आधार पैरामीटर चुनें, आपको एक पूरी तरह से नई आवाज़ मिलती है जो पहले मौजूद नहीं थी।
नीचे कुछ उदाहरण दिए गए हैं कि इस तरह से आवाज़ें कैसे डिज़ाइन की जा सकती हैं:
'डिज़ाइन वॉइस' इस फरवरी में हमारे प्लेटफ़ॉर्म पर वॉइस लैब के हिस्से के रूप में उपलब्ध होगा।
हमारे टूल्स पहले से ही ऐसा भाषण उत्पन्न कर सकते हैं जो किसी भी इंसान की तरह जीवन जैसा हो और हम उम्मीद करते हैं कि कृत्रिम आवाज़ों के संभावित अनुप्रयोगों का क्षेत्र केवल विस्तारित होगा। इनमें से कई नए अनुप्रयोग, जैसे समाचार प्रकाशनों या विज्ञापनों के लिए ऑडियो रिकॉर्ड करना, यह आवश्यक होगा कि एक आवाज़ को एक विशेष ब्रांड या उपयोग-केस के साथ जोड़ा जाए और कहीं और उपयोग न किया जाए। अन्य उपयोग-केस, जैसे कहानी सुनाना और वीडियो गेम्स, विकास के शुरुआती चरण में लचीलापन और प्रयोग की स्वतंत्रता को प्राथमिकता देते हैं। इसलिए एक विशाल वर्चुअल स्पीकर सेट बनाने के बजाय, हमने यूज़र्स को यह तय करने का अंतिम अधिकार देने का निर्णय लिया कि कौन सी आवाज़ें उनके उद्देश्यों के लिए सबसे उपयुक्त हैं।
बुक लेखक अब न केवल अपने काम को आसानी से ऑडियो में बदलने का अवसर प्राप्त करते हैं बल्कि वे विशेष रूप से डिज़ाइन की गई कथन पर कलात्मक नियंत्रण भी बनाए रखते हैं। यह उनके दर्शकों को प्रकाशनों के साथ बातचीत करने के नए और दिलचस्प तरीके प्रदान करता है, साथ ही उन पुस्तकों की संख्या को भी बढ़ाता है जिन्हें हम सुनने का आनंद ले सकते हैं।
समाचार प्रकाशक ऑडियो में तेजी से कदम बढ़ा रहे हैं और अपनी प्रकाशनों का प्रतिनिधित्व करने के लिए विशिष्ट आवाज़ें चुनना एक महत्वपूर्ण कार्य है - कई श्रोता रूप और सामग्री दोनों को महत्व देते हैं। उतना ही महत्वपूर्ण है कि प्रकाशक अब यह सुनिश्चित कर सकते हैं कि एक विशेष आवाज़ केवल उन्हें ही प्रतिनिधित्व करती है।
वीडियो गेम डेवलपर्स अब कई मूक NPCs को आवाज़ दे सकते हैं, सभी आवश्यक टूल्स उनकी उंगलियों पर उपलब्ध हैं। न केवल वे गुणवत्ता से समझौता किए बिना अधिक लागत प्रभावी हो सकते हैं, बल्कि वे अब ऐसी आवाज़ें भी डिज़ाइन कर सकते हैं जो उनके द्वारा बनाए गए वर्चुअल दुनियाओं के लिए पूरी तरह से अनोखी हों।
विज्ञापन क्रिएटिव्स को विशेष अभियानों के लिए वॉइसओवर की आवश्यकता होती है, इसलिए विकास की शुरुआत में गूंजने वाली और उद्देश्य-निर्मित कथन डिज़ाइन करने में सक्षम होना एक महत्वपूर्ण लाभ है। वे अब कई आवाज़ों और डिलीवरी शैलियों के साथ तुरंत प्रयोग कर सकते हैं और अतिरिक्त संसाधनों को शामिल किए बिना।
से क्रिएटर्स जो सभी प्रकार की ऑडियो और वीडियो सामग्री का उत्पादन कर रहे हैं कॉर्पोरेट अधिकारी जो कंपनी संचार को आवाज़ देना चाहते हैं, अब विशेष उपयोग-केस के लिए अद्वितीय और अनुकूलित ऑडियो डिज़ाइन करने के अवसर अनंत हैं।
जैसे कि वॉइस क्लोनिंग इसके संभावित दुरुपयोग के परिणामों के बारे में डर पैदा करता है, वैसे ही कई लोग चिंतित हैं कि AI तकनीक का प्रसार पेशेवरों की आजीविका को खतरे में डाल देगा। Eleven में, हम एक ऐसे भविष्य को देखते हैं जिसमें वॉइस ऐक्टर्स अपनी आवाज़ों को विशिष्ट उपयोग के लिए स्पीच मॉडल्स को प्रशिक्षित करने के लिए लाइसेंस कर सकते हैं, शुल्क के बदले में। ग्राहक और स्टूडियो अभी भी खुशी से पेशेवर वॉइस टैलेंट को अपने प्रोजेक्ट्स में शामिल करेंगे और AI का उपयोग केवल तेज़ी से परिणाम प्राप्त करने और विकास के शुरुआती चरण में दिशा स्थापित करने की स्वतंत्रता में योगदान देगा। तकनीक यह बदल देगी कि बोले गए ऑडियो को कैसे डिज़ाइन और रिकॉर्ड किया जाता है, लेकिन तथ्य यह है कि वॉइस ऐक्टर्स को हर सत्र के लिए शारीरिक रूप से उपस्थित होने की आवश्यकता नहीं है, वास्तव में उन्हें एक समय में अधिक प्रोजेक्ट्स में शामिल होने की स्वतंत्रता देता है, साथ ही उनकी आवाज़ों को वास्तव में अमर बनाने की।
इसके अलावा, हम इस बात से उत्साहित हैं कि कई किताबें, समाचार, स्वतंत्र गेम्स और अन्य सामग्री जिनके लेखक और डेवलपर्स रिकॉर्डिंग लागत वहन नहीं कर सकते थे, अब एक अन्य माध्यम के माध्यम से सुलभ हो जाएंगे। इस बढ़ी हुई पहुंच के साथ प्रत्येक मामले में दर्शकों को व्यापक बनाने का अवसर आता है।
Eleven में, हम बौद्धिक संपदा अधिकारों का सम्मान करने और हमारी तकनीक के संभावित दुरुपयोग के खिलाफ सुरक्षा उपायों को लागू करने के लिए पूरी तरह से प्रतिबद्ध हैं:
भविष्य में हम अपने वॉइस जनरेटिंग और वॉइस क्लोनिंग मॉडल्स की क्षमताओं को मिलाने की योजना बना रहे हैं ताकि यूज़र्स अपनी खुद की आवाज़ को बढ़ा सकें। आप अपनी आवाज़ को क्लोन कर सकेंगे और फिर इसे किसी भी इच्छित प्रभाव के लिए हेरफेर कर सकेंगे। यदि आपको डर है कि आपकी प्राकृतिक बोलने की शैली थोड़ी एकरस है, तो आप इसमें विविधता जोड़ सकेंगे। यदि आपको रिकॉर्ड किया जाना पसंद नहीं है, तो आप आउटपुट को अधिक प्राकृतिक ध्वनि में हेरफेर कर सकेंगे। कोई भी व्यक्ति जिसे किसी भी उद्देश्य के लिए अपनी खुद की आवाज़ की विशेषता वाला ऑडियो उत्पन्न करने की आवश्यकता है, चाहे वह पूर्व-रिकॉर्डेड प्रस्तुति हो या ऑडियो संदेश, हमारे टूल्स के सूट का उपयोग करके एक बटन के क्लिक पर ऐसा कर सकेगा।
जैसे ही 2022 समाप्त हुआ, हम अपने बीटा-यूज़र्स को आपकी निरंतर भागीदारी और आपके फीडबैक के लिए धन्यवाद देना चाहते हैं। हम जो कई फीचर्स विकसित कर रहे हैं, वे आपके इनपुट और सुझावों के कारण हैं। हमें आपके साथ होने पर बहुत खुशी है और हम आपको सभी को नया साल मुबारक हो की शुभकामनाएं देते हैं।
Eleven Labs बीटा
जाएं यहां हमारे बीटा प्लेटफ़ॉर्म के लिए साइन अप करने और इसे खुद आज़माने के लिए। हम लगातार सुधार कर रहे हैं और सभी यूज़र इनसाइट हमारे लिए इस शुरुआती चरण में बहुत मूल्यवान हैं।

90% of Tutore’s placement interviews are now conducted by AI agents, accelerating onboarding and reducing costs
.webp&w=3840&q=95)
Generate individual vocals, instruments or full tracks with stylistic consistency using a fine-tuned version of our Music model.