Eleven v3 अल्फा का परिचय

v3 आजमाएं

INTERSPEECH 2022 में Eleven

इस साल की कॉन्फ्रेंस हमारे लिए अब तक का सबसे अच्छा मौका था अपने शोध और उसके परिणाम साझा करने का

कैसा रहा

हम अभी-अभी इस साल की INTERSPEECH कॉन्फ्रेंस से लौटे हैं, जो अब तक का सबसे अच्छा मौका था हमारे लिए अपनी प्रगति को प्रस्तुत करने और उस पर प्रतिक्रिया प्राप्त करने का, जिस पर हम पिछले कुछ महीनों से काम कर रहे हैं।

इस क्षेत्र के सर्वश्रेष्ठ लोगों से सीखना और विचार साझा करना बहुत अच्छा रहा और इस प्रक्रिया में भविष्य के संबंध बनाना भी। हमने कुछ शानदार स्टार्टअप्स की टीमों से मुलाकात की जो हमारे जैसे ही क्षेत्र में काम कर रहे हैं, खासकर वॉइस क्लोनिंग, स्पीच सिंथेसिस (TTS) और वॉइस कन्वर्ज़न (VC) पर (Supertone और LOVO जैसे)। हम Meta और Google जैसी स्थापित कंपनियों से बात करने के लिए भी उतने ही उत्साहित थे, जो TTS और VC सॉफ़्टवेयर विकसित करने के पीछे के काम के बारे में थी।

हमने सीधे काम शुरू किया। हमारे काम के लिए जो ईमानदार उत्साह था, उसने हमें बहुत खुश कर दिया - यह हमारी किसी भी उम्मीद से बढ़कर था। अगले चार दिनों में हमने ऊपर बताए गए तीन स्पीच टेक क्षेत्रों में अपनी रिसर्च और प्रगति पर चर्चा की - जो हमारे स्वामित्व वाले ऑटोमैटिक डबिंग टूल के विकास की दिशा में बिल्कुल महत्वपूर्ण पहले कदम हैं, जिसका संस्करण 1.0 हम अगले साल की शुरुआत में जारी करने की योजना बना रहे हैं।

हमारे लिए सबसे महत्वपूर्ण बात यह थी कि हम यह साबित कर सकें कि हम वॉइस को सही तरीके से क्लोन कर सकते हैं - कि हम उस स्रोत वॉइस डेटा के बीच वॉइस समानता को बनाए रखने में सक्षम हैं, जिस पर हम अपने एल्गोरिदम को प्रशिक्षित करते हैं और जब वही वॉइस सिंथेटिक रूप से उत्पन्न होती है। और दूसरी बात, हमारे लिए यह साबित करना महत्वपूर्ण था कि हमारे TTS टूल्स सबसे मानव और प्राकृतिक लगने वाले सिंथेटिक स्पीच प्लेटफ़ॉर्म का हिस्सा बनने की दिशा में हैं, जो बेहतरीन प्रोसोडी और टोनलिटी प्रदान करते हैं।

पहला स्वाभाविक रूप से महत्वपूर्ण है क्योंकि हमें यह सुनिश्चित करना है कि नए उत्पन्न किए गए वाक्यांश आसानी से किसी विशेष व्यक्ति द्वारा बोले गए के रूप में पहचाने जा सकें - हमें स्पीकर की पहचान को सही ढंग से बनाए रखना है। प्रोसोडी और टोनलिटी महत्वपूर्ण हैं क्योंकि टोन और गति इरादे को व्यक्त करते हैं, जो वास्तव में भाषण को मानव जैसा बनाते हैं। यहां लक्ष्य यह है कि प्रोग्राम न केवल शब्दों का सही उच्चारण करे बल्कि वाक्यांश को उचित भावनात्मक चार्ज के साथ प्रस्तुत करे ताकि ऐसा लगे कि यह समझता हैक्यायह कह रहा है।

TTS डेमो

आप नीचे दिए गए सम्मेलन के दौरान उपयोग किए गए एक TTS डेमो देख सकते हैं। पहला लिंक मूल वीडियो है और फिर हमारे नमूने में वही संदेश एक अलग आवाज़ में बोला गया है। ध्यान दें, यह टेक्स्ट टू स्पीच है - वॉइस कन्वर्ज़न नहीं। हमारा एकमात्र इनपुट मूल वीडियो में बोले गए शब्दों को लिखना था ताकि आप जो भाषण सुनते हैं उसे उत्पन्न किया जा सके। सभी प्रोसोडी और इंटोनेशन एल्गोरिदम पर निर्भर हैं, इसमें कोई पोस्ट-प्रोसेसिंग शामिल नहीं है। देखें कि क्या आप पहचान सकते हैं कि यह किसकी आवाज़ है!

आप हमारे अगले लेख में Eleven TTS तकनीक के बारे में और पढ़ेंगे, जो विशेष रूप से टेक्स्ट इनपुट से भाषण उत्पन्न करने पर केंद्रित होगा।

यदि आपको हमारी तकनीक पसंद है और आप हमारे बीटा-टेस्टर बनना चाहते हैं, तो आप इसके लिए यहां साइन अप कर सकते हैं।

मूल:

Eleven Labs वॉइस क्लोनिंग TTS:

रूप से अधिक सामग्री

कॉन्फ्रेंस से पहले के महीनों में हमारा ध्यान लगभग पूरी तरह से हमारी तकनीक के प्रदर्शनीय नमूने देने और हमारे स्वामित्व वाले शोध को दिखाने पर था। आखिरकार, INTERSPEECH एक शोध सम्मेलन है और हम दृढ़ थे कि सामग्री को रूप से पहले आना चाहिए, खासकर इतनी विशेष रूप से उन्मुख सभा में। हालांकि, कॉन्फ्रेंस के दिन, हमने मजाक में कहा कि शायद हमारी तकनीक पर बढ़ी हुई फोकस ने हमारे ब्रांडिंग प्रयासों को बहुत ही न्यूनतम बना दिया। हम जल्द ही काफी राहत महसूस कर रहे थे, अगर सही नहीं थे!, यह देखकर कि अन्य, बड़े खिलाड़ी भी, साधारण सेट-अप का चयन कर रहे थे।

अगले साल तक

हमारी कोरिया यात्रा Eleven के लिए एक बड़ी सफलता थी और हमें और अधिक मेहनत करने के लिए एक बड़ी प्रेरणा मिली। हम पहले से ही इस बारे में सोचकर उत्साहित हैं कि हम इस अगले साल में अपने शोध और इसे प्रस्तुत करने के तरीकों में कितना प्रगति कर सकते हैं। उम्मीद है कि तब तक हमारे प्रोडक्शन-क्वालिटी डबिंग टूल्स तैयार होंगे और हम लोगों की आवाज़ों का उपयोग करके उन्हें उन भाषाओं में बोलने देंगे जो वे नहीं जानते।

ElevenLabs टीम के लेखों को देखें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें