
ElevenLabs बीटा चरण से बाहर और Eleven Multilingual v2 लॉन्च करता है, 30 भाषाओं में AI आधारित बातचीत मॉडल
- AI वॉइस प्लेटफॉर्म ElevenLabs ने भाषाई बाधाओं को दूर करने के प्रयासों में एक बड़ा कदम उठाया है, एक नए डीप लर्निंग मॉडल के लॉन्च के साथ, जो 30 भाषाओं में मल्टीलिंगुअल क्षमताएं प्रस्तुत करता है: Eleven Multilingual v2.
- यह प्रगति मीडिया, गेम डेवलपर्स, प्रकाशकों और स्वतंत्र क्रिएटर्स को उनके कंटेंट की पहुंच को बेहतर बनाने में मदद करेगी।
- ये नई क्षमताएं, जो जनवरी में प्लेटफॉर्म के लॉन्च के बाद से कई फीचर्स और सुधारों के बाद आई हैं, कंपनी के 'बीटा' चरण के अंत को भी चिह्नित करती हैं।
- ElevenLabs का उद्देश्य है कि सभी कंटेंट को किसी भी भाषा और किसी भी आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए।
लंदन, यूनाइटेड किंगडम - ElevenLabs, AI वॉइस सॉफ़्टवेयर में विश्व नेता, ने आज 30 भाषाओं में एक नया मल्टीलिंगुअल वॉइस जनरेशन मॉडल लॉन्च किया है, जो AI द्वारा उत्पन्न 'भावनात्मक रूप से समृद्ध' ऑडियो को सटीकता से उत्पन्न कर सकता है।
यह प्रगति, पूरी तरह से आंतरिक अनुसंधान पर आधारित है, क्रिएटर्स को यूरोप, एशिया और मध्य पूर्व के अंतरराष्ट्रीय बाजारों के लिए स्थानीयकृत ऑडियो कंटेंट बनाने की अनुमति देगी। ElevenLabs ने पिछले 18 महीनों में मानव भाषण के मार्कर्स का विश्लेषण किया है, जिससे उन्हें भाषण की पीढ़ी में संदर्भ को समझने और भावनाओं को व्यक्त करने के लिए नए तंत्र बनाने की अनुमति मिली है, साथ ही नई और अनोखी आवाज़ों को सिंथेसाइज़ करने की भी।
Eleven Multilingual v2 के साथ, जब ElevenLabs के टेक्स्ट टू स्पीच प्लेटफॉर्म में एक टेक्स्ट डाला जाता है, तो नया मॉडल लगभग 30 भाषाओं की स्वतः पहचान कर सकता है और अभूतपूर्व प्रामाणिकता के स्तर के साथ आवाज़ उत्पन्न कर सकता है।
साथ ही, चाहे एक सिंथेटिक आवाज़ का उपयोग किया जाए या एक क्लोन की गई आवाज़ का, वक्ता की अनोखी आवाज़ की विशेषताएं सभी भाषाओं में बनी रहती हैं, जिसमें उनका मूल उच्चारण भी शामिल है। इसका मतलब है कि एक ही आवाज़ का उपयोग 30 विभिन्न भाषाओं में कंटेंट को जीवंत करने के लिए किया जा सकता है।
यह लॉन्च आता है Professional Voice Cloning के प्रकाशन के बाद, जो प्लेटफॉर्म के सभी क्रिएटर्स के लिए सुलभ है। इस प्रोडक्ट अपडेट, जो अतिरिक्त सुरक्षा सुविधाओं के साथ लॉन्च किया गया था, यूज़र्स को अपनी आवाज़ की एक डिजिटल प्रतिलिपि बनाने की अनुमति देता है। आवाज़ जो मूल से लगभग अप्रभेद्य है। आज का लॉन्च यह सुनिश्चित करता है कि हमारी आवाज़ लगभग 30 भाषाओं में बोल सकेगी जो मल्टीलिंगुअल मॉडल प्रदान करता है।
समर्थित भाषाओं में शामिल हैं कोरियाई, डच, तुर्की, स्वीडिश, इंडोनेशियाई, वियतनामी, फिलिपिनो, यूक्रेनी, ग्रीक, चेक, फिनिश, रोमानियाई, डेनिश, बुल्गारियाई, मलय, हंगेरियन, नॉर्वेजियन, स्लोवाक, क्रोएशियाई, अरबी और तमिल। ये पहले से उपलब्ध भाषाओं में शामिल हो जाते हैं, जिनमें अंग्रेजी, पोलिश, जर्मन, स्पेनिश, फ्रेंच, इतालवी, हिंदी और पुर्तगाली शामिल हैं।
हाल के फीचर लॉन्च के बाद, और प्लेटफॉर्म में निरंतर सुधार के साथ, ElevenLabs ने आज यह भी पुष्टि की है कि प्लेटफॉर्म आधिकारिक तौर पर 'बीटा' चरण से बाहर आ जाएगा। यह परिवर्तन कंपनी की प्रतिबद्धता का एक महत्वपूर्ण क्षण है: अपने 1 मिलियन से अधिक वैश्विक यूज़र्स को विश्वसनीय और अत्याधुनिक उपकरण प्रदान करना।
भविष्य की ओर देखते हुए, ElevenLabs यूज़र्स को प्लेटफॉर्म पर आवाज़ें साझा करने और नए ऑडियो फाइलों के विकास से लाभान्वित होने की अनुमति देने के लिए एक तंत्र पेश करने की योजना बना रहा है, जो मानव और AI के बीच सहयोग के अवसरों को बढ़ावा देगा।
माटी स्टानिस्ज़ेव्स्की, ElevenLabs के सीईओ और सह-संस्थापक, कहते हैं:
«ElevenLabs का जन्म इस सपने के साथ हुआ था कि सभी कंटेंट को किसी भी भाषा और किसी भी आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए। Eleven Multilingual v2 के लॉन्च के साथ, हम उस सपने को साकार करने के एक कदम और करीब हैं और AI द्वारा निर्मित मानव गुणवत्ता की आवाज़ें सभी बोलियों में उपलब्ध करा रहे हैं।»
«हमारे 'टेक्स्ट टू स्पीच' जनरेशन टूल्स समान अवसरों में योगदान करते हैं और सभी क्रिएटर्स को उच्च गुणवत्ता वाली ऑडियो क्षमताएं प्रदान करते हैं। ये लाभ अब लगभग 30 भाषाओं में मल्टीलिंगुअल एप्लिकेशनों तक विस्तारित हो गए हैं। समय के साथ, हम AI की मदद से और भी अधिक भाषाओं और आवाज़ों को शामिल करने की उम्मीद करते हैं, और कंटेंट में भाषाई बाधाओं को समाप्त करते हैं। ElevenLabs में, हमें विश्वास है कि इन प्रगति से अंततः अधिक रचनात्मकता, नवाचार और विविधता को बढ़ावा मिलेगा।»
उच्च गुणवत्ता वाले ऑडियो कंटेंट को कई भाषाओं में बनाने के लिए आवश्यक लागत और संसाधनों को कम करके, ElevenLabs कंपनियों और क्रिएटर्स को सभी संस्कृतियों और भाषाओं में अधिक कल्पनाशील और सुलभ कंटेंट बनाने की अनुमति देता है।
के मामले में स्वतंत्र गेम डेवलपर्स और प्रकाशक, मल्टीलिंगुअल वॉइस जनरेशन टूल गेमिंग अनुभवों और ऑडियो कंटेंट को अंतरराष्ट्रीय दर्शकों के लिए अनुवाद करने के नए अवसर प्रदान करता है, जिससे खिलाड़ियों और श्रोताओं के साथ उनकी अपनी भाषाओं में जुड़ने की अनुमति मिलती है, बिना ऑडियो की गुणवत्ता या सटीकता को कम किए।
इसी तरह, शैक्षणिक संस्थान अब अपने छात्रों को लक्षित भाषाओं में सटीक ऑडियो कंटेंट तुरंत प्रदान करने के साधन रखते हैं, जो विभिन्न भाषाओं की समझ और उच्चारण कौशल को मजबूत करता है, साथ ही दुनिया भर के छात्रों की विभिन्न शिक्षण शैलियों और सीखने की जरूरतों को पूरा करता है।
कोई भी प्रकार का क्रिएटर ElevenLabs के टूल का उपयोग कर सकता है दृष्टिबाधित या अतिरिक्त सीखने की जरूरतों वाले लोगों के लिए अपने कंटेंट की पहुंच को बेहतर बनाने के लिए, ताकि दृश्य कंटेंट को कई भाषाओं में उपलब्ध ऑडियो के साथ पूरक किया जा सके।
AI वॉइस टूल्स का प्रारंभिक सेट, जनवरी 2023 में प्रस्तुत किया गया, में किसी भी टेक्स्ट को आवाज़ में बदलने की क्षमता शामिल थी, पूर्व-डिज़ाइन की गई सिंथेटिक आवाज़ों के चयन के साथ और यूज़र की आवाज़ का क्लोन बनाने की क्षमता। मल्टीलिंगुअल वॉइस सिंथेसिस टूल ElevenLabs के उद्देश्य में एक और कदम है कि सभी कंटेंट को किसी भी भाषा और किसी भी आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए।
इस तकनीक को पहले ही कई वर्टिकल्स और क्रिएटिव सेक्टर्स में अपनाया जा चुका है, जिससे स्वतंत्र लेखक ऑडियोबुक्स बना सकें, वीडियो गेम्स में सहायक पात्रों को आवाज़ दे सकें, दृष्टिबाधित लोगों को ऑनलाइन लिखित कंटेंट तक पहुंचने में मदद कर सकें और यहां तक कि दुनिया के पहले AI रेडियो चैनल को सक्रिय कर सकें। ElevenLabs ने कुछ प्रमुख स्टूडियो और कंटेंट क्रिएटर्स के साथ साझेदारी की है, जैसे AI वीडियो जनरेटर्स D-ID, दुनिया के सबसे बड़े ऑडियोबुक प्रकाशकों में से एक, Storytel, खुले एक्सेस वाली वैज्ञानिक वीडियो प्लेटफॉर्म ScienceCast, जिसकी वीडियो जनरेशन टूल वैज्ञानिक अनुसंधान कार्यों को संक्षेप में प्रस्तुत करती है arXiv, दुनिया की प्रमुख कंटेंट क्रिएशन प्लेटफॉर्म, TheSoul Publishing, कुछ अद्भुत गेम्स के डेवलपर्स, जैसे Embark Studios और Paradox Interactive, और मीडिया प्लेटफॉर्म MNTN.
और जानें


Dubbing made simpler, sharper, and faster at PERSO.ai
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.