
ElevenLabs ने बीटा चरण छोड़ा और Eleven Multilingual v2 जारी किया - 30 भाषाओं के लिए एक बुनियादी AI भाषा मॉडल
- ElevenLabs, भाषाई AI के लिए प्लेटफ़ॉर्म, अपने प्रयास में एक बड़ा कदम आगे बढ़ा रहा है ताकि सामग्री में भाषा की बाधाओं को दूर किया जा सके। इसके लिए एक नया डीप-लर्निंग मॉडल जारी किया गया है जो 30 भाषाओं में बहुभाषी क्षमताओं का समर्थन करता है – Eleven Multilingual v2
- यह विकास मीडिया कंपनियों, गेम डेवलपर्स, प्रकाशकों और स्वतंत्र लेखकों को अपनी सामग्री की पहुंच को काफी हद तक सुधारने में सक्षम बनाएगा
- ये नई क्षमताएं, जो जनवरी में प्लेटफ़ॉर्म के लॉन्च के बाद से नई सुविधाओं और सुधारों की एक श्रृंखला का अनुसरण करती हैं, कंपनी के बीटा चरण के आधिकारिक अंत को भी चिह्नित करती हैं
- ElevenLabs का मिशन है कि सभी सामग्री को हर भाषा और हर आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए
लंदन, यूनाइटेड किंगडम – ElevenLabs, कृत्रिम भाषण पहचान सॉफ़्टवेयर के विश्व अग्रणी प्रदाता ने आज एक नया बहुभाषी मॉडल लॉन्च किया है, जो 30 भाषाओं में 'भावनात्मक' AI ऑडियो संकेत उत्पन्न करने में सक्षम है।
यह विकास, जो पूरी तरह से कंपनी के अनुसंधान पर आधारित है, डेवलपर्स को यूरोप, एशिया और मध्य पूर्व के अंतरराष्ट्रीय बाजारों के लिए स्थानीयकृत ऑडियो सामग्री का उत्पादन करने में सक्षम बनाएगा। ElevenLabs ने पिछले 18 महीनों में मानव भाषा के संकेतकों का विश्लेषण किया है, संदर्भ को समझने और भाषण उत्पादन में भावनाओं को व्यक्त करने के लिए नए तंत्र विकसित किए हैं और नई, अनूठी आवाज़ों को सिंथेसाइज़ किया है।
Eleven Multilingual v2 के साथ नया मॉडल ElevenLabs की टेक्स्ट टू स्पीच प्लेटफ़ॉर्म में टेक्स्ट दर्ज करने पर लगभग 30 लिपि भाषाओं को स्वचालित रूप से पहचान सकता है और इन भाषाओं में एक अभूतपूर्व प्रामाणिकता के साथ भाषण उत्पन्न कर सकता है।
चाहे एक सिंथेटिक या क्लोन की गई आवाज़ का उपयोग किया जाए, वक्ताओं की अनूठी आवाज़ की विशेषताएं सभी भाषाओं में बनी रहती हैं, जिसमें मूल उच्चारण भी शामिल है। इसका मतलब है कि एक ही आवाज़ के साथ 30 विभिन्न भाषाओं में सामग्री को जीवंत किया जा सकता है।
यह परिचय प्लेटफ़ॉर्म पर सभी क्रिएटिव्स के लिए Professional Voice Cloning की सार्वजनिक रिलीज़ के बाद आता है। इस प्रोडक्ट अपडेट के साथ, जो अतिरिक्त सुरक्षा सुविधाओं के साथ जारी किया गया था, उपयोगकर्ता अपनी खुद की आवाज़ की एक परफेक्ट डिजिटल कॉपी बना सकते हैं, जो
मूल से लगभग अप्रभेद्य है। आज की रिलीज़ के साथ, आपकी आवाज़ लगभग 30 भाषाओं में बोल सकती है, जो बहुभाषी मॉडल के तहत उपलब्ध हैं।
समर्थित भाषाओं में शामिल हैं: कोरियाई, डच, तुर्की, स्वीडिश, इंडोनेशियाई, वियतनामी, फिलिपिनो, यूक्रेनी, ग्रीक, चेक, फिनिश, रोमानियाई, डेनिश, बुल्गारियाई, मलय, हंगेरियन, नॉर्वेजियन, स्लोवाक, क्रोएशियाई, उच्च अरबी और तमिल। ये भाषाएं पहले से उपलब्ध भाषाओं अंग्रेजी, पोलिश, जर्मन, स्पेनिश, फ्रेंच, इटालियन, हिंदी और पुर्तगाली को पूरक करती हैं।
नई सुविधाओं की शुरुआत और प्लेटफ़ॉर्म के निरंतर सुधार के बाद, ElevenLabs ने आज यह भी पुष्टि की कि प्लेटफ़ॉर्म ने आधिकारिक तौर पर बीटा चरण छोड़ दिया है। यह परिवर्तन कंपनी की प्रतिबद्धता में एक निर्णायक क्षण को चिह्नित करता है, जो दुनिया भर में अपने 1 मिलियन से अधिक उपयोगकर्ताओं को विश्वसनीय और अत्याधुनिक उपकरण प्रदान करता है।
भविष्य के लिए, ElevenLabs उपयोगकर्ताओं को अपनी आवाज़ों को प्लेटफ़ॉर्म पर साझा करने और नई ऑडियो डेटा के विकास से लाभ उठाने के लिए एक तंत्र की शुरुआत की योजना बना रहा है, ताकि मानव और AI के बीच सहयोग को बढ़ावा दिया जा सके।
Mati Staniszewski, ElevenLabs के सीईओ और संस्थापक ने कहा:
“ElevenLabs की स्थापना इस सपने के साथ की गई थी कि सभी सामग्री को हर भाषा और हर आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए। Eleven Multilingual v2 की रिलीज़ के साथ, हम इस सपने को साकार करने के एक कदम और करीब आ गए हैं और हर बोली में मानव गुणवत्ता की AI आवाज़ें उपलब्ध करा रहे हैं।
हमारे भाषण संश्लेषण उपकरण सभी क्रिएटिव्स के लिए रास्ता खोल रहे हैं और उन्हें उच्च गुणवत्ता वाले भाषण संश्लेषण विकल्प प्रदान कर रहे हैं। ये लाभ अब लगभग 30 भाषाओं में बहुभाषी अनुप्रयोगों तक विस्तारित हो गए हैं। अंततः, हम AI की मदद से और भी अधिक भाषाओं और आवाज़ों को कवर करने की उम्मीद करते हैं और सामग्री के लिए भाषा की बाधाओं को समाप्त करना चाहते हैं। हम ElevenLabs में मानते हैं कि पहुंच में ये छलांग अंततः अधिक रचनात्मकता, नवाचार और विविधता की ओर ले जाएगी।”
ElevenLabs उन लागतों और संसाधनों को कम करता है जो कई भाषाओं में उच्च गुणवत्ता वाली ऑडियो सामग्री बनाने के लिए आवश्यक होते हैं। कंपनियां और क्रिएटिव्स इस तरह अधिक रचनात्मक और आसानी से सुलभ सामग्री का उत्पादन कर सकते हैं, जो सांस्कृतिक और भाषाई सीमाओं के पार अपील करती है।
स्वतंत्र गेम डेवलपर्स और प्रकाशकों के लिए बहुभाषी भाषण उत्पादन उपकरण नए अवसर प्रदान करता है, ताकि वे अंतरराष्ट्रीय दर्शकों के लिए गेम अनुभवों और ऑडियो सामग्री का अनुवाद कर सकें और खिलाड़ियों और श्रोताओं के साथ उनकी अपनी भाषा में संवाद कर सकें, बिना भाषण की गुणवत्ता या सटीकता से समझौता किए।
इसी तरह, शैक्षणिक संस्थान अब शिक्षार्थियों को लक्ष्य भाषा में तुरंत सटीक ऑडियो सामग्री प्रदान करने की क्षमता रखते हैं, ताकि भाषा समझ और उच्चारण में सुधार हो सके और अंतरराष्ट्रीय छात्रों की विभिन्न शिक्षण शैलियों और सीखने की जरूरतों को पूरा किया जा सके।
सभी प्रकार के क्रिएटिव्स ElevenLabs के टूल का उपयोग कर सकते हैं, ताकि उनकी सामग्री की पहुंच दृष्टिबाधित लोगों या अतिरिक्त सीखने की जरूरतों वाले लोगों के लिए बेहतर हो सके, जिससे वे दृश्य सामग्री को कई भाषाओं में आवाज़ के साथ समृद्ध कर सकें।
जनवरी 2023 में पेश की गई AI भाषण उपकरणों की पहली श्रृंखला हर टेक्स्ट को भाषण में बदलने की क्षमता प्रदान करती है, जिसमें पूर्वनिर्धारित सिंथेटिक आवाज़ों का चयन और अपनी खुद की आवाज़ का क्लोन बनाने की क्षमता शामिल है। बहुभाषी भाषण संश्लेषण उपकरण ElevenLabs के मिशन में एक और कदम है, ताकि सभी सामग्री को हर भाषा और हर आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जा सके।
यह तकनीक पहले से ही विभिन्न रचनात्मक उद्योगों और क्षेत्रों में उपयोग की जा रही है। यह स्वतंत्र लेखकों को ऑडियोबुक लिखने, वीडियो गेम में सहायक पात्रों को आवाज़ देने, दृष्टिबाधित लोगों को ऑनलाइन लिखित सामग्री तक पहुंचने में मदद करने और दुनिया के पहले AI रेडियो स्टेशन को संचालित करने में सक्षम बनाती है। ElevenLabs ने प्रमुख सामग्री निर्माताओं और स्टूडियो के साथ साझेदारी भी की है, जिनमें AI वीडियो जनरेटर D-ID, Storytel, दुनिया के सबसे बड़े ऑडियोबुक प्रकाशकों में से एक, ओपन-एक्सेस वीडियो प्लेटफ़ॉर्म ScienceCast, जिसका वीडियो जनरेशन टूल वैज्ञानिक अनुसंधान पत्रों को एकत्र करता है, जो arXiv पर प्रकाशित होते हैं, दुनिया की अग्रणी सामग्री निर्माण प्लेटफ़ॉर्म TheSoul Publishing, अद्भुत गेम डेवलपर्स जैसे Embark Studios और Paradox Interactive और मीडिया प्लेटफ़ॉर्म MNTN.
और जानें


Dubbing made simpler, sharper, and faster at PERSO.ai
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.