
टेक्स्ट टू स्पीच को कम रोबोटिक कैसे बनाएं
- श्रेणी
- रिसोर्सेज़
- तारीख
लंदन, यूनाइटेड किंगडम - ElevenLabs, AI वॉइस सॉफ़्टवेयर में विश्व नेता, ने आज 30 भाषाओं में एक नया मल्टीलिंगुअल वॉइस जनरेशन मॉडल लॉन्च किया है, जो AI द्वारा उत्पन्न 'भावनात्मक रूप से समृद्ध' ऑडियो को सटीकता से उत्पन्न कर सकता है।
यह प्रगति, पूरी तरह से आंतरिक अनुसंधान पर आधारित है, क्रिएटर्स को यूरोप, एशिया और मध्य पूर्व के अंतरराष्ट्रीय बाजारों के लिए स्थानीयकृत ऑडियो कंटेंट बनाने की अनुमति देगी। ElevenLabs ने पिछले 18 महीनों में मानव भाषण के मार्कर्स का विश्लेषण किया है, जिससे उन्हें भाषण की पीढ़ी में संदर्भ को समझने और भावनाओं को व्यक्त करने के लिए नए तंत्र बनाने की अनुमति मिली है, साथ ही नई और अनोखी आवाज़ों को सिंथेसाइज़ करने की भी।
Eleven Multilingual v2 के साथ, जब ElevenLabs के टेक्स्ट टू स्पीच प्लेटफॉर्म में एक टेक्स्ट डाला जाता है, तो नया मॉडल लगभग 30 भाषाओं की स्वतः पहचान कर सकता है और अभूतपूर्व प्रामाणिकता के स्तर के साथ आवाज़ उत्पन्न कर सकता है।
साथ ही, चाहे एक सिंथेटिक आवाज़ का उपयोग किया जाए या एक क्लोन की गई आवाज़ का, वक्ता की अनोखी आवाज़ की विशेषताएं सभी भाषाओं में बनी रहती हैं, जिसमें उनका मूल उच्चारण भी शामिल है। इसका मतलब है कि एक ही आवाज़ का उपयोग 30 विभिन्न भाषाओं में कंटेंट को जीवंत करने के लिए किया जा सकता है।
यह लॉन्च आता है Professional Voice Cloning के प्रकाशन के बाद, जो प्लेटफॉर्म के सभी क्रिएटर्स के लिए सुलभ है। इस प्रोडक्ट अपडेट, जो अतिरिक्त सुरक्षा सुविधाओं के साथ लॉन्च किया गया था, यूज़र्स को अपनी आवाज़ की एक डिजिटल प्रतिलिपि बनाने की अनुमति देता है। आवाज़ जो मूल से लगभग अप्रभेद्य है। आज का लॉन्च यह सुनिश्चित करता है कि हमारी आवाज़ लगभग 30 भाषाओं में बोल सकेगी जो मल्टीलिंगुअल मॉडल प्रदान करता है।
समर्थित भाषाओं में शामिल हैं कोरियाई, डच, तुर्की, स्वीडिश, इंडोनेशियाई, वियतनामी, फिलिपिनो, यूक्रेनी, ग्रीक, चेक, फिनिश, रोमानियाई, डेनिश, बुल्गारियाई, मलय, हंगेरियन, नॉर्वेजियन, स्लोवाक, क्रोएशियाई, अरबी और तमिल। ये पहले से उपलब्ध भाषाओं में शामिल हो जाते हैं, जिनमें अंग्रेजी, पोलिश, जर्मन, स्पेनिश, फ्रेंच, इतालवी, हिंदी और पुर्तगाली शामिल हैं।
हाल के फीचर लॉन्च के बाद, और प्लेटफॉर्म में निरंतर सुधार के साथ, ElevenLabs ने आज यह भी पुष्टि की है कि प्लेटफॉर्म आधिकारिक तौर पर 'बीटा' चरण से बाहर आ जाएगा। यह परिवर्तन कंपनी की प्रतिबद्धता का एक महत्वपूर्ण क्षण है: अपने 1 मिलियन से अधिक वैश्विक यूज़र्स को विश्वसनीय और अत्याधुनिक उपकरण प्रदान करना।
भविष्य की ओर देखते हुए, ElevenLabs यूज़र्स को प्लेटफॉर्म पर आवाज़ें साझा करने और नए ऑडियो फाइलों के विकास से लाभान्वित होने की अनुमति देने के लिए एक तंत्र पेश करने की योजना बना रहा है, जो मानव और AI के बीच सहयोग के अवसरों को बढ़ावा देगा।
माटी स्टानिस्ज़ेव्स्की, ElevenLabs के सीईओ और सह-संस्थापक, कहते हैं:
«ElevenLabs का जन्म इस सपने के साथ हुआ था कि सभी कंटेंट को किसी भी भाषा और किसी भी आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए। Eleven Multilingual v2 के लॉन्च के साथ, हम उस सपने को साकार करने के एक कदम और करीब हैं और AI द्वारा निर्मित मानव गुणवत्ता की आवाज़ें सभी बोलियों में उपलब्ध करा रहे हैं।»
«हमारे 'टेक्स्ट टू स्पीच' जनरेशन टूल्स समान अवसरों में योगदान करते हैं और सभी क्रिएटर्स को उच्च गुणवत्ता वाली ऑडियो क्षमताएं प्रदान करते हैं। ये लाभ अब लगभग 30 भाषाओं में मल्टीलिंगुअल एप्लिकेशनों तक विस्तारित हो गए हैं। समय के साथ, हम AI की मदद से और भी अधिक भाषाओं और आवाज़ों को शामिल करने की उम्मीद करते हैं, और कंटेंट में भाषाई बाधाओं को समाप्त करते हैं। ElevenLabs में, हमें विश्वास है कि इन प्रगति से अंततः अधिक रचनात्मकता, नवाचार और विविधता को बढ़ावा मिलेगा।»
उच्च गुणवत्ता वाले ऑडियो कंटेंट को कई भाषाओं में बनाने के लिए आवश्यक लागत और संसाधनों को कम करके, ElevenLabs कंपनियों और क्रिएटर्स को सभी संस्कृतियों और भाषाओं में अधिक कल्पनाशील और सुलभ कंटेंट बनाने की अनुमति देता है।
के मामले में स्वतंत्र गेम डेवलपर्स और प्रकाशक, मल्टीलिंगुअल वॉइस जनरेशन टूल गेमिंग अनुभवों और ऑडियो कंटेंट को अंतरराष्ट्रीय दर्शकों के लिए अनुवाद करने के नए अवसर प्रदान करता है, जिससे खिलाड़ियों और श्रोताओं के साथ उनकी अपनी भाषाओं में जुड़ने की अनुमति मिलती है, बिना ऑडियो की गुणवत्ता या सटीकता को कम किए।
इसी तरह, शैक्षणिक संस्थान अब अपने छात्रों को लक्षित भाषाओं में सटीक ऑडियो कंटेंट तुरंत प्रदान करने के साधन रखते हैं, जो विभिन्न भाषाओं की समझ और उच्चारण कौशल को मजबूत करता है, साथ ही दुनिया भर के छात्रों की विभिन्न शिक्षण शैलियों और सीखने की जरूरतों को पूरा करता है।
कोई भी प्रकार का क्रिएटर ElevenLabs के टूल का उपयोग कर सकता है दृष्टिबाधित या अतिरिक्त सीखने की जरूरतों वाले लोगों के लिए अपने कंटेंट की पहुंच को बेहतर बनाने के लिए, ताकि दृश्य कंटेंट को कई भाषाओं में उपलब्ध ऑडियो के साथ पूरक किया जा सके।
AI वॉइस टूल्स का प्रारंभिक सेट, जनवरी 2023 में प्रस्तुत किया गया, में किसी भी टेक्स्ट को आवाज़ में बदलने की क्षमता शामिल थी, पूर्व-डिज़ाइन की गई सिंथेटिक आवाज़ों के चयन के साथ और यूज़र की आवाज़ का क्लोन बनाने की क्षमता। मल्टीलिंगुअल वॉइस सिंथेसिस टूल ElevenLabs के उद्देश्य में एक और कदम है कि सभी कंटेंट को किसी भी भाषा और किसी भी आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए।
इस तकनीक को पहले ही कई वर्टिकल्स और क्रिएटिव सेक्टर्स में अपनाया जा चुका है, जिससे स्वतंत्र लेखक ऑडियोबुक्स बना सकें, वीडियो गेम्स में सहायक पात्रों को आवाज़ दे सकें, दृष्टिबाधित लोगों को ऑनलाइन लिखित कंटेंट तक पहुंचने में मदद कर सकें और यहां तक कि दुनिया के पहले AI रेडियो चैनल को सक्रिय कर सकें। ElevenLabs ने कुछ प्रमुख स्टूडियो और कंटेंट क्रिएटर्स के साथ साझेदारी की है, जैसे AI वीडियो जनरेटर्स D-ID, दुनिया के सबसे बड़े ऑडियोबुक प्रकाशकों में से एक, स्टोरीटेल, खुले एक्सेस वाली वैज्ञानिक वीडियो प्लेटफॉर्म साइंसकास्ट, जिसकी वीडियो जनरेशन टूल वैज्ञानिक अनुसंधान कार्यों को संक्षेप में प्रस्तुत करती है arXiv, दुनिया की प्रमुख कंटेंट क्रिएशन प्लेटफॉर्म, दसोल पब्लिशिंग, कुछ अद्भुत गेम्स के डेवलपर्स, जैसे एम्बार्क स्टूडियोज और पैराडॉक्स इंटरएक्टिव, और मीडिया प्लेटफॉर्म MNTN.



