
Le Walk brings cities to life with ElevenLabs
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
लंदन, यूनाइटेड किंगडम – ElevenLabs, कृत्रिम भाषण पहचान सॉफ़्टवेयर के विश्व अग्रणी प्रदाता ने आज एक नया बहुभाषी मॉडल लॉन्च किया है, जो 30 भाषाओं में 'भावनात्मक' AI ऑडियो संकेत उत्पन्न करने में सक्षम है।
यह विकास, जो पूरी तरह से कंपनी के अनुसंधान पर आधारित है, डेवलपर्स को यूरोप, एशिया और मध्य पूर्व के अंतरराष्ट्रीय बाजारों के लिए स्थानीयकृत ऑडियो सामग्री का उत्पादन करने में सक्षम बनाएगा। ElevenLabs ने पिछले 18 महीनों में मानव भाषा के संकेतकों का विश्लेषण किया है, संदर्भ को समझने और भाषण उत्पादन में भावनाओं को व्यक्त करने के लिए नए तंत्र विकसित किए हैं और नई, अनूठी आवाज़ों को सिंथेसाइज़ किया है।
Eleven Multilingual v2 के साथ नया मॉडल ElevenLabs की टेक्स्ट टू स्पीच प्लेटफ़ॉर्म में टेक्स्ट दर्ज करने पर लगभग 30 लिपि भाषाओं को स्वचालित रूप से पहचान सकता है और इन भाषाओं में एक अभूतपूर्व प्रामाणिकता के साथ भाषण उत्पन्न कर सकता है।
चाहे एक सिंथेटिक या क्लोन की गई आवाज़ का उपयोग किया जाए, वक्ताओं की अनूठी आवाज़ की विशेषताएं सभी भाषाओं में बनी रहती हैं, जिसमें मूल उच्चारण भी शामिल है। इसका मतलब है कि एक ही आवाज़ के साथ 30 विभिन्न भाषाओं में सामग्री को जीवंत किया जा सकता है।
यह परिचय प्लेटफ़ॉर्म पर सभी क्रिएटिव्स के लिए Professional Voice Cloning की सार्वजनिक रिलीज़ के बाद आता है। इस प्रोडक्ट अपडेट के साथ, जो अतिरिक्त सुरक्षा सुविधाओं के साथ जारी किया गया था, उपयोगकर्ता अपनी खुद की आवाज़ की एक परफेक्ट डिजिटल कॉपी बना सकते हैं, जो
मूल से लगभग अप्रभेद्य है। आज की रिलीज़ के साथ, आपकी आवाज़ लगभग 30 भाषाओं में बोल सकती है, जो बहुभाषी मॉडल के तहत उपलब्ध हैं।
समर्थित भाषाओं में शामिल हैं: कोरियाई, डच, तुर्की, स्वीडिश, इंडोनेशियाई, वियतनामी, फिलिपिनो, यूक्रेनी, ग्रीक, चेक, फिनिश, रोमानियाई, डेनिश, बुल्गारियाई, मलय, हंगेरियन, नॉर्वेजियन, स्लोवाक, क्रोएशियाई, उच्च अरबी और तमिल। ये भाषाएं पहले से उपलब्ध भाषाओं अंग्रेजी, पोलिश, जर्मन, स्पेनिश, फ्रेंच, इटालियन, हिंदी और पुर्तगाली को पूरक करती हैं।
नई सुविधाओं की शुरुआत और प्लेटफ़ॉर्म के निरंतर सुधार के बाद, ElevenLabs ने आज यह भी पुष्टि की कि प्लेटफ़ॉर्म ने आधिकारिक तौर पर बीटा चरण छोड़ दिया है। यह परिवर्तन कंपनी की प्रतिबद्धता में एक निर्णायक क्षण को चिह्नित करता है, जो दुनिया भर में अपने 1 मिलियन से अधिक उपयोगकर्ताओं को विश्वसनीय और अत्याधुनिक उपकरण प्रदान करता है।
भविष्य के लिए, ElevenLabs उपयोगकर्ताओं को अपनी आवाज़ों को प्लेटफ़ॉर्म पर साझा करने और नई ऑडियो डेटा के विकास से लाभ उठाने के लिए एक तंत्र की शुरुआत की योजना बना रहा है, ताकि मानव और AI के बीच सहयोग को बढ़ावा दिया जा सके।
Mati Staniszewski, ElevenLabs के सीईओ और संस्थापक ने कहा:
“ElevenLabs की स्थापना इस सपने के साथ की गई थी कि सभी सामग्री को हर भाषा और हर आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए। Eleven Multilingual v2 की रिलीज़ के साथ, हम इस सपने को साकार करने के एक कदम और करीब आ गए हैं और हर बोली में मानव गुणवत्ता की AI आवाज़ें उपलब्ध करा रहे हैं।
हमारे भाषण संश्लेषण उपकरण सभी क्रिएटिव्स के लिए रास्ता खोल रहे हैं और उन्हें उच्च गुणवत्ता वाले भाषण संश्लेषण विकल्प प्रदान कर रहे हैं। ये लाभ अब लगभग 30 भाषाओं में बहुभाषी अनुप्रयोगों तक विस्तारित हो गए हैं। अंततः, हम AI की मदद से और भी अधिक भाषाओं और आवाज़ों को कवर करने की उम्मीद करते हैं और सामग्री के लिए भाषा की बाधाओं को समाप्त करना चाहते हैं। हम ElevenLabs में मानते हैं कि पहुंच में ये छलांग अंततः अधिक रचनात्मकता, नवाचार और विविधता की ओर ले जाएगी।”
ElevenLabs उन लागतों और संसाधनों को कम करता है जो कई भाषाओं में उच्च गुणवत्ता वाली ऑडियो सामग्री बनाने के लिए आवश्यक होते हैं। कंपनियां और क्रिएटिव्स इस तरह अधिक रचनात्मक और आसानी से सुलभ सामग्री का उत्पादन कर सकते हैं, जो सांस्कृतिक और भाषाई सीमाओं के पार अपील करती है।
स्वतंत्र गेम डेवलपर्स और प्रकाशकों के लिए बहुभाषी भाषण उत्पादन उपकरण नए अवसर प्रदान करता है, ताकि वे अंतरराष्ट्रीय दर्शकों के लिए गेम अनुभवों और ऑडियो सामग्री का अनुवाद कर सकें और खिलाड़ियों और श्रोताओं के साथ उनकी अपनी भाषा में संवाद कर सकें, बिना भाषण की गुणवत्ता या सटीकता से समझौता किए।
इसी तरह, शैक्षणिक संस्थान अब शिक्षार्थियों को लक्ष्य भाषा में तुरंत सटीक ऑडियो सामग्री प्रदान करने की क्षमता रखते हैं, ताकि भाषा समझ और उच्चारण में सुधार हो सके और अंतरराष्ट्रीय छात्रों की विभिन्न शिक्षण शैलियों और सीखने की जरूरतों को पूरा किया जा सके।
सभी प्रकार के क्रिएटिव्स ElevenLabs के टूल का उपयोग कर सकते हैं, ताकि उनकी सामग्री की पहुंच दृष्टिबाधित लोगों या अतिरिक्त सीखने की जरूरतों वाले लोगों के लिए बेहतर हो सके, जिससे वे दृश्य सामग्री को कई भाषाओं में आवाज़ के साथ समृद्ध कर सकें।
जनवरी 2023 में पेश की गई AI भाषण उपकरणों की पहली श्रृंखला हर टेक्स्ट को भाषण में बदलने की क्षमता प्रदान करती है, जिसमें पूर्वनिर्धारित सिंथेटिक आवाज़ों का चयन और अपनी खुद की आवाज़ का क्लोन बनाने की क्षमता शामिल है। बहुभाषी भाषण संश्लेषण उपकरण ElevenLabs के मिशन में एक और कदम है, ताकि सभी सामग्री को हर भाषा और हर आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जा सके।
यह तकनीक पहले से ही विभिन्न रचनात्मक उद्योगों और क्षेत्रों में उपयोग की जा रही है। यह स्वतंत्र लेखकों को ऑडियोबुक लिखने, वीडियो गेम में सहायक पात्रों को आवाज़ देने, दृष्टिबाधित लोगों को ऑनलाइन लिखित सामग्री तक पहुंचने में मदद करने और दुनिया के पहले AI रेडियो स्टेशन को संचालित करने में सक्षम बनाती है। ElevenLabs ने प्रमुख सामग्री निर्माताओं और स्टूडियो के साथ साझेदारी भी की है, जिनमें AI वीडियो जनरेटर D-ID, स्टोरीटेल, दुनिया के सबसे बड़े ऑडियोबुक प्रकाशकों में से एक, ओपन-एक्सेस वीडियो प्लेटफ़ॉर्म साइंसकास्ट, जिसका वीडियो जनरेशन टूल वैज्ञानिक अनुसंधान पत्रों को एकत्र करता है, जो arXiv पर प्रकाशित होते हैं, दुनिया की अग्रणी सामग्री निर्माण प्लेटफ़ॉर्म दसोल पब्लिशिंग, अद्भुत गेम डेवलपर्स जैसे एम्बार्क स्टूडियोज और पैराडॉक्स इंटरएक्टिव और मीडिया प्लेटफ़ॉर्म एमएनटीएन.
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Supporting 10,000+ research conversations with natural, trustworthy voices
ElevenLabs द्वारा संचालित एजेंट्स