
Fieldy.ai builds a wearable note taker powered by ElevenLabs
Fieldy.ai is using Scribe to power its new wearable note taker and increase retention by 50%
लंदन, यूनाइटेड किंगडम – ElevenLabs, कृत्रिम भाषण पहचान सॉफ़्टवेयर के विश्व अग्रणी प्रदाता ने आज एक नया बहुभाषी मॉडल लॉन्च किया है, जो 30 भाषाओं में 'भावनात्मक' AI ऑडियो संकेत उत्पन्न करने में सक्षम है।
यह विकास, जो पूरी तरह से कंपनी के अनुसंधान पर आधारित है, डेवलपर्स को यूरोप, एशिया और मध्य पूर्व के अंतरराष्ट्रीय बाजारों के लिए स्थानीयकृत ऑडियो सामग्री का उत्पादन करने में सक्षम बनाएगा। ElevenLabs ने पिछले 18 महीनों में मानव भाषा के संकेतकों का विश्लेषण किया है, संदर्भ को समझने और भाषण उत्पादन में भावनाओं को व्यक्त करने के लिए नए तंत्र विकसित किए हैं और नई, अनूठी आवाज़ों को सिंथेसाइज़ किया है।
Eleven Multilingual v2 के साथ नया मॉडल ElevenLabs की टेक्स्ट टू स्पीच प्लेटफ़ॉर्म में टेक्स्ट दर्ज करने पर लगभग 30 लिपि भाषाओं को स्वचालित रूप से पहचान सकता है और इन भाषाओं में एक अभूतपूर्व प्रामाणिकता के साथ भाषण उत्पन्न कर सकता है।
चाहे एक सिंथेटिक या क्लोन की गई आवाज़ का उपयोग किया जाए, वक्ताओं की अनूठी आवाज़ की विशेषताएं सभी भाषाओं में बनी रहती हैं, जिसमें मूल उच्चारण भी शामिल है। इसका मतलब है कि एक ही आवाज़ के साथ 30 विभिन्न भाषाओं में सामग्री को जीवंत किया जा सकता है।
यह परिचय प्लेटफ़ॉर्म पर सभी क्रिएटिव्स के लिए Professional Voice Cloning की सार्वजनिक रिलीज़ के बाद आता है। इस प्रोडक्ट अपडेट के साथ, जो अतिरिक्त सुरक्षा सुविधाओं के साथ जारी किया गया था, उपयोगकर्ता अपनी खुद की आवाज़ की एक परफेक्ट डिजिटल कॉपी बना सकते हैं, जो
मूल से लगभग अप्रभेद्य है। आज की रिलीज़ के साथ, आपकी आवाज़ लगभग 30 भाषाओं में बोल सकती है, जो बहुभाषी मॉडल के तहत उपलब्ध हैं।
समर्थित भाषाओं में शामिल हैं: कोरियाई, डच, तुर्की, स्वीडिश, इंडोनेशियाई, वियतनामी, फिलिपिनो, यूक्रेनी, ग्रीक, चेक, फिनिश, रोमानियाई, डेनिश, बुल्गारियाई, मलय, हंगेरियन, नॉर्वेजियन, स्लोवाक, क्रोएशियाई, उच्च अरबी और तमिल। ये भाषाएं पहले से उपलब्ध भाषाओं अंग्रेजी, पोलिश, जर्मन, स्पेनिश, फ्रेंच, इटालियन, हिंदी और पुर्तगाली को पूरक करती हैं।
नई सुविधाओं की शुरुआत और प्लेटफ़ॉर्म के निरंतर सुधार के बाद, ElevenLabs ने आज यह भी पुष्टि की कि प्लेटफ़ॉर्म ने आधिकारिक तौर पर बीटा चरण छोड़ दिया है। यह परिवर्तन कंपनी की प्रतिबद्धता में एक निर्णायक क्षण को चिह्नित करता है, जो दुनिया भर में अपने 1 मिलियन से अधिक उपयोगकर्ताओं को विश्वसनीय और अत्याधुनिक उपकरण प्रदान करता है।
भविष्य के लिए, ElevenLabs उपयोगकर्ताओं को अपनी आवाज़ों को प्लेटफ़ॉर्म पर साझा करने और नई ऑडियो डेटा के विकास से लाभ उठाने के लिए एक तंत्र की शुरुआत की योजना बना रहा है, ताकि मानव और AI के बीच सहयोग को बढ़ावा दिया जा सके।
Mati Staniszewski, ElevenLabs के सीईओ और संस्थापक ने कहा:
“ElevenLabs की स्थापना इस सपने के साथ की गई थी कि सभी सामग्री को हर भाषा और हर आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए। Eleven Multilingual v2 की रिलीज़ के साथ, हम इस सपने को साकार करने के एक कदम और करीब आ गए हैं और हर बोली में मानव गुणवत्ता की AI आवाज़ें उपलब्ध करा रहे हैं।
हमारे भाषण संश्लेषण उपकरण सभी क्रिएटिव्स के लिए रास्ता खोल रहे हैं और उन्हें उच्च गुणवत्ता वाले भाषण संश्लेषण विकल्प प्रदान कर रहे हैं। ये लाभ अब लगभग 30 भाषाओं में बहुभाषी अनुप्रयोगों तक विस्तारित हो गए हैं। अंततः, हम AI की मदद से और भी अधिक भाषाओं और आवाज़ों को कवर करने की उम्मीद करते हैं और सामग्री के लिए भाषा की बाधाओं को समाप्त करना चाहते हैं। हम ElevenLabs में मानते हैं कि पहुंच में ये छलांग अंततः अधिक रचनात्मकता, नवाचार और विविधता की ओर ले जाएगी।”
ElevenLabs उन लागतों और संसाधनों को कम करता है जो कई भाषाओं में उच्च गुणवत्ता वाली ऑडियो सामग्री बनाने के लिए आवश्यक होते हैं। कंपनियां और क्रिएटिव्स इस तरह अधिक रचनात्मक और आसानी से सुलभ सामग्री का उत्पादन कर सकते हैं, जो सांस्कृतिक और भाषाई सीमाओं के पार अपील करती है।
स्वतंत्र गेम डेवलपर्स और प्रकाशकों के लिए बहुभाषी भाषण उत्पादन उपकरण नए अवसर प्रदान करता है, ताकि वे अंतरराष्ट्रीय दर्शकों के लिए गेम अनुभवों और ऑडियो सामग्री का अनुवाद कर सकें और खिलाड़ियों और श्रोताओं के साथ उनकी अपनी भाषा में संवाद कर सकें, बिना भाषण की गुणवत्ता या सटीकता से समझौता किए।
इसी तरह, शैक्षणिक संस्थान अब शिक्षार्थियों को लक्ष्य भाषा में तुरंत सटीक ऑडियो सामग्री प्रदान करने की क्षमता रखते हैं, ताकि भाषा समझ और उच्चारण में सुधार हो सके और अंतरराष्ट्रीय छात्रों की विभिन्न शिक्षण शैलियों और सीखने की जरूरतों को पूरा किया जा सके।
सभी प्रकार के क्रिएटिव्स ElevenLabs के टूल का उपयोग कर सकते हैं, ताकि उनकी सामग्री की पहुंच दृष्टिबाधित लोगों या अतिरिक्त सीखने की जरूरतों वाले लोगों के लिए बेहतर हो सके, जिससे वे दृश्य सामग्री को कई भाषाओं में आवाज़ के साथ समृद्ध कर सकें।
जनवरी 2023 में पेश की गई AI भाषण उपकरणों की पहली श्रृंखला हर टेक्स्ट को भाषण में बदलने की क्षमता प्रदान करती है, जिसमें पूर्वनिर्धारित सिंथेटिक आवाज़ों का चयन और अपनी खुद की आवाज़ का क्लोन बनाने की क्षमता शामिल है। बहुभाषी भाषण संश्लेषण उपकरण ElevenLabs के मिशन में एक और कदम है, ताकि सभी सामग्री को हर भाषा और हर आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जा सके।
यह तकनीक पहले से ही विभिन्न रचनात्मक उद्योगों और क्षेत्रों में उपयोग की जा रही है। यह स्वतंत्र लेखकों को ऑडियोबुक लिखने, वीडियो गेम में सहायक पात्रों को आवाज़ देने, दृष्टिबाधित लोगों को ऑनलाइन लिखित सामग्री तक पहुंचने में मदद करने और दुनिया के पहले AI रेडियो स्टेशन को संचालित करने में सक्षम बनाती है। ElevenLabs ने प्रमुख सामग्री निर्माताओं और स्टूडियो के साथ साझेदारी भी की है, जिनमें AI वीडियो जनरेटर D-ID, Storytel, दुनिया के सबसे बड़े ऑडियोबुक प्रकाशकों में से एक, ओपन-एक्सेस वीडियो प्लेटफ़ॉर्म ScienceCast, जिसका वीडियो जनरेशन टूल वैज्ञानिक अनुसंधान पत्रों को एकत्र करता है, जो arXiv पर प्रकाशित होते हैं, दुनिया की अग्रणी सामग्री निर्माण प्लेटफ़ॉर्म TheSoul Publishing, अद्भुत गेम डेवलपर्स जैसे Embark Studios और Paradox Interactive और मीडिया प्लेटफ़ॉर्म MNTN.
Fieldy.ai is using Scribe to power its new wearable note taker and increase retention by 50%
ElevenLabs Conversational AI now supports WebRTC for improved conversation quality
ElevenLabs द्वारा संचालित कन्वर्सेशनल AI