
ElevenLabs ने $2M जुटाए और AI स्पीच प्लेटफ़ॉर्म की घोषणा की जो ऑडियो स्टोरीटेलिंग में क्रांति लाने का वादा करता है
कंपनी ने क्रिएटर्स और पब्लिशर्स को लंबी सामग्री का वर्णन करने के लिए डिज़ाइन किए गए बीटा प्लेटफ़ॉर्म का एक्सेस खोला
- ElevenLabs ने बीटा प्लेटफ़ॉर्म लॉन्च किया, जिससे क्रिएटर्स और पब्लिशर्स अपने लंबे फॉर्मेट के कंटेंट को नैरेट कर सकते हैं
- प्री-सीड फंडिंग राउंड का नेतृत्व Credo Ventures ने किया, जिसमें Concept Ventures और व्यक्तिगत निवेशकों ने भी भाग लिया
- पूंजी का उपयोग AI डबिंग के अनुसंधान और विकास के लिए किया जाएगा, जिसका विमोचन इस वर्ष के अंत में किया जाएगा
2023-01-23, लंदन, यूके |ElevenLabs, एक AI वॉइस टेक्नोलॉजी स्टार्टअप, जीवन्त स्पीच सिंथेसिस टूल्स बना रहा है जिसका दीर्घकालिक लक्ष्य भाषाओं के बीच बोले गए ऑडियो को तुरंत बदलना है। आज, उन्होंने Credo Ventures के नेतृत्व में $2 मिलियन की प्री-सीड फंडिंग राउंड के बाद अपना बीटा प्लेटफ़ॉर्म लॉन्च करने की घोषणा की, जिसमें Concept Ventures और अन्य व्यक्तिगत निवेशकों ने भी भाग लिया।
कंपनी का प्लेटफ़ॉर्म क्रिएटर्स और पब्लिशर्स को लंबे फॉर्मेट के कंटेंट को नैरेट करने और ऑडियो फॉर्मेट में विस्तार करने की अनुमति देता है। इसकी विशेषताएं इन-हाउस विकसित डीप लर्निंग मॉडल द्वारा संचालित हैं जो मानव स्वर और उतार-चढ़ाव को यथार्थ रूप से प्रस्तुत करता है, और संदर्भ के आधार पर डिलीवरी को समायोजित कर सकता है। ElevenLabs वॉइस क्लोनिंग और सिंथेटिक वॉइस डिज़ाइन के लिए टूल्स का एक सेट भी प्रदान करता है, जिसका उद्देश्य यूज़र्स को नए क्रिएटिव आउटलेट्स प्रदान करना है। कंपनी वर्तमान में वॉइसओवर एडिटिंग के लिए एक समर्पित वर्कस्टेशन पर चयनित पब्लिशर्स के साथ काम कर रही है, जिसे फरवरी की शुरुआत में प्लेटफ़ॉर्म में जोड़ा जाएगा। ElevenLabs का लक्ष्य पहला AI नैरेटर बनना है जो समाचार और ऑडियोबुक्स को बड़े पैमाने पर आवाज़ देने के लिए आवश्यक गुणवत्ता प्रदान करता है।
क्षमता में छलांग नवाचार की मांग करती है, यही कारण है कि ElevenLabs खुद को सबसे पहले एक अनुसंधान कंपनी मानता है। अब तक का अधिकांश अनुसंधान नए टेक्स्ट टू स्पीच मॉडल्स विकसित करने पर केंद्रित था, जो उच्च संपीड़न और संदर्भ समझ पर निर्भर करते हैं ताकि मानव भाषण को अल्ट्रा-रियलिस्टिक रूप से प्रस्तुत किया जा सके। कंपनी ने वॉइस क्लोनिंग के लिए एक नया मॉडल भी बनाया है जो बिना किसी प्रशिक्षण (बिना फाइन-ट्यूनिंग) के उच्च आउटपुट समानता प्राप्त करता है, केवल 5 सेकंड के नमूनों पर - एक उपलब्धि जो पहले कभी नहीं सुनी गई थी। डेवलपर्स इन सभी विशेषताओं तक API के माध्यम से पहुंच सकते हैं।
यह अनुसंधान प्लेटफ़ॉर्म की वर्तमान विशेषताओं को शक्ति प्रदान करता है लेकिन यह कंपनी के अंतिम लक्ष्य को साकार करने में भी योगदान देता है, जो भाषाओं के बीच बोले गए ऑडियो को तुरंत बदलना है। उनका AI डबिंग टूल, जिसका विमोचन इस वर्ष के अंत में किया जाएगा, यूज़र्स को किसी भी ऑडियो या वीडियो को एक अलग भाषा में स्वचालित रूप से पुनः आवाज़ देने की अनुमति देगा, जबकि मूल वक्ता की आवाज़ को बनाए रखेगा। ElevenLabs शुरू में शिक्षा क्षेत्र में ग्राहकों को आकर्षित करने की उम्मीद करता है, जबकि इसका दीर्घकालिक लक्ष्य स्ट्रीमिंग, ऑडियोबुक्स, गेमिंग, मूवीज़ और यहां तक कि वास्तविक समय की बातचीत में ऑन-डिमांड बहुभाषी ऑडियो समर्थन को वास्तविकता बनाना है।
कंपनी के स्पीच सिंथेसिस और डबिंग टूल्स उतने ही पूरक हैं जितने कि वे समय पर हैं: दोनों ऑडियो और वीडियो को व्यापक दर्शकों तक पहुंचाने का वादा करते हैं और दोनों ऐसे समय में आते हैं जब ऑडियो स्पेस तेजी से बढ़ रहा है। शुरुआती परीक्षकों का एक समूह, जिनमें YouTube क्रिएटर्स, पब्लिशर्स और डेवलपर्स शामिल हैं, पहले से ही प्लेटफ़ॉर्म का दैनिक उपयोग कर रहे हैं ताकि वीडियो, कहानियों और पात्रों को आवाज़ दी जा सके, और कंपनी को उम्मीद है कि जेनरेटिव स्पीच के संभावित अनुप्रयोगों का क्षेत्र केवल विस्तारित होगा। समाचार पब्लिशर्स ने पहले ही पाया है कि अपनी ऑडियो उपस्थिति को बढ़ाना ग्राहकों को जोड़ने और बनाए रखने का एक शानदार तरीका है। लेकिन वॉइस ऐक्टर्स को अनुबंधित करना महंगा है, जैसे कि रिपोर्टर्स को अपनी कहानियाँ पढ़ने के लिए रखना। पुस्तक और न्यूज़लेटर लेखक, और यहां तक कि गेम डेवलपर्स, समान चुनौतियों का सामना करते हैं: पूर्व अपने काम को स्वयं नैरेट करने की ओर बढ़ रहे हैं और बाद वाले को यह तय करना होता है कि क्या कोई विशेष पात्र रिकॉर्डिंग लागत को सही ठहराता है। जो लोग मौजूदा टेक्स्ट टू स्पीच सॉफ़्टवेयर का उपयोग करते हैं, वे पैसे बचाते हैं लेकिन गुणवत्ता पर समझौता करके एक अलग कीमत चुकाते हैं। ElevenLabs जोर देता है कि अब समझौता करने की कोई आवश्यकता नहीं है क्योंकि वे क्रिएटर्स और पब्लिशर्स को सबसे उन्नत और बहुमुखी AI स्टोरीटेलिंग टूल्स से लैस करने की तैयारी कर रहे हैं।
“हम जो प्लेटफ़ॉर्म लॉन्च कर रहे हैं वह टेक्स्ट को उच्च गुणवत्ता वाले बोले गए ऑडियो में बदलने के बारे में है। हम चाहते हैं कि लोग अपनी पसंदीदा किताब या न्यूज़लेटर का आनंद लें, उन सभी लेखकों, क्रिएटर्स और डेवलपर्स को आवाज़ देकर जो इसे वहन नहीं कर सकते थे” - कहते हैं माती स्टानिस्ज़ेव्स्की, सह-संस्थापक। “हमारा अंतिम लक्ष्य है कि लोग किसी भी सामग्री का आनंद लें जो उन्हें प्रासंगिक और दिलचस्प लगे, चाहे वे कोई भी भाषा बोलते हों” - जोड़ते हैं पियोटर डाबकोव्स्की, सह-संस्थापक।
Credo Ventures में हम CEE क्षेत्र के स्मार्ट और महत्वाकांक्षी संस्थापकों के साथ काम करना चाहते हैं। हमने माती और पियोटर की आँखों में भूख और चिंगारी देखी थी हमारी पहली मुलाकात में। कुछ महीनों बाद वे OpenAI-ग्रेड स्पीच टेक्नोलॉजी रिसर्च हब बन रहे हैं जो कृत्रिम ऑडियो में सबसे बड़ी चुनौतियों को पार कर रहे हैं। उनकी सिंथेसाइज़्ड आवाज़ें पहले से ही वास्तविक से अप्रभेद्य हैं और इस सफलता ने न केवल अभूतपूर्व गुणवत्ता और निष्ठा में सामग्री उत्पन्न करने की बाधाओं को बड़े पैमाने पर कम कर दिया है, बल्कि जल्द ही यह क्रिएटर्स को बहुभाषी होकर अपनी दर्शकों को व्यापक रूप से बढ़ाने की अनुमति देगा। – कहते हैं मैकिक ग्नुटेक, जनरल पार्टनर Credo Ventures में।
मनोरंजन और व्यवसाय दोनों में सामान्य होने के बावजूद, ऑडियो को हाल के अनुसंधान में अपेक्षाकृत उपेक्षित किया गया है। हम माती और पियोटर का समर्थन करने के लिए इस जेनरेटिव AI के स्वर्ण युग में अधिक उत्साहित नहीं हो सकते, और विश्वास करते हैं कि ElevenLabs वह टीम है जो इस तकनीक को जनता तक पहुंचाएगी, एक आवाज़ में। - कहते हैं ओलिवर किक्स, प्रिंसिपल Concept Ventures में।
ElevenLabs के बारे में:
ElevenLabs एक अनुसंधान कंपनी है जो क्रिएटर्स और पब्लिशर्स के लिए AI वॉइस सिंथेसिस सॉफ़्टवेयर विकसित कर रही है। कंपनी के टूल्स असाधारण रूप से जीवन्त भाषण प्रस्तुत करते हैं और संदर्भ या यूज़र निर्देश के आधार पर स्वर और उतार-चढ़ाव को समायोजित कर सकते हैं। कंपनी का प्लेटफ़ॉर्म समाचार, न्यूज़लेटर्स, किताबें और वीडियो को आवाज़ देने के लिए आवश्यक गुणवत्ता और बहुमुखी प्रतिभा प्रदान करने का प्रयास करता है। प्रमुख विशेषताओं में शामिल हैं: टेक्स्ट-आधारित स्पीच जनरेशन, वॉइस क्लोनिंग, वॉइस डिज़ाइन और जल्द ही नैरेशन एडिटिंग के लिए प्रोजेक्ट वर्कफ़्लो। ElevenLabs की स्थापना 2022 में पियोटर, एक पूर्व-गूगल मशीन लर्निंग इंजीनियर, और माती, एक पूर्व-पैलेंटिर डिप्लॉयमेंट स्ट्रैटेजिस्ट द्वारा की गई थी। कंपनी का दीर्घकालिक लक्ष्य है कि बोले गए कंटेंट को किसी भी भाषा और आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए।
वेंचर कैपिटल द्वारा प्रदान किया गया Credo Ventures और Concept Ventures. व्यक्तिगत निवेशकों में शामिल हैं पीटर चज़बान, टाइटस सिटोव्स्की, टाल्फन इवांस, डॉ. फातिमा गोडाल, टोमाज़ कारवाटका, पियोटर कारवाटका, अखिल पॉल, बार्टेक पुसेक, मार्टा पिरज़िक, कार्ल्स रेना, परिन शाह, चार्ली सॉन्गहर्स्ट और हैरी सॉन्गहर्स्ट।
संपर्क करें
press@elevenlabs.io
और जानें


Dubbing made simpler, sharper, and faster at PERSO.ai
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.