
GPT-5 Available in ElevenLabs Conversational AI
Agents in ElevenLabs Conversational AI can now use GPT-5 for reasoning
कंपनी ने क्रिएटर्स और पब्लिशर्स को लंबी सामग्री का वर्णन करने के लिए डिज़ाइन किए गए बीटा प्लेटफ़ॉर्म का एक्सेस खोला
2023-01-23, लंदन, यूके |ElevenLabs, एक AI वॉइस टेक्नोलॉजी स्टार्टअप, जीवन्त स्पीच सिंथेसिस टूल्स बना रहा है जिसका दीर्घकालिक लक्ष्य भाषाओं के बीच बोले गए ऑडियो को तुरंत बदलना है। आज, उन्होंने Credo Ventures के नेतृत्व में $2 मिलियन की प्री-सीड फंडिंग राउंड के बाद अपना बीटा प्लेटफ़ॉर्म लॉन्च करने की घोषणा की, जिसमें Concept Ventures और अन्य व्यक्तिगत निवेशकों ने भी भाग लिया।
कंपनी का प्लेटफ़ॉर्म क्रिएटर्स और पब्लिशर्स को लंबे फॉर्मेट के कंटेंट को नैरेट करने और ऑडियो फॉर्मेट में विस्तार करने की अनुमति देता है। इसकी विशेषताएं इन-हाउस विकसित डीप लर्निंग मॉडल द्वारा संचालित हैं जो मानव स्वर और उतार-चढ़ाव को यथार्थ रूप से प्रस्तुत करता है, और संदर्भ के आधार पर डिलीवरी को समायोजित कर सकता है। ElevenLabs वॉइस क्लोनिंग और सिंथेटिक वॉइस डिज़ाइन के लिए टूल्स का एक सेट भी प्रदान करता है, जिसका उद्देश्य यूज़र्स को नए क्रिएटिव आउटलेट्स प्रदान करना है। कंपनी वर्तमान में वॉइसओवर एडिटिंग के लिए एक समर्पित वर्कस्टेशन पर चयनित पब्लिशर्स के साथ काम कर रही है, जिसे फरवरी की शुरुआत में प्लेटफ़ॉर्म में जोड़ा जाएगा। ElevenLabs का लक्ष्य पहला AI नैरेटर बनना है जो समाचार और ऑडियोबुक्स को बड़े पैमाने पर आवाज़ देने के लिए आवश्यक गुणवत्ता प्रदान करता है।
क्षमता में छलांग नवाचार की मांग करती है, यही कारण है कि ElevenLabs खुद को सबसे पहले एक अनुसंधान कंपनी मानता है। अब तक का अधिकांश अनुसंधान नए टेक्स्ट टू स्पीच मॉडल्स विकसित करने पर केंद्रित था, जो उच्च संपीड़न और संदर्भ समझ पर निर्भर करते हैं ताकि मानव भाषण को अल्ट्रा-रियलिस्टिक रूप से प्रस्तुत किया जा सके। कंपनी ने वॉइस क्लोनिंग के लिए एक नया मॉडल भी बनाया है जो बिना किसी प्रशिक्षण (बिना फाइन-ट्यूनिंग) के उच्च आउटपुट समानता प्राप्त करता है, केवल 5 सेकंड के नमूनों पर - एक उपलब्धि जो पहले कभी नहीं सुनी गई थी। डेवलपर्स इन सभी विशेषताओं तक API के माध्यम से पहुंच सकते हैं।
यह अनुसंधान प्लेटफ़ॉर्म की वर्तमान विशेषताओं को शक्ति प्रदान करता है लेकिन यह कंपनी के अंतिम लक्ष्य को साकार करने में भी योगदान देता है, जो भाषाओं के बीच बोले गए ऑडियो को तुरंत बदलना है। उनका AI डबिंग टूल, जिसका विमोचन इस वर्ष के अंत में किया जाएगा, यूज़र्स को किसी भी ऑडियो या वीडियो को एक अलग भाषा में स्वचालित रूप से पुनः आवाज़ देने की अनुमति देगा, जबकि मूल वक्ता की आवाज़ को बनाए रखेगा। ElevenLabs शुरू में शिक्षा क्षेत्र में ग्राहकों को आकर्षित करने की उम्मीद करता है, जबकि इसका दीर्घकालिक लक्ष्य स्ट्रीमिंग, ऑडियोबुक्स, गेमिंग, मूवीज़ और यहां तक कि वास्तविक समय की बातचीत में ऑन-डिमांड बहुभाषी ऑडियो समर्थन को वास्तविकता बनाना है।
कंपनी के स्पीच सिंथेसिस और डबिंग टूल्स उतने ही पूरक हैं जितने कि वे समय पर हैं: दोनों ऑडियो और वीडियो को व्यापक दर्शकों तक पहुंचाने का वादा करते हैं और दोनों ऐसे समय में आते हैं जब ऑडियो स्पेस तेजी से बढ़ रहा है। शुरुआती परीक्षकों का एक समूह, जिनमें YouTube क्रिएटर्स, पब्लिशर्स और डेवलपर्स शामिल हैं, पहले से ही प्लेटफ़ॉर्म का दैनिक उपयोग कर रहे हैं ताकि वीडियो, कहानियों और पात्रों को आवाज़ दी जा सके, और कंपनी को उम्मीद है कि जेनरेटिव स्पीच के संभावित अनुप्रयोगों का क्षेत्र केवल विस्तारित होगा। समाचार पब्लिशर्स ने पहले ही पाया है कि अपनी ऑडियो उपस्थिति को बढ़ाना ग्राहकों को जोड़ने और बनाए रखने का एक शानदार तरीका है। लेकिन वॉइस ऐक्टर्स को अनुबंधित करना महंगा है, जैसे कि रिपोर्टर्स को अपनी कहानियाँ पढ़ने के लिए रखना। पुस्तक और न्यूज़लेटर लेखक, और यहां तक कि गेम डेवलपर्स, समान चुनौतियों का सामना करते हैं: पूर्व अपने काम को स्वयं नैरेट करने की ओर बढ़ रहे हैं और बाद वाले को यह तय करना होता है कि क्या कोई विशेष पात्र रिकॉर्डिंग लागत को सही ठहराता है। जो लोग मौजूदा टेक्स्ट टू स्पीच सॉफ़्टवेयर का उपयोग करते हैं, वे पैसे बचाते हैं लेकिन गुणवत्ता पर समझौता करके एक अलग कीमत चुकाते हैं। ElevenLabs जोर देता है कि अब समझौता करने की कोई आवश्यकता नहीं है क्योंकि वे क्रिएटर्स और पब्लिशर्स को सबसे उन्नत और बहुमुखी AI स्टोरीटेलिंग टूल्स से लैस करने की तैयारी कर रहे हैं।
“हम जो प्लेटफ़ॉर्म लॉन्च कर रहे हैं वह टेक्स्ट को उच्च गुणवत्ता वाले बोले गए ऑडियो में बदलने के बारे में है। हम चाहते हैं कि लोग अपनी पसंदीदा किताब या न्यूज़लेटर का आनंद लें, उन सभी लेखकों, क्रिएटर्स और डेवलपर्स को आवाज़ देकर जो इसे वहन नहीं कर सकते थे” - कहते हैं माती स्टानिस्ज़ेव्स्की, सह-संस्थापक। “हमारा अंतिम लक्ष्य है कि लोग किसी भी सामग्री का आनंद लें जो उन्हें प्रासंगिक और दिलचस्प लगे, चाहे वे कोई भी भाषा बोलते हों” - जोड़ते हैं पियोटर डाबकोव्स्की, सह-संस्थापक।
Credo Ventures में हम CEE क्षेत्र के स्मार्ट और महत्वाकांक्षी संस्थापकों के साथ काम करना चाहते हैं। हमने माती और पियोटर की आँखों में भूख और चिंगारी देखी थी हमारी पहली मुलाकात में। कुछ महीनों बाद वे OpenAI-ग्रेड स्पीच टेक्नोलॉजी रिसर्च हब बन रहे हैं जो कृत्रिम ऑडियो में सबसे बड़ी चुनौतियों को पार कर रहे हैं। उनकी सिंथेसाइज़्ड आवाज़ें पहले से ही वास्तविक से अप्रभेद्य हैं और इस सफलता ने न केवल अभूतपूर्व गुणवत्ता और निष्ठा में सामग्री उत्पन्न करने की बाधाओं को बड़े पैमाने पर कम कर दिया है, बल्कि जल्द ही यह क्रिएटर्स को बहुभाषी होकर अपनी दर्शकों को व्यापक रूप से बढ़ाने की अनुमति देगा। – कहते हैं मैकिक ग्नुटेक, जनरल पार्टनर Credo Ventures में।
मनोरंजन और व्यवसाय दोनों में सामान्य होने के बावजूद, ऑडियो को हाल के अनुसंधान में अपेक्षाकृत उपेक्षित किया गया है। हम माती और पियोटर का समर्थन करने के लिए इस जेनरेटिव AI के स्वर्ण युग में अधिक उत्साहित नहीं हो सकते, और विश्वास करते हैं कि ElevenLabs वह टीम है जो इस तकनीक को जनता तक पहुंचाएगी, एक आवाज़ में। - कहते हैं ओलिवर किक्स, प्रिंसिपल Concept Ventures में।
ElevenLabs के बारे में:
ElevenLabs एक अनुसंधान कंपनी है जो क्रिएटर्स और पब्लिशर्स के लिए AI वॉइस सिंथेसिस सॉफ़्टवेयर विकसित कर रही है। कंपनी के टूल्स असाधारण रूप से जीवन्त भाषण प्रस्तुत करते हैं और संदर्भ या यूज़र निर्देश के आधार पर स्वर और उतार-चढ़ाव को समायोजित कर सकते हैं। कंपनी का प्लेटफ़ॉर्म समाचार, न्यूज़लेटर्स, किताबें और वीडियो को आवाज़ देने के लिए आवश्यक गुणवत्ता और बहुमुखी प्रतिभा प्रदान करने का प्रयास करता है। प्रमुख विशेषताओं में शामिल हैं: टेक्स्ट-आधारित स्पीच जनरेशन, वॉइस क्लोनिंग, वॉइस डिज़ाइन और जल्द ही नैरेशन एडिटिंग के लिए प्रोजेक्ट वर्कफ़्लो। ElevenLabs की स्थापना 2022 में पियोटर, एक पूर्व-गूगल मशीन लर्निंग इंजीनियर, और माती, एक पूर्व-पैलेंटिर डिप्लॉयमेंट स्ट्रैटेजिस्ट द्वारा की गई थी। कंपनी का दीर्घकालिक लक्ष्य है कि बोले गए कंटेंट को किसी भी भाषा और आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए।
वेंचर कैपिटल द्वारा प्रदान किया गया Credo Ventures और Concept Ventures. व्यक्तिगत निवेशकों में शामिल हैं पीटर चज़बान, टाइटस सिटोव्स्की, टाल्फन इवांस, डॉ. फातिमा गोडाल, टोमाज़ कारवाटका, पियोटर कारवाटका, अखिल पॉल, बार्टेक पुसेक, मार्टा पिरज़िक, कार्ल्स रेना, परिन शाह, चार्ली सॉन्गहर्स्ट और हैरी सॉन्गहर्स्ट।
संपर्क करें
press@elevenlabs.io
Agents in ElevenLabs Conversational AI can now use GPT-5 for reasoning
Studio-grade music generated with natural language prompts in any style and for countless uses
ElevenLabs द्वारा संचालित कन्वर्सेशनल AI