Eleven v3 अल्फा का परिचय

v3 आजमाएं

Eleven Multilingual v1: हमारा नया स्पीच सिंथेसिस मॉडल

हमारा वर्तमान डीप लर्निंग दृष्टिकोण अधिक डेटा, अधिक कंप्यूटेशनल पावर, और नई तकनीकों का उपयोग करता है ताकि हमारा सबसे उन्नत स्पीच सिंथेसिस मॉडल प्रदान किया जा सके

Multilingual II V1 text with instructions in multiple languages about transforming voice into another character and controlling emotions.

आज हम Eleven Multilingual v1 लॉन्च करने के लिए उत्साहित हैं - हमारा उन्नत स्पीच सिंथेसिस मॉडल जो सात नई भाषाओं का समर्थन करता है: फ्रेंच, जर्मन, हिंदी, इटालियन, पोलिश, पुर्तगाली, और स्पेनिश. Eleven Monolingual v1 को शक्ति देने वाले शोध पर आधारित, हमारा वर्तमान डीप लर्निंग दृष्टिकोण अधिक डेटा, अधिक कंप्यूटेशनल पावर और नए तकनीकों का उपयोग करता है, जो एक परिष्कृत मॉडल के अंदर पाठ्य सूक्ष्मताओं को समझने और भावनात्मक रूप से समृद्ध प्रदर्शन देने में सक्षम है। यह प्रगति रचनाकारों, गेम डेवलपर्स और प्रकाशकों के लिए रचनात्मक क्षितिज का विस्तार करती है और अधिक स्थानीयकृत, सुलभ और कल्पनाशील सामग्री बनाने के लिए जनरेटिव मीडिया के उपयोग का मार्ग प्रशस्त करती है।

नया मॉडल सभी सब्सक्रिप्शन योजनाओं में उपलब्ध है और आप इसे हमारे बीटा प्लेटफॉर्म पर अभी आज़मा सकते हैं।

इसे उपयोग करने के लिए, बस स्पीच सिंथेसिस पैनल में नए जोड़े गए ड्रॉप-डाउन मेनू से इसे चुनें।

शोध अवलोकन

अपने पूर्ववर्ती की तरह, नया मॉडल पूरी तरह से हमारे इन-हाउस शोध पर आधारित है। यह सभी ताकतों को बनाए रखता है जिसने Eleven Monolingual v1 को एक उत्कृष्ट कहानी कहने का उपकरण बनाया, जैसे कि संदर्भ के आधार पर डिलीवरी को समायोजित करने और इरादे और भावनाओं को अत्यधिक वास्तविक रूप से व्यक्त करने की क्षमता। इन विशेषताओं को अब बहुभाषी डेटा प्रशिक्षण के माध्यम से नई समर्थित भाषाओं में विस्तारित किया गया है।

मॉडल की एक उल्लेखनीय विशेषता इसकी बहुभाषी पाठ की पहचान करने और उसे उपयुक्त रूप से व्यक्त करने की क्षमता है। अब आप एक ही प्रॉम्प्ट का उपयोग करके कई भाषाओं में स्पीच जनरेट कर सकते हैं जबकि प्रत्येक वक्ता की अनूठी आवाज़ की विशेषताओं को बनाए रखते हुए। सर्वोत्तम परिणामों के लिए, हम एक ही भाषा प्रॉम्प्ट प्रदान करने की सलाह देते हैं। हालांकि मॉडल पहले से ही एक साथ कई भाषाओं के साथ अच्छी तरह से प्रदर्शन कर सकता है, फिर भी और सुधार की आवश्यकता है।

नया मॉडल अन्य VoiceLab विशेषताओं जैसे कि इंस्टेंट वॉइस क्लोनिंग और वॉइस डिज़ाइन के साथ संगत है। सभी बनाई गई आवाज़ों से उम्मीद की जाती है कि वे अपनी मूल भाषण विशेषताओं को सभी भाषाओं में बनाए रखेंगी, जिसमें उनका मूल उच्चारण भी शामिल है।

यह कहा जा रहा है, मॉडल की ज्ञात सीमाएँ हैं: संख्याएँ, संक्षेपाक्षर, और विदेशी शब्द कभी-कभी किसी अन्य भाषा में प्रॉम्प्ट किए जाने पर अंग्रेजी में डिफ़ॉल्ट हो जाते हैं। उदाहरण के लिए, संख्या "11", या शब्द “रेडियो”, स्पेनिश प्रॉम्प्ट में टाइप किए जाने पर अंग्रेजी में उच्चारित हो सकते हैं। हम सुधार पर काम कर रहे हैं, इसलिए हम लक्ष्य भाषा में संक्षेपाक्षर और संख्याएँ लिखने की सलाह देते हैं।

वॉइस का लोकतंत्रीकरण

ElevenLabs की शुरुआत इस सपने के साथ हुई थी कि सभी सामग्री को किसी भी भाषा और किसी भी आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए। हमारी टीम के सदस्य पूरे यूरोप, एशिया और अमेरिका से आते हैं। जैसे-जैसे हमारी टीम और दुनिया अधिक बहुभाषी होती जा रही है, हम हर भाषा में मानव-गुणवत्ता वाली AI आवाज़ें उपलब्ध कराने के दृष्टिकोण के पीछे और अधिक एकजुट हो रहे हैं।

हमारे टेक्स्ट टू स्पीच (TTS) मॉडल का नवीनतम संस्करण इस दृष्टिकोण को वास्तविकता बनाने के हमारे मार्ग पर सिर्फ एक प्रारंभिक कदम है। मानव-गुणवत्ता वाली AI आवाज़ों के आगमन के साथ, उपयोगकर्ता और व्यवसाय अब अपनी आवश्यकताओं, प्राथमिकताओं और पसंद के अनुसार ऑडियो सामग्री तैयार और अनुकूलित कर सकते हैं। इसने पहले ही रचनाकारों, छोटे व्यवसायों और स्वतंत्र कलाकारों के लिए खेल के मैदान को समतल करने की क्षमता दिखाई है। AI ऑडियो की शक्ति का उपयोग करके, उपयोगकर्ता अब उच्च-गुणवत्ता वाले श्रवण अनुभव विकसित कर सकते हैं जो अधिक संसाधनों वाले बड़े संगठनों द्वारा उत्पादित अनुभवों के बराबर हैं।

ये लाभ अब बहुभाषी, बहुसांस्कृतिक और शैक्षिक अनुप्रयोगों तक विस्तारित होते हैं, उपयोगकर्ताओं, कंपनियों और संस्थानों को व्यापक दर्शकों के साथ प्रतिध्वनित होने वाली प्रामाणिक ऑडियो का उत्पादन करने में सक्षम बनाते हैं। आवाज़ों, उच्चारणों और भाषाओं की एक विस्तृत श्रृंखला प्रदान करके, AI सांस्कृतिक अंतराल को पाटने और वैश्विक समझ को बढ़ावा देने में मदद करता है। Eleven में, हम मानते हैं कि यह नई सुलभता अंततः अधिक रचनात्मकता, नवाचार और विविधता को बढ़ावा देती है।

सामग्री निर्माता जो विविध दर्शकों के साथ जुड़ना चाहते हैं अब उनके पास सांस्कृतिक अंतराल को पाटने और समावेशिता को बढ़ावा देने के उपकरण हैं।

गेम डेवलपर्स और प्रकाशक अंतरराष्ट्रीय दर्शकों के लिए इमर्सिव, स्थानीयकृत अनुभव बना सकते हैं, भाषा बाधाओं को पार करते हुए खिलाड़ियों और श्रोताओं के साथ जुड़ सकते हैं, और गुणवत्ता या सटीकता में कोई कमी किए बिना जुड़ाव और दक्षता को अधिकतम कर सकते हैं।

शैक्षिक संस्थान अब अपने लक्षित भाषाओं में विभिन्न उपयोगकर्ताओं के लिए ऑडियो सामग्री तैयार करने के साधन रखते हैं, भाषा समझ और यहां तक कि उच्चारण कौशल को बढ़ावा देते हैं, साथ ही विभिन्न शिक्षण शैलियों और सीखने की आवश्यकताओं को पूरा करते हैं।

सुलभता संस्थान अब दृष्टिबाधित या सीखने में कठिनाई वाले लोगों को और अधिक सशक्त बना सकते हैं, उन्हें कम सुलभ संसाधनों को उनकी आवश्यकताओं के अनुसार सामग्री और रूप में अनुकूल माध्यम में आसानी से परिवर्तित करने के साधन प्रदान करके।

हम यह देखने के लिए इंतजार नहीं कर सकते कि हमारे वर्तमान और भविष्य के रचनाकार और डेवलपर्स क्या संभव है इसकी सीमाओं को कैसे आगे बढ़ाते हैं!

ElevenLabs टीम के लेखों को देखें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें