
Meesho delivers real-time, multilingual customer support with voice agents
Scaling incredible experiences for millions of users in Hindi and English
हमारा वर्तमान डीप लर्निंग दृष्टिकोण अधिक डेटा, अधिक कंप्यूटेशनल पावर, और नई तकनीकों का उपयोग करता है ताकि हमारा सबसे उन्नत स्पीच सिंथेसिस मॉडल प्रदान किया जा सके
आज हम Eleven Multilingual v1 लॉन्च करने के लिए उत्साहित हैं - हमारा उन्नत स्पीच सिंथेसिस मॉडल जो सात नई भाषाओं का समर्थन करता है: फ्रेंच, जर्मन, हिंदी, इटालियन, पोलिश, पुर्तगाली, और स्पेनिश. Eleven Monolingual v1 को शक्ति देने वाले शोध पर आधारित, हमारा वर्तमान डीप लर्निंग दृष्टिकोण अधिक डेटा, अधिक कंप्यूटेशनल पावर और नए तकनीकों का उपयोग करता है, जो एक परिष्कृत मॉडल के अंदर पाठ्य सूक्ष्मताओं को समझने और भावनात्मक रूप से समृद्ध प्रदर्शन देने में सक्षम है। यह प्रगति रचनाकारों, गेम डेवलपर्स और प्रकाशकों के लिए रचनात्मक क्षितिज का विस्तार करती है और अधिक स्थानीयकृत, सुलभ और कल्पनाशील सामग्री बनाने के लिए जनरेटिव मीडिया के उपयोग का मार्ग प्रशस्त करती है।
नया मॉडल सभी सब्सक्रिप्शन योजनाओं में उपलब्ध है और आप इसे हमारे बीटा प्लेटफॉर्म पर अभी आज़मा सकते हैं।
इसे उपयोग करने के लिए, बस स्पीच सिंथेसिस पैनल में नए जोड़े गए ड्रॉप-डाउन मेनू से इसे चुनें।
अपने पूर्ववर्ती की तरह, नया मॉडल पूरी तरह से हमारे इन-हाउस शोध पर आधारित है। यह सभी ताकतों को बनाए रखता है जिसने Eleven Monolingual v1 को एक उत्कृष्ट कहानी कहने का उपकरण बनाया, जैसे कि संदर्भ के आधार पर डिलीवरी को समायोजित करने और इरादे और भावनाओं को अत्यधिक वास्तविक रूप से व्यक्त करने की क्षमता। इन विशेषताओं को अब बहुभाषी डेटा प्रशिक्षण के माध्यम से नई समर्थित भाषाओं में विस्तारित किया गया है।
मॉडल की एक उल्लेखनीय विशेषता इसकी बहुभाषी पाठ की पहचान करने और उसे उपयुक्त रूप से व्यक्त करने की क्षमता है। अब आप एक ही प्रॉम्प्ट का उपयोग करके कई भाषाओं में स्पीच जनरेट कर सकते हैं जबकि प्रत्येक वक्ता की अनूठी आवाज़ की विशेषताओं को बनाए रखते हुए। सर्वोत्तम परिणामों के लिए, हम एक ही भाषा प्रॉम्प्ट प्रदान करने की सलाह देते हैं। हालांकि मॉडल पहले से ही एक साथ कई भाषाओं के साथ अच्छी तरह से प्रदर्शन कर सकता है, फिर भी और सुधार की आवश्यकता है।
नया मॉडल अन्य VoiceLab विशेषताओं जैसे कि इंस्टेंट वॉइस क्लोनिंग और वॉइस डिज़ाइन के साथ संगत है। सभी बनाई गई आवाज़ों से उम्मीद की जाती है कि वे अपनी मूल भाषण विशेषताओं को सभी भाषाओं में बनाए रखेंगी, जिसमें उनका मूल उच्चारण भी शामिल है।
यह कहा जा रहा है, मॉडल की ज्ञात सीमाएँ हैं: संख्याएँ, संक्षेपाक्षर, और विदेशी शब्द कभी-कभी किसी अन्य भाषा में प्रॉम्प्ट किए जाने पर अंग्रेजी में डिफ़ॉल्ट हो जाते हैं। उदाहरण के लिए, संख्या "11", या शब्द “रेडियो”, स्पेनिश प्रॉम्प्ट में टाइप किए जाने पर अंग्रेजी में उच्चारित हो सकते हैं। हम सुधार पर काम कर रहे हैं, इसलिए हम लक्ष्य भाषा में संक्षेपाक्षर और संख्याएँ लिखने की सलाह देते हैं।
ElevenLabs की शुरुआत इस सपने के साथ हुई थी कि सभी सामग्री को किसी भी भाषा और किसी भी आवाज़ में सार्वभौमिक रूप से सुलभ बनाया जाए। हमारी टीम के सदस्य पूरे यूरोप, एशिया और अमेरिका से आते हैं। जैसे-जैसे हमारी टीम और दुनिया अधिक बहुभाषी होती जा रही है, हम हर भाषा में मानव-गुणवत्ता वाली AI आवाज़ें उपलब्ध कराने के दृष्टिकोण के पीछे और अधिक एकजुट हो रहे हैं।
हमारे टेक्स्ट टू स्पीच (TTS) मॉडल का नवीनतम संस्करण इस दृष्टिकोण को वास्तविकता बनाने के हमारे मार्ग पर सिर्फ एक प्रारंभिक कदम है। मानव-गुणवत्ता वाली AI आवाज़ों के आगमन के साथ, उपयोगकर्ता और व्यवसाय अब अपनी आवश्यकताओं, प्राथमिकताओं और पसंद के अनुसार ऑडियो सामग्री तैयार और अनुकूलित कर सकते हैं। इसने पहले ही रचनाकारों, छोटे व्यवसायों और स्वतंत्र कलाकारों के लिए खेल के मैदान को समतल करने की क्षमता दिखाई है। AI ऑडियो की शक्ति का उपयोग करके, उपयोगकर्ता अब उच्च-गुणवत्ता वाले श्रवण अनुभव विकसित कर सकते हैं जो अधिक संसाधनों वाले बड़े संगठनों द्वारा उत्पादित अनुभवों के बराबर हैं।
ये लाभ अब बहुभाषी, बहुसांस्कृतिक और शैक्षिक अनुप्रयोगों तक विस्तारित होते हैं, उपयोगकर्ताओं, कंपनियों और संस्थानों को व्यापक दर्शकों के साथ प्रतिध्वनित होने वाली प्रामाणिक ऑडियो का उत्पादन करने में सक्षम बनाते हैं। आवाज़ों, उच्चारणों और भाषाओं की एक विस्तृत श्रृंखला प्रदान करके, AI सांस्कृतिक अंतराल को पाटने और वैश्विक समझ को बढ़ावा देने में मदद करता है। Eleven में, हम मानते हैं कि यह नई सुलभता अंततः अधिक रचनात्मकता, नवाचार और विविधता को बढ़ावा देती है।
सामग्री निर्माता जो विविध दर्शकों के साथ जुड़ना चाहते हैं अब उनके पास सांस्कृतिक अंतराल को पाटने और समावेशिता को बढ़ावा देने के उपकरण हैं।
गेम डेवलपर्स और प्रकाशक अंतरराष्ट्रीय दर्शकों के लिए इमर्सिव, स्थानीयकृत अनुभव बना सकते हैं, भाषा बाधाओं को पार करते हुए खिलाड़ियों और श्रोताओं के साथ जुड़ सकते हैं, और गुणवत्ता या सटीकता में कोई कमी किए बिना जुड़ाव और दक्षता को अधिकतम कर सकते हैं।
शैक्षिक संस्थान अब अपने लक्षित भाषाओं में विभिन्न उपयोगकर्ताओं के लिए ऑडियो सामग्री तैयार करने के साधन रखते हैं, भाषा समझ और यहां तक कि उच्चारण कौशल को बढ़ावा देते हैं, साथ ही विभिन्न शिक्षण शैलियों और सीखने की आवश्यकताओं को पूरा करते हैं।
सुलभता संस्थान अब दृष्टिबाधित या सीखने में कठिनाई वाले लोगों को और अधिक सशक्त बना सकते हैं, उन्हें कम सुलभ संसाधनों को उनकी आवश्यकताओं के अनुसार सामग्री और रूप में अनुकूल माध्यम में आसानी से परिवर्तित करने के साधन प्रदान करके।
हम यह देखने के लिए इंतजार नहीं कर सकते कि हमारे वर्तमान और भविष्य के रचनाकार और डेवलपर्स क्या संभव है इसकी सीमाओं को कैसे आगे बढ़ाते हैं!
Scaling incredible experiences for millions of users in Hindi and English
AI-generated videos created with avatars & dubbed voice have grown 7x
ElevenLabs द्वारा संचालित कन्वर्सेशनल AI