
Safety framework for AI voice agents
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
लंदन, यूनाइटेड किंगडम - लॉन्च कियाElevenLabsने, जो AI ऑडियो सॉफ़्टवेयर में विश्व नेता है, आज एक नया बहुभाषी वॉइस जनरेशन मॉडल लॉन्च किया जो 30 भाषाओं में "भावनात्मक समृद्धि" के साथ AI वॉइस उत्पन्न करने में सक्षम है।
यह प्रगति, जो पूरी तरह से आंतरिक अनुसंधान पर आधारित है, क्रिएटर्स को यूरोप, एशिया और मध्य पूर्व के अंतरराष्ट्रीय बाजारों के लिए ऑडियो नेटिव कंटेंट बनाने की अनुमति देगी। ElevenLabs ने पिछले अठारह महीनों में मानव भाषण संकेतों का विश्लेषण किया है, भाषण उत्पन्न करने में संदर्भ को समझने और भावनाओं को व्यक्त करने के लिए नए तंत्र बनाए हैं, साथ ही नई और अनूठी आवाज़ों को इकट्ठा किया है।
Eleven Multilingual v2 मॉडल, जब ElevenLabs के टेक्स्ट टू स्पीच प्लेटफ़ॉर्म में टेक्स्ट डाला जाता है, लगभग 30 लिखित भाषाओं को स्वचालित रूप से पहचानने और उनमें भाषण उत्पन्न करने की क्षमता प्रदान करता है, वह भी अभूतपूर्व प्रामाणिकता के स्तर पर।
इस बीच, चाहे आवाज़ कृत्रिम हो या क्लोन की गई, वक्ता की अनूठी आवाज़ की विशेषताएं सभी भाषाओं में संरक्षित रहेंगी, जिसमें उनकी मूल लहजा भी शामिल है। इसका मतलब है कि एक ही आवाज़ का उपयोग 30 अलग-अलग भाषाओं में कंटेंट को जीवंत बनाने के लिए किया जा सकता है।
यह प्रकाशनसभी कंटेंट क्रिएटर्स के लिए प्लेटफ़ॉर्म पर प्रोफेशनल वॉइस क्लोनिंग के सार्वजनिक रिलीज़ का अनुसरण करता है। यह प्रोडक्ट अपडेट, जो अतिरिक्त सुरक्षा और सुरक्षा सुविधाओं के साथ जारी किया गया है, उपयोगकर्ताओं को अपनी आवाज़ की एक डिजिटल प्रति बनाने की अनुमति देता है; एक वर्चुअल संस्करण
जो मूल से अलग नहीं किया जा सकता। आज का रिलीज़ आपके आवाज़ को लगभग 30 भाषाओं में बोलने की क्षमता प्रदान करता है जो बहुभाषी मॉडल द्वारा पेश की जाती हैं।
समर्थित भाषाओं में शामिल हैं; कोरियाई, डच, तुर्की, स्वीडिश, इंडोनेशियाई, वियतनामी, फिलिपिनो, यूक्रेनी, ग्रीक, चेक, फिनिश, रोमानियाई, डेनिश, बल्गेरियाई, मलेशियाई, हंगेरियन, नॉर्वेजियन, स्लोवाक, क्रोएशियाई, क्लासिकल अरबी और तमिल। ये पहले से उपलब्ध भाषाओं में शामिल हो गई हैं जिनमें अंग्रेजी, पोलिश, जर्मन, स्पेनिश, फ्रेंच, इटालियन, हिंदी और पुर्तगाली शामिल हैं।
ElevenLabs ने, हाल ही में फीचर्स के लॉन्च और प्लेटफ़ॉर्म के निरंतर सुधार के बाद, आज पुष्टि की कि प्लेटफ़ॉर्म आधिकारिक तौर पर बीटा संस्करण से बाहर आ जाएगा। यह संक्रमण कंपनी की अपने एक मिलियन से अधिक वैश्विक उपयोगकर्ताओं को विश्वसनीय और उन्नत उपकरण प्रदान करने की प्रतिबद्धता में एक महत्वपूर्ण क्षण का प्रतिनिधित्व करता है।
भविष्य को देखते हुए, ElevenLabs उपयोगकर्ताओं को प्लेटफ़ॉर्म पर आवाज़ें साझा करने और नई आवाज़ के विकास का लाभ उठाने की अनुमति देने के लिए एक तंत्र पेश करने की योजना बना रहा है, जिससे मानव और AI के बीच सहयोग के अवसर बढ़ेंगे।
ElevenLabs के सीईओ और सह-संस्थापक माटी स्टानिस्ज़व्स्की ने टिप्पणी की:
"ElevenLabs ने एक सपने के साथ शुरुआत की कि सभी कंटेंट को किसी भी भाषा और किसी भी आवाज़ में वैश्विक रूप से उपलब्ध कराया जाए। Eleven Multilingual v2 के रिलीज़ ने हमें इस सपने को वास्तविकता में बदलने के एक कदम और करीब ला दिया है और मानव गुणवत्ता वाली AI आवाज़ों को हर लहजे में उपलब्ध कराया है।
"हमारे टेक्स्ट टू स्पीच टूल्स सभी कंटेंट क्रिएटर्स के लिए उच्च गुणवत्ता वाली बोली जाने वाली क्षमताएं प्रदान करते हैं। ये लाभ अब लगभग 30 भाषाओं में बहुभाषी अनुप्रयोगों तक विस्तारित हो गए हैं। हम अंततः AI की मदद से अधिक भाषाओं और आवाज़ों को कवर करने की उम्मीद करते हैं, और कंटेंट के लिए भाषा बाधाओं को दूर करते हैं। ElevenLabs में, हमें विश्वास है कि ये पहुंच में सुधार अंततः अधिक रचनात्मकता, नवाचार और विविधता को बढ़ावा देंगे।"
कई भाषाओं में उच्च गुणवत्ता वाले ऑडियो कंटेंट बनाने के लिए आवश्यक लागत और संसाधनों को कम करके, ElevenLabs कंपनियों और क्रिएटर्स को अधिक रचनात्मक और सुलभ कंटेंट बनाने की अनुमति देता है जो संस्कृतियों और भाषाओं के बीच गूंजता है।
बहुभाषी स्पीच जनरेशन टूल गेम डेवलपर्स और स्वतंत्र प्रकाशकों के लिए नई संभावनाएं प्रदान करता है, जिससे गेमिंग अनुभवों और ऑडियो कंटेंट का अंतरराष्ट्रीय दर्शकों के लिए अनुवाद किया जा सके, और खिलाड़ियों और श्रोताओं के साथ उनकी अपनी भाषाओं में संवाद किया जा सके, बिना बोले गए शब्द की गुणवत्ता या सटीकता से समझौता किए।
इसी तरह, शैक्षिक संस्थानों के पास अब लक्षित भाषाओं में सटीक ऑडियो कंटेंट प्रदान करने के साधन हैं, जिससे भाषा समझ और उच्चारण कौशल को बढ़ावा मिलता है, साथ ही विभिन्न शिक्षण शैलियों और अंतरराष्ट्रीय छात्रों की सीखने की जरूरतों को पूरा किया जाता है।
सभी प्रकार के क्रिएटर्स ElevenLabs के टूल का उपयोग कर सकते हैं ताकि दृष्टिबाधित या अतिरिक्त सीखने की जरूरतों वाले लोगों के लिए कंटेंट की पहुंच को बेहतर बनाया जा सके, दृश्य सामग्री को कई भाषाओं में उपलब्ध भाषण के साथ पूरक करके।
जनवरी 2023 में अनावरण किए गए AI ऑडियो टूल्स के अपने प्रारंभिक सेट में किसी भी टेक्स्ट को पहले से डिज़ाइन की गई कृत्रिम आवाज़ों की एक श्रृंखला के माध्यम से भाषण में बदलने की क्षमता और अपनी आवाज़ की एक प्रति बनाने की क्षमता शामिल थी। बहुभाषी स्पीच सिंथेसिस टूल ElevenLabs के मिशन में एक और कदम है कि सभी कंटेंट को किसी भी भाषा और किसी भी आवाज़ में वैश्विक रूप से उपलब्ध कराया जाए।
कई क्षेत्रों और रचनात्मक क्षेत्रों ने पहले ही इस तकनीक को अपनाया है, जिसमें स्वतंत्र लेखकों को ऑडियोबुक बनाने में सक्षम बनाना, वीडियो गेम में सहायक पात्रों को आवाज़ देना, दृष्टिबाधित लोगों को ऑनलाइन लिखित सामग्री तक पहुंचने में मदद करना, और दुनिया के पहले AI रेडियो चैनल को संचालित करना शामिल है। ElevenLabs ने कई प्रमुख कंटेंट क्रिएटर्स और स्टूडियो के साथ साझेदारी की है, जिसमें AI वीडियो जनरेटर D-ID, दुनिया के सबसे बड़े ऑडियोबुक प्रकाशकों में से एक Storytel, ओपन एक्सेस साइंटिफिक वीडियो प्लेटफ़ॉर्म ScienceCast जो arXiv पर प्रकाशित वैज्ञानिक शोध पत्रों को संक्षेपित करता है, वैश्विक कंटेंट क्रिएटर प्लेटफ़ॉर्म TheSoul Publishing, और अद्भुत गेम डेवलपर्स जैसे Embark Studios और Paradox Interactive, और MNTN मीडिया प्लेटफ़ॉर्म शामिल हैं।
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
Tips from latency-sensitive RAG systems in production
ElevenLabs द्वारा संचालित कन्वर्सेशनल AI