
Graydon Carter’s Air Mail, now in audio
We’re adding audio to Air Mail magazine, so readers can follow it anywhere
हम एक वॉइस टेक्नोलॉजी रिसर्च कंपनी हैं। हम आर्टिफिशियल इंटेलिजेंस (AI) और मशीन लर्निंग (ML) का उपयोग करके कंटेंट क्रिएटर्स, वेब प्लेटफॉर्म्स और प्रोडक्शन स्टूडियो के लिए सबसे शक्तिशाली स्पीच सिंथेसिस, वॉइस कन्वर्ज़न और डबिंग टूल्स लाते हैं।
डबिंग एक प्रक्रिया है जिसमें फिल्म को अलग भाषा के साउंडट्रैक के साथ प्रस्तुत किया जाता है। आमतौर पर इसका मतलब होता है कि मूल ऐक्टर्स की आवाज़ों को दूसरी भाषा बोलने वाले परफॉर्मर्स की आवाज़ों से बदलना - जिसे "री-वॉइसिंग" भी कहते हैं - जो पारंपरिक रूप से महंगा और समय लेने वाला काम है। Eleven में, हम AI का उपयोग करके इसे स्वचालित रूप से करते हैं, जबकि ऐक्टर्स की मूल आवाज़ों को विभिन्न भाषाओं में संरक्षित रखते हैं।
वॉइस कन्वर्ज़न एक व्यक्ति को दूसरे की आवाज़ में बोलने की अनुमति देता है। इसे वॉइस क्लोनिंग भी कहा जाता है, यह एक प्रक्रिया है जिसमें एक लक्ष्य आवाज़ को एन्कोड करके उसे स्रोत आवाज़ पर ओवरले किया जाता है। किसी और की आवाज़ में बोलना नैतिक चिंताएं उठाता है क्योंकि इसका दुरुपयोग हो सकता है, लेकिन Eleven में, हम इस तकनीक का उपयोग केवल व्यक्ति की सहमति से या प्रदर्शन उद्देश्यों के लिए करते हैं ताकि हितों का टकराव न हो।
टेक्स्ट टू स्पीच (TTS) सभी स्पीच सिंथेसिस तकनीक की जड़ है। TTS तकनीक वर्षों में काफी सुधरी है, हालांकि यह अभी भी अक्सर रोबोटिक लगती है। ऐसा इसलिए है क्योंकि शब्दों का प्रवाहपूर्ण उच्चारण अपने आप में मानव गुणवत्ता देने के लिए पर्याप्त नहीं है। यह समझ से आता है कि क्या कहा जा रहा है, जो इसे प्राकृतिक बनाता है। फिर से, Eleven में, हम यही हासिल करने की कोशिश करते हैं: हमारे मॉडल को मानव-भाषण डेटा की समृद्धि के सामने लाकर, हम इसे उच्चारण के तार्किक और भावनात्मक संदर्भ को समझने के लिए प्रशिक्षित करते हैं, और तदनुसार डिलीवरी को समायोजित करते हैं। हम किसी भी वांछित प्रभाव के लिए डिफ़ॉल्ट डिलीवरी को ओवरराइड भी कर सकते हैं।
हमारा डबिंग टूल आपको एक वीडियो को अलग भाषा में स्वचालित रूप से री-वॉइस करने की अनुमति देता है, जबकि मूल वक्ता की आवाज़ की विशिष्ट विशेषताओं को संरक्षित करता है। हम पहली कंपनी हैं जो स्पीच टू स्पीच अनुवाद के लिए समर्पित टूल्स प्रदान करने के मिशन पर हैं जो भाषाओं के बीच वक्ता की पहचान को संरक्षित करते हैं। हमारी तकनीक आपको बहुभाषी, स्थानीयकृत ऑडियो ट्रैक्स को मूल-ग्रेड की प्रवाह और शब्दावली के साथ, आपकी अपनी आवाज़ में, आपके भाषण पैटर्न को संरक्षित करते हुए, और दृश्यों को फिर से संपादित किए बिना उत्पादन करने की अनुमति देती है। Eleven में, हम एक ऐसे भविष्य की कल्पना करते हैं जहां सभी बोले गए कंटेंट को किसी भी भाषा में स्ट्रीमिंग, फिल्म, पॉडकास्ट, ऑडियोबुक, गेमिंग, विज्ञापन, और अंततः रियल-टाइम बातचीत में सुलभ हो। हम आशा करते हैं कि कैप्शनिंग की तुलना में कहीं अधिक इमर्सिव और सहज अनुभव प्रदान करके इस भविष्य को लाने में मदद करेंगे। हमारे टूल का पहला संस्करण अंग्रेजी से यूरोपीय स्पेनिश डबिंग प्रदान करता है।
स्वचालित डबिंग में प्रोडक्शन गुणवत्ता प्राप्त करना केवल तभी संभव है जब हम दो संबंधित वॉइस टेक क्षेत्रों - वॉइस कन्वर्ज़न और स्पीच जनरेशन में प्रगति करें, जिसके लिए हम अपने डबिंग सॉफ़्टवेयर के साथ-साथ समर्पित टूल्स भी विकसित करते हैं। हमारे प्रोडक्ट्स यहां वॉइस क्लोनिंग और सिंथेटिक स्पीच दोनों का समर्थन करते हैं। हम मानव-समान, गैर-रोबोटिक आवाज़ें (या यहां तक कि जब एक सैंपल सेट पर प्रशिक्षित किया जाता है तो मूल से अप्रभेद्य भाषण) प्रदान करने से आगे जाते हैं। हम किसी भी वांछित प्रभाव के लिए उच्चारण के स्वर को सटीक रूप से समायोजित कर सकते हैं और डिलीवरी की एक विशेष शैली के भीतर अनगिनत पुनरावृत्तियों को उत्पन्न कर सकते हैं - जैसे एक अभिनेता करता है।
संक्षेप में, हमारा डबिंग टूल मौजूदा कंटेंट को विस्तृत दर्शकों तक पहुंचने की अनुमति देने का प्रयास करता है। हमारे स्पीच जनरेशन और वॉइस कन्वर्ज़न टूल्स नए कंटेंट के उत्पादन में शामिल समय और लागत को अनुकूलित करने का प्रयास करते हैं, जबकि प्रोडक्शन वैल्यू को अधिकतम करते हैं। डबिंग के माध्यम से हम मुख्य रूप से क्रिएटर्स को उनकी पहुंच बढ़ाने और संभावित दर्शकों को उस कंटेंट की खोज करने में मदद करने की आशा करते हैं जो उन्हें प्रासंगिक और आकर्षक लगता है, चाहे वे किसी भी भाषा को समझते हों। नई सामग्री बनाते समय उत्पादन मूल्य को अधिकतम करना। डबिंग के माध्यम से हम मुख्य रूप से रचनाकारों को उनकी पहुंच बढ़ाने और संभावित दर्शकों को वह सामग्री खोजने में मदद करने की उम्मीद करते हैं जो उन्हें प्रासंगिक और आकर्षक लगती है, चाहे वे कोई भी भाषा समझते हों।
We’re adding audio to Air Mail magazine, so readers can follow it anywhere
Startup Grants are now available for 12 months, with every recipient receiving 33 million free credits to use across our platform, equivalent to over 680 hours of Conversational AI audio. That’s a full year of free access to ElevenLabs’ AI audio, giving founders the runway to prototype, iterate, and scale.
ElevenLabs द्वारा संचालित कन्वर्सेशनल AI