
वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
Eleven v3 अल्फा का परिचय
v3 आजमाएंहम अगले महीने AI वॉइस ट्रांसलेशन टूल लॉन्च कर रहे हैं। यह यूज़र्स को किसी भी ऑडियो या वीडियो कंटेंट को दूसरी भाषा में बदलने की सुविधा देता है, जबकि मूल स्पीकर की आवाज़ को बनाए रखता है। हमारा लक्ष्य सरल है: स्ट्रीमिंग, गेमिंग और फिल्मों जैसे माध्यमों में बहुभाषी कंटेंट को सुलभ और प्रामाणिक बनाना।
हमने देखा है Spotify और OpenAI ने वॉइस ट्रांसलेशन और स्पीच क्षमताओं में अपनी प्रगति को दिखाया है, और हम अपनी खुद की प्रगति की खबर साझा करने के लिए उत्साहित हैं।
This is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023
आगामी टूल सिर्फ ट्रांसलेशन के बारे में नहीं है; यह स्पीकर की पहचान और मूल भाषण पैटर्न को भाषाओं के पार संरक्षित करने के बारे में है, जो पारंपरिक कैप्शनिंग की तुलना में अधिक जुड़ा और इमर्सिव अनुभव प्रदान करता है।
कल्पना करें कि एक शैक्षिक वीडियो अंग्रेजी में है। अगर कोई केवल स्पेनिश बोलता है (लेकिन विषय में रुचि रखता है), तो यह एक समस्या है। हम चाहते हैं कि मूल व्यक्ति मूल संदेश को स्वाभाविक रूप से नेटिव-ग्रेड स्पेनिश में बोल सके।
इसके लिए वॉइस कन्वर्ज़न, वॉइस क्लोनिंग और मल्टीलिंगुअल स्पीच सिंथेसिस क्षमताओं को एक नए टूल में जोड़ना आवश्यक है। यहां, वॉइस क्लोनिंग हमें स्पीकर की पहचान - उनकी आवाज़ की ध्वनि को संरक्षित करने देती है। हम स्पीच सिंथेसिस का उपयोग करके एक अलग भाषा में नए वाक्यांश उत्पन्न करते हैं जैसे कि वही व्यक्ति बोल रहा हो। वॉइस कन्वर्ज़न का उपयोग इसलिए होता है क्योंकि हम अधिकतम इमर्शन के लिए मूल भावनाओं, इरादे और डिलीवरी की शैली को संरक्षित करना चाहते हैं।
वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
हमने ऐसी तकनीक विकसित करने में बहुत शोध और नवाचार किया है जो मानव भाषण को अल्ट्रा-रियलिस्टिक रूप से प्रस्तुत कर सके, संदर्भ को समझ सके और वॉइस प्रोफाइल को एन्कोड कर सके। हमारा AI वॉइस ट्रांसलेशन टूल क्रिएटर्स को अपनी पहुंच बढ़ाने और संभावित दर्शकों को उनकी समझ में आने वाली भाषा की परवाह किए बिना, प्रासंगिक और आकर्षक कंटेंट खोजने में मदद करने की दिशा में एक महत्वपूर्ण कदम है।
डबिंग एक प्रक्रिया है जिसमें वीडियो को एक अलग भाषा के साउंडट्रैक के साथ प्रदान किया जाता है, जिसमें मूल अभिनेताओं की आवाज़ों को अलग भाषा बोलने वाले कलाकारों की आवाज़ों से बदल दिया जाता है - जिसे "री-वॉइसिंग" भी कहा जाता है - पारंपरिक रूप से एक महंगा और समय लेने वाला कार्य। Eleven में, हमारा लक्ष्य इसे स्वचालित रूप से करना है, जबकि भाषाओं के पार मूल आवाज़ों को संरक्षित करना है।
वॉइस कन्वर्ज़न एक व्यक्ति को दूसरे की आवाज़ में बोलने की अनुमति देता है। यह वॉइस क्लोनिंग का उपयोग करता है, एक लक्ष्य आवाज़ को एन्कोड करने और उसे स्रोत आवाज़ पर ओवरले करने के लिए। परिणामस्वरूप मूल संदेश किसी और के द्वारा बोला गया प्रतीत होता है।
टेक्स्ट टू स्पीच (TTS) सभी स्पीच सिंथेसिस तकनीक की जड़ है। TTS तकनीक वर्षों में काफी सुधरी है, हालांकि यह अभी भी अक्सर रोबोटिक लगती है। ऐसा इसलिए है क्योंकि शब्दों का प्रवाहपूर्ण उच्चारण अपने आप में भाषण को मानव गुणवत्ता देने के लिए अपर्याप्त है। यह इरादा-चालित टोन और गति है जो यह समझने से आती है कि क्या कहा जा रहा है, जो इसे स्वाभाविक बनाती है। Eleven में, हम यही हासिल करने की कोशिश करते हैं: हमारे मॉडल को मानव-भाषण डेटा की प्रचुरता के सामने लाकर, हम इसे वाक्यांशों के तार्किक और भावनात्मक संदर्भ को समझने और तदनुसार डिलीवरी को समायोजित करने के लिए प्रशिक्षित करते हैं।
हमारी AI टेक्स्ट टू स्पीच टेक्नोलॉजी 32 भाषाओं में हजारों हाई क्वालिटी, इंसान जैसी आवाज़ें प्रदान करती है। चाहे आप एक मुफ़्त टेक्स्ट टू स्पीच समाधान खोज रहे हों या व्यावसायिक प्रोजेक्ट्स के लिए प्रीमियम वॉइस AI सेवा, हमारे टूल आपकी ज़रूरतों को पूरा कर सकते हैं
हम अक्टूबर रिलीज़ का इंतजार कर रहे हैं और बहुभाषी कंटेंट के साथ जुड़ने के तरीके को बदलने के लिए उत्सुक हैं।
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.