AI वॉइस ट्रांसलेशन

26 सित॰ 2023 • 5 मिनट पढ़ने का समय

AI डबिंग टूल अक्टूबर में आ रहा है

वॉइस ट्रांसलेशन / AI डबिंग

हम अगले महीने AI वॉइस ट्रांसलेशन टूल लॉन्च कर रहे हैं। यह यूज़र्स को किसी भी ऑडियो या वीडियो कंटेंट को दूसरी भाषा में बदलने की सुविधा देता है, जबकि मूल स्पीकर की आवाज़ को बनाए रखता है। हमारा लक्ष्य सरल है: स्ट्रीमिंग, गेमिंग और फिल्मों जैसे माध्यमों में बहुभाषी कंटेंट को सुलभ और प्रामाणिक बनाना।

हमने देखा है Spotify और OpenAI ने वॉइस ट्रांसलेशन और स्पीच क्षमताओं में अपनी प्रगति को दिखाया है, और हम अपनी खुद की प्रगति की खबर साझा करने के लिए उत्साहित हैं।

This is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023

आगामी टूल सिर्फ ट्रांसलेशन के बारे में नहीं है; यह स्पीकर की पहचान और मूल भाषण पैटर्न को भाषाओं के पार संरक्षित करने के बारे में है, जो पारंपरिक कैप्शनिंग की तुलना में अधिक जुड़ा और इमर्सिव अनुभव प्रदान करता है।

कल्पना करें कि एक शैक्षिक वीडियो अंग्रेजी में है। अगर कोई केवल स्पेनिश बोलता है (लेकिन विषय में रुचि रखता है), तो यह एक समस्या है। हम चाहते हैं कि मूल व्यक्ति मूल संदेश को स्वाभाविक रूप से नेटिव-ग्रेड स्पेनिश में बोल सके।

इसके लिए वॉइस कन्वर्ज़न, वॉइस क्लोनिंग और मल्टीलिंगुअल स्पीच सिंथेसिस क्षमताओं को एक नए टूल में जोड़ना आवश्यक है। यहां, वॉइस क्लोनिंग हमें स्पीकर की पहचान - उनकी आवाज़ की ध्वनि को संरक्षित करने देती है। हम स्पीच सिंथेसिस का उपयोग करके एक अलग भाषा में नए वाक्यांश उत्पन्न करते हैं जैसे कि वही व्यक्ति बोल रहा हो। वॉइस कन्वर्ज़न का उपयोग इसलिए होता है क्योंकि हम अधिकतम इमर्शन के लिए मूल भावनाओं, इरादे और डिलीवरी की शैली को संरक्षित करना चाहते हैं।

वॉइस क्लोनिंग

A blue and silver abstract spherical shape next to a gray microphone icon.

वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें

हमने ऐसी तकनीक विकसित करने में बहुत शोध और नवाचार किया है जो मानव भाषण को अल्ट्रा-रियलिस्टिक रूप से प्रस्तुत कर सके, संदर्भ को समझ सके और वॉइस प्रोफाइल को एन्कोड कर सके। हमारा AI वॉइस ट्रांसलेशन टूल क्रिएटर्स को अपनी पहुंच बढ़ाने और संभावित दर्शकों को उनकी समझ में आने वाली भाषा की परवाह किए बिना, प्रासंगिक और आकर्षक कंटेंट खोजने में मदद करने की दिशा में एक महत्वपूर्ण कदम है।

डबिंग, वॉइस कन्वर्ज़न और स्पीच सिंथेसिस क्या है?

डबिंग एक प्रक्रिया है जिसमें वीडियो को एक अलग भाषा के साउंडट्रैक के साथ प्रदान किया जाता है, जिसमें मूल अभिनेताओं की आवाज़ों को अलग भाषा बोलने वाले कलाकारों की आवाज़ों से बदल दिया जाता है - जिसे "री-वॉइसिंग" भी कहा जाता है - पारंपरिक रूप से एक महंगा और समय लेने वाला कार्य। Eleven में, हमारा लक्ष्य इसे स्वचालित रूप से करना है, जबकि भाषाओं के पार मूल आवाज़ों को संरक्षित करना है।

वॉइस कन्वर्ज़न एक व्यक्ति को दूसरे की आवाज़ में बोलने की अनुमति देता है। यह वॉइस क्लोनिंग का उपयोग करता है, एक लक्ष्य आवाज़ को एन्कोड करने और उसे स्रोत आवाज़ पर ओवरले करने के लिए। परिणामस्वरूप मूल संदेश किसी और के द्वारा बोला गया प्रतीत होता है।

टेक्स्ट टू स्पीच (TTS) सभी स्पीच सिंथेसिस तकनीक की जड़ है। TTS तकनीक वर्षों में काफी सुधरी है, हालांकि यह अभी भी अक्सर रोबोटिक लगती है। ऐसा इसलिए है क्योंकि शब्दों का प्रवाहपूर्ण उच्चारण अपने आप में भाषण को मानव गुणवत्ता देने के लिए अपर्याप्त है। यह इरादा-चालित टोन और गति है जो यह समझने से आती है कि क्या कहा जा रहा है, जो इसे स्वाभाविक बनाती है। Eleven में, हम यही हासिल करने की कोशिश करते हैं: हमारे मॉडल को मानव-भाषण डेटा की प्रचुरता के सामने लाकर, हम इसे वाक्यांशों के तार्किक और भावनात्मक संदर्भ को समझने और तदनुसार डिलीवरी को समायोजित करने के लिए प्रशिक्षित करते हैं।

टेक्स्ट टू स्पीच

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

हमारे टेक्स्ट टू स्पीच (TTS) सिस्टम के साथ मानव जैसी आवाज़ें बनाएं, जो उच्च गुणवत्ता वाली नैरेशन, गेमिंग, वीडियो और एक्सेसिबिलिटी के लिए बनाया गया है। अभिव्यक्तिपूर्ण आवाज़ें, बहुभाषी समर्थन, और API इंटीग्रेशन से व्यक्तिगत प्रोजेक्ट्स से लेकर एंटरप्राइज़ वर्कफ़्लोज़ तक आसानी से स्केल करें।