
वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
हम अगले महीने AI वॉइस ट्रांसलेशन टूल लॉन्च कर रहे हैं। यह यूज़र्स को किसी भी ऑडियो या वीडियो कंटेंट को दूसरी भाषा में बदलने की सुविधा देता है, जबकि मूल स्पीकर की आवाज़ को बनाए रखता है। हमारा लक्ष्य सरल है: स्ट्रीमिंग, गेमिंग और फिल्मों जैसे माध्यमों में बहुभाषी कंटेंट को सुलभ और प्रामाणिक बनाना।
हमने देखा है Spotify और OpenAI ने वॉइस ट्रांसलेशन और स्पीच क्षमताओं में अपनी प्रगति को दिखाया है, और हम अपनी खुद की प्रगति की खबर साझा करने के लिए उत्साहित हैं।
This is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023
आगामी टूल सिर्फ ट्रांसलेशन के बारे में नहीं है; यह स्पीकर की पहचान और मूल भाषण पैटर्न को भाषाओं के पार संरक्षित करने के बारे में है, जो पारंपरिक कैप्शनिंग की तुलना में अधिक जुड़ा और इमर्सिव अनुभव प्रदान करता है।
कल्पना करें कि एक शैक्षिक वीडियो अंग्रेजी में है। अगर कोई केवल स्पेनिश बोलता है (लेकिन विषय में रुचि रखता है), तो यह एक समस्या है। हम चाहते हैं कि मूल व्यक्ति मूल संदेश को स्वाभाविक रूप से नेटिव-ग्रेड स्पेनिश में बोल सके।
इसके लिए वॉइस कन्वर्ज़न, वॉइस क्लोनिंग और मल्टीलिंगुअल स्पीच सिंथेसिस क्षमताओं को एक नए टूल में जोड़ना आवश्यक है। यहां, वॉइस क्लोनिंग हमें स्पीकर की पहचान - उनकी आवाज़ की ध्वनि को संरक्षित करने देती है। हम स्पीच सिंथेसिस का उपयोग करके एक अलग भाषा में नए वाक्यांश उत्पन्न करते हैं जैसे कि वही व्यक्ति बोल रहा हो। वॉइस कन्वर्ज़न का उपयोग इसलिए होता है क्योंकि हम अधिकतम इमर्शन के लिए मूल भावनाओं, इरादे और डिलीवरी की शैली को संरक्षित करना चाहते हैं।
वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
हमने ऐसी तकनीक विकसित करने में बहुत शोध और नवाचार किया है जो मानव भाषण को अल्ट्रा-रियलिस्टिक रूप से प्रस्तुत कर सके, संदर्भ को समझ सके और वॉइस प्रोफाइल को एन्कोड कर सके। हमारा AI वॉइस ट्रांसलेशन टूल क्रिएटर्स को अपनी पहुंच बढ़ाने और संभावित दर्शकों को उनकी समझ में आने वाली भाषा की परवाह किए बिना, प्रासंगिक और आकर्षक कंटेंट खोजने में मदद करने की दिशा में एक महत्वपूर्ण कदम है।
डबिंग एक प्रक्रिया है जिसमें वीडियो को एक अलग भाषा के साउंडट्रैक के साथ प्रदान किया जाता है, जिसमें मूल अभिनेताओं की आवाज़ों को अलग भाषा बोलने वाले कलाकारों की आवाज़ों से बदल दिया जाता है - जिसे "री-वॉइसिंग" भी कहा जाता है - पारंपरिक रूप से एक महंगा और समय लेने वाला कार्य। Eleven में, हमारा लक्ष्य इसे स्वचालित रूप से करना है, जबकि भाषाओं के पार मूल आवाज़ों को संरक्षित करना है।
वॉइस कन्वर्ज़न एक व्यक्ति को दूसरे की आवाज़ में बोलने की अनुमति देता है। यह वॉइस क्लोनिंग का उपयोग करता है, एक लक्ष्य आवाज़ को एन्कोड करने और उसे स्रोत आवाज़ पर ओवरले करने के लिए। परिणामस्वरूप मूल संदेश किसी और के द्वारा बोला गया प्रतीत होता है।
टेक्स्ट टू स्पीच (TTS) सभी स्पीच सिंथेसिस तकनीक की जड़ है। TTS तकनीक वर्षों में काफी सुधरी है, हालांकि यह अभी भी अक्सर रोबोटिक लगती है। ऐसा इसलिए है क्योंकि शब्दों का प्रवाहपूर्ण उच्चारण अपने आप में भाषण को मानव गुणवत्ता देने के लिए अपर्याप्त है। यह इरादा-चालित टोन और गति है जो यह समझने से आती है कि क्या कहा जा रहा है, जो इसे स्वाभाविक बनाती है। Eleven में, हम यही हासिल करने की कोशिश करते हैं: हमारे मॉडल को मानव-भाषण डेटा की प्रचुरता के सामने लाकर, हम इसे वाक्यांशों के तार्किक और भावनात्मक संदर्भ को समझने और तदनुसार डिलीवरी को समायोजित करने के लिए प्रशिक्षित करते हैं।
हमारे टेक्स्ट टू स्पीच (TTS) सिस्टम के साथ मानव जैसी आवाज़ें बनाएं, जो उच्च गुणवत्ता वाली नैरेशन, गेमिंग, वीडियो और एक्सेसिबिलिटी के लिए बनाया गया है। अभिव्यक्तिपूर्ण आवाज़ें, बहुभाषी समर्थन, और API इंटीग्रेशन से व्यक्तिगत प्रोजेक्ट्स से लेकर एंटरप्राइज़ वर्कफ़्लोज़ तक आसानी से स्केल करें।
हम अक्टूबर रिलीज़ का इंतजार कर रहे हैं और बहुभाषी कंटेंट के साथ जुड़ने के तरीके को बदलने के लिए उत्सुक हैं।
Multi-agent voice assistants achieve 40% automated resolution and 30% CSAT lift
ElevenLabs is building local talent hubs and infrastructure to deliver real-time AI audio for enterprises globally
ElevenLabs द्वारा संचालित एजेंट्स