Eleven v3 अल्फा का परिचय

v3 आजमाएं

AI वॉइस ट्रांसलेशन

AI डबिंग टूल अक्टूबर में आ रहा है

वॉइस ट्रांसलेशन / AI डबिंग

हम अगले महीने AI वॉइस ट्रांसलेशन टूल लॉन्च कर रहे हैं। यह यूज़र्स को किसी भी ऑडियो या वीडियो कंटेंट को दूसरी भाषा में बदलने की सुविधा देता है, जबकि मूल स्पीकर की आवाज़ को बनाए रखता है। हमारा लक्ष्य सरल है: स्ट्रीमिंग, गेमिंग और फिल्मों जैसे माध्यमों में बहुभाषी कंटेंट को सुलभ और प्रामाणिक बनाना।

हमने देखा है Spotify और OpenAI ने वॉइस ट्रांसलेशन और स्पीच क्षमताओं में अपनी प्रगति को दिखाया है, और हम अपनी खुद की प्रगति की खबर साझा करने के लिए उत्साहित हैं।

आगामी टूल सिर्फ ट्रांसलेशन के बारे में नहीं है; यह स्पीकर की पहचान और मूल भाषण पैटर्न को भाषाओं के पार संरक्षित करने के बारे में है, जो पारंपरिक कैप्शनिंग की तुलना में अधिक जुड़ा और इमर्सिव अनुभव प्रदान करता है।

कल्पना करें कि एक शैक्षिक वीडियो अंग्रेजी में है। अगर कोई केवल स्पेनिश बोलता है (लेकिन विषय में रुचि रखता है), तो यह एक समस्या है। हम चाहते हैं कि मूल व्यक्ति मूल संदेश को स्वाभाविक रूप से नेटिव-ग्रेड स्पेनिश में बोल सके।

इसके लिए वॉइस कन्वर्ज़न, वॉइस क्लोनिंग और मल्टीलिंगुअल स्पीच सिंथेसिस क्षमताओं को एक नए टूल में जोड़ना आवश्यक है। यहां, वॉइस क्लोनिंग हमें स्पीकर की पहचान - उनकी आवाज़ की ध्वनि को संरक्षित करने देती है। हम स्पीच सिंथेसिस का उपयोग करके एक अलग भाषा में नए वाक्यांश उत्पन्न करते हैं जैसे कि वही व्यक्ति बोल रहा हो। वॉइस कन्वर्ज़न का उपयोग इसलिए होता है क्योंकि हम अधिकतम इमर्शन के लिए मूल भावनाओं, इरादे और डिलीवरी की शैली को संरक्षित करना चाहते हैं।

A blue and silver abstract spherical shape next to a gray microphone icon.

वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें

हमने ऐसी तकनीक विकसित करने में बहुत शोध और नवाचार किया है जो मानव भाषण को अल्ट्रा-रियलिस्टिक रूप से प्रस्तुत कर सके, संदर्भ को समझ सके और वॉइस प्रोफाइल को एन्कोड कर सके। हमारा AI वॉइस ट्रांसलेशन टूल क्रिएटर्स को अपनी पहुंच बढ़ाने और संभावित दर्शकों को उनकी समझ में आने वाली भाषा की परवाह किए बिना, प्रासंगिक और आकर्षक कंटेंट खोजने में मदद करने की दिशा में एक महत्वपूर्ण कदम है।

डबिंग, वॉइस कन्वर्ज़न और स्पीच सिंथेसिस क्या है?

डबिंग एक प्रक्रिया है जिसमें वीडियो को एक अलग भाषा के साउंडट्रैक के साथ प्रदान किया जाता है, जिसमें मूल अभिनेताओं की आवाज़ों को अलग भाषा बोलने वाले कलाकारों की आवाज़ों से बदल दिया जाता है - जिसे "री-वॉइसिंग" भी कहा जाता है - पारंपरिक रूप से एक महंगा और समय लेने वाला कार्य। Eleven में, हमारा लक्ष्य इसे स्वचालित रूप से करना है, जबकि भाषाओं के पार मूल आवाज़ों को संरक्षित करना है।

वॉइस कन्वर्ज़न एक व्यक्ति को दूसरे की आवाज़ में बोलने की अनुमति देता है। यह वॉइस क्लोनिंग का उपयोग करता है, एक लक्ष्य आवाज़ को एन्कोड करने और उसे स्रोत आवाज़ पर ओवरले करने के लिए। परिणामस्वरूप मूल संदेश किसी और के द्वारा बोला गया प्रतीत होता है।

टेक्स्ट टू स्पीच (TTS) सभी स्पीच सिंथेसिस तकनीक की जड़ है। TTS तकनीक वर्षों में काफी सुधरी है, हालांकि यह अभी भी अक्सर रोबोटिक लगती है। ऐसा इसलिए है क्योंकि शब्दों का प्रवाहपूर्ण उच्चारण अपने आप में भाषण को मानव गुणवत्ता देने के लिए अपर्याप्त है। यह इरादा-चालित टोन और गति है जो यह समझने से आती है कि क्या कहा जा रहा है, जो इसे स्वाभाविक बनाती है। Eleven में, हम यही हासिल करने की कोशिश करते हैं: हमारे मॉडल को मानव-भाषण डेटा की प्रचुरता के सामने लाकर, हम इसे वाक्यांशों के तार्किक और भावनात्मक संदर्भ को समझने और तदनुसार डिलीवरी को समायोजित करने के लिए प्रशिक्षित करते हैं।

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

हमारी AI टेक्स्ट टू स्पीच टेक्नोलॉजी 32 भाषाओं में हजारों हाई क्वालिटी, इंसान जैसी आवाज़ें प्रदान करती है। चाहे आप एक मुफ़्त टेक्स्ट टू स्पीच समाधान खोज रहे हों या व्यावसायिक प्रोजेक्ट्स के लिए प्रीमियम वॉइस AI सेवा, हमारे टूल आपकी ज़रूरतों को पूरा कर सकते हैं

जल्द आ रहा है

हम अक्टूबर रिलीज़ का इंतजार कर रहे हैं और बहुभाषी कंटेंट के साथ जुड़ने के तरीके को बदलने के लिए उत्सुक हैं।


और जानें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें