कॉन्टेंट पर जाएं

वॉइस चेंजर पेश है

अपनी आवाज़ को किसी और किरदार में बदलें, और इमोशन्स, टाइमिंग और डिलीवरी पर पूरा कंट्रोल रखें।

वॉइस चेंजर को पहले स्पीच टू स्पीच कहा जाता था। AI वॉइस एजेंट्स के संदर्भ में, "स्पीच टू स्पीच" उन आर्किटेक्चर के लिए भी इस्तेमाल होता है जहाँ एक ही मॉडल सीधे ऑडियो इनपुट और आउटपुट को संभालता है। ElevenAgents अपने प्लेटफॉर्म के लिए एडवांस्ड कैस्केडेड आर्किटेक्चर का इस्तेमाल करता है। और जानें:कैस्केडेड बनाम फ्यूज्ड मॉडल.

हमने

यह आपको ऐसा कंट्रोल देता है जो

आवाज में और ज्यादा इमोशन लाएं।

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

हमारे कम्युनिटी के एक सदस्य का वॉकथ्रू देखें:

वॉइस चेंजर का दूसरा इस्तेमाल है स्पीच डिलीवरी के लिए 'रेफरेंस' देना। आमतौर पर हमारा TTS इंटोनेशन सही कर देता है, लेकिन कभी-कभी आप उसे और बेहतर करना चाहेंगे। यहाँ, वॉइस चेंजर आपको दिखाने देता है कि किसी खास वाक्यांश को कैसे बोलना है, और फिर आपकी चुनी हुई कोई भी वॉइस उसे वैसे ही बोल सकती है। जब हम वॉइस चेंजर को सीधे स्टूडियो में जोड़ेंगे, तब ये फीचर और भी आसान और फायदेमंद हो जाएगा। हमारा मकसद है कि आप आउटपुट को बिल्कुल अपनी पसंद के मुताबिक एडिट कर सकें।

रिसर्च

इसका तरीका यह है कि चेहरे की इमेज लेकर उसकी खूबियों को मैप किया जाए। नीचे दिए गए उदाहरण में मार्कर्स यही करते हैं - ये वो सीमाएं हैं जिनके अंदर दूसरा चेहरा दिखाया जाएगा।

स्रोत स्पीच को लक्ष्य स्पीच में बदलने के लिए, हमें स्रोत स्पीच की सामग्री को लक्ष्य स्पीच की विशेषताओं के साथ व्यक्त करना होगा। एक अच्छा उदाहरण होगा फेस-स्वैपिंग ऐप्स जो आपको अपनी और किसी और की तस्वीर को मिलाकर एक नई तस्वीर बनाने देते हैं।

इसका तरीका यह है कि चेहरे की छवि लें और उसकी विशेषताओं को मैप करें। नीचे दिए गए उदाहरण में मार्कर यही करते हैं: वे सीमाएँ हैं जिनके अंदर दूसरा चेहरा प्रस्तुत किया जाएगा।

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

प्रोडक्ट और हाल के अपडेट्स

तैयार आवाज़ों में बदलाव

हम टेक्स्ट टू स्पीच में उपलब्ध डिफॉल्ट आवाज़ों में बदलाव कर रहे हैं। कुछ आवाज़ें हटाई जाएंगी और उनकी जगह नई आवाज़ें आएंगी, और आने वाले हफ्तों में 20 से ज्यादा नई आवाज़ें जोड़ने की योजना है।

हम यह भी दिखाना शुरू करेंगे कि हर आवाज़ कितने समय तक उपलब्ध रहेगी। दिसंबर के दौरान, हम वॉइस शेयरिंग और यूज़ेज़ कंपेनसेशन फीचर्स को बेहतर बनाएंगे ताकि आवाज़ों की विविधता बढ़े। जल्द ही और जानकारी देंगे।

Eleven Turbo v2 और uLaw 8khz फॉर्मेट

Turbo v2 हमारी टीम की महीनों की रिसर्च का नतीजा है। इसे रियल-टाइम इंटरैक्शन के लिए डिज़ाइन किया गया है, लेकिन यह किसी भी यूज़ केस के लिए काम करता है। यह IVR सिस्टम्स के लिए स्टैंडर्ड (m)uLaw 8kHz फॉर्मेट को भी सपोर्ट करता है।

स्टूडियो के साथ नॉर्मलाइज़ेशन और मेटाडेटा

अब स्टूडियो इंडस्ट्री-स्टैंडर्ड ऑडियोबुक सबमिशन गाइडलाइंस को सपोर्ट करता है, जिसमें गेन एडजस्टमेंट और डायनामिक कंप्रेशन शामिल हैं। आप अपने स्टूडियो प्रोजेक्ट में सीधे मेटाडेटा (ISBN, लेखक और टाइटल) भी जोड़ सकते हैं।

उच्चारण डिक्शनरी

यह हमारी सबसे ज्यादा मांगी गई फीचर्स में से एक थी। पिछले महीने, हमने अपने इंग्लिश मॉडल्स में IPA और CMU डिक्शनरी के साथ उच्चारण बताने के लिए SSML टैग सपोर्ट जोड़ा था। अब हमने स्टूडियो UI में उच्चारण डिक्शनरी सपोर्ट जारी किया है, जिससे आप IPA, CMU या वर्ड सब्स्टीट्यूशन (उपनाम) के जरिए उच्चारण बताने वाली फाइल अपलोड कर सकते हैं। डिक्शनरी फाइलें इंडस्ट्री-स्टैंडर्ड ओपन .PLS

IPA और CMU अभी Turbo v2 इंग्लिश में सपोर्टेड हैं। वर्ड सब्स्टीट्यूशन सभी मॉडल्स और भाषाओं में सपोर्टेड हैं। पूरी डॉक्यूमेंटेशन

उच्चारण शब्दकोश जोड़ना हमारी सबसे अधिक अनुरोधित विशेषताओं में से एक रहा है। पिछले महीने हमने हमारे अंग्रेजी मॉडलों के लिए IPA और CMU शब्दकोशों का उपयोग करके उच्चारण निर्दिष्ट करने के लिए SSML टैग जोड़ने को लागू किया। हमने अब हमारे स्टूडियो UI में उच्चारण शब्दकोश समर्थन जारी किया है, जिससे आप IPA, CMU या शब्द प्रतिस्थापन का उपयोग करके उच्चारण निर्दिष्ट करने वाली फ़ाइल अपलोड कर सकते हैं। शब्दकोश फ़ाइलें उद्योग मानक और ओपन .PLS लेक्सिकॉन फ़ाइल फॉर्मेट का उपयोग करके अपलोड की जाती हैं।

अगर आपके पास कोई फीडबैक है, तो बेझिझक हमें Discord पर बताएं!यहाँ पाई जा सकती है।

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary

जैसे चाहें वैसे बोलें और उसे बिल्कुल अलग आवाज़ में सुनें, परफॉर्मेंस पर पूरा कंट्रोल रखते हुए। फुसफुसाहट, हंसी, एक्सेंट और हल्के इमोशनल संकेत भी कैप्चर करें।

ElevenLabs टीम के लेखों को देखें

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं