
Turbo v2 आ गया है!
- श्रेणी
- प्रोडक्ट
- तारीख
अपनी आवाज़ को किसी और किरदार में बदलें, और इमोशन्स, टाइमिंग और डिलीवरी पर पूरा कंट्रोल रखें।
वॉइस चेंजर को पहले स्पीच टू स्पीच कहा जाता था। AI वॉइस एजेंट्स के संदर्भ में, "स्पीच टू स्पीच" उन आर्किटेक्चर के लिए भी इस्तेमाल होता है जहाँ एक ही मॉडल सीधे ऑडियो इनपुट और आउटपुट को संभालता है। ElevenAgents अपने प्लेटफॉर्म के लिए एडवांस्ड कैस्केडेड आर्किटेक्चर का इस्तेमाल करता है। और जानें:कैस्केडेड बनाम फ्यूज्ड मॉडल.
हमने
आवाज में और ज्यादा इमोशन लाएं।

हमारे कम्युनिटी के एक सदस्य का वॉकथ्रू देखें:
वॉइस चेंजर का दूसरा इस्तेमाल है स्पीच डिलीवरी के लिए 'रेफरेंस' देना। आमतौर पर हमारा TTS इंटोनेशन सही कर देता है, लेकिन कभी-कभी आप उसे और बेहतर करना चाहेंगे। यहाँ, वॉइस चेंजर आपको दिखाने देता है कि किसी खास वाक्यांश को कैसे बोलना है, और फिर आपकी चुनी हुई कोई भी वॉइस उसे वैसे ही बोल सकती है। जब हम वॉइस चेंजर को सीधे स्टूडियो में जोड़ेंगे, तब ये फीचर और भी आसान और फायदेमंद हो जाएगा। हमारा मकसद है कि आप आउटपुट को बिल्कुल अपनी पसंद के मुताबिक एडिट कर सकें।
रिसर्च
स्रोत स्पीच को लक्ष्य स्पीच में बदलने के लिए, हमें स्रोत स्पीच की सामग्री को लक्ष्य स्पीच की विशेषताओं के साथ व्यक्त करना होगा। एक अच्छा उदाहरण होगा फेस-स्वैपिंग ऐप्स जो आपको अपनी और किसी और की तस्वीर को मिलाकर एक नई तस्वीर बनाने देते हैं।
इसका तरीका यह है कि चेहरे की छवि लें और उसकी विशेषताओं को मैप करें। नीचे दिए गए उदाहरण में मार्कर यही करते हैं: वे सीमाएँ हैं जिनके अंदर दूसरा चेहरा प्रस्तुत किया जाएगा।
प्रोडक्ट और हाल के अपडेट्स
तैयार आवाज़ों में बदलाव
Eleven Turbo v2 और uLaw 8khz फॉर्मेट
Turbo v2 हमारी टीम की महीनों की रिसर्च का नतीजा है। इसे रियल-टाइम इंटरैक्शन के लिए डिज़ाइन किया गया है, लेकिन यह किसी भी यूज़ केस के लिए काम करता है। यह IVR सिस्टम्स के लिए स्टैंडर्ड (m)uLaw 8kHz फॉर्मेट को भी सपोर्ट करता है।
अब स्टूडियो इंडस्ट्री-स्टैंडर्ड ऑडियोबुक सबमिशन गाइडलाइंस को सपोर्ट करता है, जिसमें गेन एडजस्टमेंट और डायनामिक कंप्रेशन शामिल हैं। आप अपने स्टूडियो प्रोजेक्ट में सीधे मेटाडेटा (ISBN, लेखक और टाइटल) भी जोड़ सकते हैं।
यह हमारी सबसे ज्यादा मांगी गई फीचर्स में से एक थी। पिछले महीने, हमने अपने इंग्लिश मॉडल्स में IPA और CMU डिक्शनरी के साथ उच्चारण बताने के लिए SSML टैग सपोर्ट जोड़ा था। अब हमने स्टूडियो UI में उच्चारण डिक्शनरी सपोर्ट जारी किया है, जिससे आप IPA, CMU या वर्ड सब्स्टीट्यूशन (उपनाम) के जरिए उच्चारण बताने वाली फाइल अपलोड कर सकते हैं। डिक्शनरी फाइलें इंडस्ट्री-स्टैंडर्ड ओपन .PLS
उच्चारण शब्दकोश जोड़ना हमारी सबसे अधिक अनुरोधित विशेषताओं में से एक रहा है। पिछले महीने हमने हमारे अंग्रेजी मॉडलों के लिए IPA और CMU शब्दकोशों का उपयोग करके उच्चारण निर्दिष्ट करने के लिए SSML टैग जोड़ने को लागू किया। हमने अब हमारे स्टूडियो UI में उच्चारण शब्दकोश समर्थन जारी किया है, जिससे आप IPA, CMU या शब्द प्रतिस्थापन का उपयोग करके उच्चारण निर्दिष्ट करने वाली फ़ाइल अपलोड कर सकते हैं। शब्दकोश फ़ाइलें उद्योग मानक और ओपन .PLS लेक्सिकॉन फ़ाइल फॉर्मेट का उपयोग करके अपलोड की जाती हैं।
अगर आपके पास कोई फीडबैक है, तो बेझिझक हमें Discord पर बताएं!यहाँ पाई जा सकती है।
जैसे चाहें वैसे बोलें और उसे बिल्कुल अलग आवाज़ में सुनें, परफॉर्मेंस पर पूरा कंट्रोल रखते हुए। फुसफुसाहट, हंसी, एक्सेंट और हल्के इमोशनल संकेत भी कैप्चर करें।



