
इसे आप जिस तरह से कहना चाहते हैं, वैसे कहें और इसे किसी दूसरी आवाज़ में कहें, तथा इसे कहने पर पूरा नियंत्रण रखें
Eleven v3 अल्फा का परिचय
v3 आजमाएंहमने स्पीच टू स्पीच (STS) को स्पीच सिंथेसिस में जोड़ा है। STS एक वॉइस कन्वर्ज़न टूल है जो आपको एक आवाज़ की रिकॉर्डिंग को दूसरी आवाज़ में बदलने की सुविधा देता है। यह आपको भावनाओं, टोन और उच्चारण को नियंत्रित करने की अनुमति देता है, जो केवल TTS प्रॉम्प्ट्स से संभव नहीं है। इसका उपयोग किसी विशेष आवाज़ से अधिक भावनाएँ निकालने या 'जैसा आप चाहते हैं वैसा कहें' संदर्भ के रूप में करें।
अन्य अपडेट्स में, हम अपने तैयार किए गए आवाज़ों में बदलाव कर रहे हैं। साथ ही, हमने प्रोजेक्ट्स में कई सुधार किए हैं, जिसमें सामान्यीकरण, उच्चारण शब्दकोश और अधिक कस्टमाइज़ेशन विकल्प शामिल हैं।
इसे आप जिस तरह से कहना चाहते हैं, वैसे कहें और इसे किसी दूसरी आवाज़ में कहें, तथा इसे कहने पर पूरा नियंत्रण रखें
STS आपके अपलोड/रिकॉर्डिंग में मौजूद स्पीच की सामग्री और शैली को लेता है और आवाज़ बदलता है। STS को मुख्य रूप से दो चीजों के लिए उपयोगी समझें।
एक है किसी विशेष तैयार की गई आवाज़ से अधिक भावनाएँ निकालना। अत्यधिक अभिव्यक्तिपूर्ण स्पीच अपलोड/रिकॉर्ड करें और STS दूसरी आवाज़ में भावनाओं और स्वर को दोहराएगा। चूंकि सभी आवाज़ें TTS प्रॉम्प्ट्स से मजबूत भावनाएँ व्यक्त नहीं कर सकतीं, अब आप अपनी आवाज़ से एक पेशेवर कथाकार या बच्चों की किताब के पात्र को अधिक अभिव्यक्तिपूर्ण बना सकते हैं।
STS का एक और उपयोग स्पीच डिलीवरी के लिए 'संदर्भ' प्रदान करना है। जबकि हमारा TTS आमतौर पर तुरंत स्वर को सही करता है, आप कभी-कभी इसे फाइन-ट्यून करना चाह सकते हैं। यहाँ, STS आपको दिखाने देता है कि किसी विशेष वाक्यांश को कैसे स्वर देना है और फिर आपकी चुनी हुई कोई भी आवाज़ इसे वैसे ही कह सकती है। यह कार्यक्षमता सीधे प्रोजेक्ट्स में STS को एकीकृत करने के बाद और अधिक उपयोगी और सुव्यवस्थित हो जाएगी, लेकिन हमारा उद्देश्य यहाँ आपके आउटपुट को सटीक रूप से संपादित करने की क्षमता में सुधार करना है।
हमारे समुदाय के एक सदस्य द्वारा बनाया गया वीडियो देखें:
स्रोत स्पीच को लक्ष्य स्पीच में बदलने के लिए, हमें स्रोत स्पीच की सामग्री को लक्ष्य स्पीच की विशेषताओं के साथ व्यक्त करना होगा। एक अच्छा उदाहरण होगा फेस-स्वैपिंग ऐप्स जो आपको अपनी और किसी और की तस्वीर को मिलाकर एक नई तस्वीर बनाने देते हैं।
इसका तरीका यह है कि चेहरे की छवि लें और उसकी विशेषताओं को मैप करें। नीचे दिए गए उदाहरण में मार्कर यही करते हैं: वे सीमाएँ हैं जिनके भीतर दूसरा चेहरा प्रस्तुत किया जाएगा।
वॉइस कन्वर्ज़न में चाल यह है कि स्रोत स्पीच की सामग्री को लक्ष्य स्पीच के फोनीम्स का उपयोग करके प्रस्तुत किया जाए। लेकिन यहाँ एक समझौता है, जैसे कि फेस-स्वैपिंग उदाहरण में: जितने अधिक मार्कर आप एक चेहरे की विशेषताओं को मैप करने के लिए उपयोग करते हैं, उतनी ही अधिक सीमाएँ आप उस चेहरे पर लगाते हैं जिसे आप उनके भीतर मैप करते हैं। कम मार्कर का मतलब कम सीमाएँ।
वॉइस कन्वर्ज़न के लिए भी यही सच है। जितनी अधिक प्राथमिकता हम लक्ष्य स्पीच को देते हैं, उतना ही हम स्रोत स्पीच के साथ असंगत होने का जोखिम उठाते हैं। लेकिन अगर हम इसे पर्याप्त प्राथमिकता नहीं देते, तो हम उस स्पीच की विशेषता खोने का जोखिम उठाते हैं। उदाहरण के लिए, अगर हम किसी के गुस्से में चिल्लाने की रिकॉर्डिंग को फुसफुसाती आवाज़ में प्रस्तुत करें, तो हम मुश्किल में पड़ जाएंगे। स्रोत स्पीच की भावनाओं को अधिक प्राथमिकता देने पर हम यह प्रभाव खो देते हैं कि यह फुसफुसाती आवाज़ बोल रही है। फुसफुसाती स्पीच पैटर्न पर अधिक जोर देने से हम स्रोत स्पीच की भावनात्मक चार्ज खो देते हैं।
हम इस सप्ताह के अंत में स्पीच सिंथेसिस में उपलब्ध डिफ़ॉल्ट आवाज़ों में बदलाव करेंगे। हम कुछ आवाज़ों का समर्थन बंद कर देंगे, लेकिन उन्हें नई आवाज़ों से बदल देंगे। हम आने वाले हफ्तों में कुल 20 से अधिक जोड़ने की योजना बना रहे हैं।
हम यह भी बताना शुरू करेंगे कि प्रत्येक आवाज़ कितने समय तक उपलब्ध रहने की उम्मीद है। अंत में, दिसंबर के दौरान हम अपने प्लेटफ़ॉर्म की वॉइस शेयरिंग और उपयोग मुआवजा सुविधाओं को सुधारने पर काम करेंगे ताकि वॉइस विविधता को और बेहतर बनाया जा सके। इस पर जल्द ही और विवरण।
हमारा टर्बो मॉडल हमारी टेक टीम के महीनों के शोध का परिणाम है। इसे रीयलटाइम इंटरैक्शन के लिए डिज़ाइन किया गया है लेकिन इसे आप किसी भी चीज़ के लिए उपयोग कर सकते हैं। यह IVR सिस्टम्स के लिए मानक (m)uLaw 8kHz फॉर्मेट के साथ भी आता है।
अब आप प्रोजेक्ट्स के भीतर उद्योग-मानक ऑडियोबुक सबमिशन दिशानिर्देशों का पालन कर सकते हैं। इसमें गेन को समायोजित करना और डायनामिक कंप्रेशन लागू करना शामिल है। इसके अतिरिक्त, अब आपके प्रोजेक्ट्स में मेटाडेटा (ISBN, लेखक, और शीर्षक) एम्बेड करने का विकल्प है।
उच्चारण शब्दकोश जोड़ना हमारी सबसे अधिक अनुरोधित विशेषताओं में से एक रहा है। पिछले महीने हमने अपने अंग्रेजी मॉडलों के लिए IPA और CMU शब्दकोशों का उपयोग करके उच्चारण निर्दिष्ट करने के लिए SSML टैग जोड़ने को लागू किया। हमने अब अपने प्रोजेक्ट्स UI में उच्चारण शब्दकोश समर्थन जारी किया है, जिससे आप IPA, CMU या शब्द प्रतिस्थापन का उपयोग करके उच्चारण निर्दिष्ट करने वाली फ़ाइल अपलोड कर सकते हैं। शब्दकोश फ़ाइलें उद्योग मानक और ओपन .PLS लेक्सिकॉन फ़ाइल फॉर्मेट का उपयोग करके अपलोड की जाती हैं।
फिलहाल, IPA और CMU को Turbo V2 अंग्रेजी द्वारा समर्थित किया गया है, और शब्द प्रतिस्थापन (उपनाम) सभी मॉडलों और भाषाओं द्वारा समर्थित हैं। पूरी डॉक्यूमेंटेशन यहाँ पाई जा सकती है।
इसे आप जिस तरह से कहना चाहते हैं, वैसे कहें और इसे किसी दूसरी आवाज़ में कहें, तथा इसे कहने पर पूरा नियंत्रण रखें
यदि आपके पास कोई प्रतिक्रिया है, तो Discord पर हमसे संपर्क करने में संकोच न करें!
Create dynamic multi-character dialogue with Eleven v3 Audio Tags. Script overlapping voices, interruptions, and emotional shifts for natural, human-like AI conversations.
Learn how Voice Cloning works, how to use it, and how to get started.