
इसे आप जिस तरह से कहना चाहते हैं, वैसे कहें और इसे किसी दूसरी आवाज़ में कहें, तथा इसे कहने पर पूरा नियंत्रण रखें
जैसा आप चाहें वैसा कहें और अपनी आवाज़ को दूसरे किरदार में बदलें, भावनाओं, समय और डिलीवरी पर पूरा नियंत्रण रखें
हमने स्पीच टू स्पीच (STS) को स्पीच सिंथेसिस में जोड़ा है। STS एक वॉइस कन्वर्ज़न टूल है जो आपको एक आवाज़ की रिकॉर्डिंग को दूसरी आवाज़ में बदलने की सुविधा देता है। यह आपको भावनाओं, टोन और उच्चारण को नियंत्रित करने की अनुमति देता है, जो केवल TTS प्रॉम्प्ट्स से संभव नहीं है। इसका उपयोग किसी विशेष आवाज़ से अधिक भावनाएँ निकालने या 'जैसा आप चाहें वैसा कहें' संदर्भ के रूप में करें।
अन्य अपडेट्स में, हम अपनी प्रीमेड आवाज़ों में बदलाव कर रहे हैं। इसके अलावा, हमने स्टूडियो में कई सुधार किए हैं, जिसमें नॉर्मलाइज़ेशन, उच्चारण शब्दकोश और अधिक कस्टमाइज़ेशन विकल्प शामिल हैं।
इसे आप जिस तरह से कहना चाहते हैं, वैसे कहें और इसे किसी दूसरी आवाज़ में कहें, तथा इसे कहने पर पूरा नियंत्रण रखें
STS आपके अपलोड/रिकॉर्डिंग में मौजूद स्पीच की सामग्री और शैली को लेता है और आवाज़ बदलता है। STS को मुख्य रूप से दो चीजों के लिए उपयोगी समझें।
एक है किसी विशेष प्रीमेड आवाज़ से अधिक भावनाएँ निकालना। अत्यधिक अभिव्यक्तिपूर्ण स्पीच अपलोड/रिकॉर्ड करें और STS दूसरी आवाज़ में भावनाओं और स्वर को दोहराएगा। चूंकि सभी आवाज़ें केवल TTS प्रॉम्प्ट्स से मजबूत भावनाएँ व्यक्त नहीं कर सकतीं, अब आप एक पेशेवर कथावाचक या बच्चों की किताब के पात्र को अपनी आवाज़ से अधिक अभिव्यक्तिपूर्ण बना सकते हैं।
STS का एक और उपयोग स्पीच डिलीवरी के लिए 'संदर्भ' प्रदान करना है। जबकि हमारा TTS आमतौर पर तुरंत स्वर को सही कर देता है, आप कभी-कभी इसे फाइन-ट्यून करना चाह सकते हैं। यहाँ, STS आपको दिखाने देता है कि किसी विशेष वाक्यांश को कैसे स्वर देना है और फिर आपकी चुनी हुई कोई भी आवाज़ उसे वैसे ही कहेगी। यह कार्यक्षमता अधिक उपयोगी और सरल हो जाएगी जब हम STS को सीधे स्टूडियो में एकीकृत करेंगे, लेकिन हमारा उद्देश्य यहाँ आपके आउटपुट को सटीक रूप से संपादित करने की आपकी क्षमता को काफी सुधारना है।
हमारे समुदाय के एक सदस्य द्वारा बनाया गया वीडियो देखें:
स्रोत स्पीच को लक्ष्य स्पीच में बदलने के लिए, हमें स्रोत स्पीच की सामग्री को लक्ष्य स्पीच की विशेषताओं के साथ व्यक्त करना होगा। एक अच्छा उदाहरण होगा फेस-स्वैपिंग ऐप्स जो आपको अपनी और किसी और की तस्वीर को मिलाकर एक नई तस्वीर बनाने देते हैं।
इसका तरीका यह है कि चेहरे की छवि लें और उसकी विशेषताओं को मैप करें। नीचे दिए गए उदाहरण में मार्कर यही करते हैं: वे सीमाएँ हैं जिनके अंदर दूसरा चेहरा प्रस्तुत किया जाएगा।
वॉइस कन्वर्ज़न में चाल यह है कि स्रोत स्पीच की सामग्री को लक्ष्य स्पीच के फोनीम्स का उपयोग करके प्रस्तुत किया जाए। लेकिन यहाँ एक समझौता है, जैसे कि फेस-स्वैपिंग उदाहरण में: जितने अधिक मार्कर आप एक चेहरे की विशेषताओं को मैप करने के लिए उपयोग करते हैं, उतनी ही अधिक सीमाएँ आप उस चेहरे पर लगाते हैं जिसे आप उनके अंदर मैप करते हैं। कम मार्कर का मतलब कम सीमाएँ।
वॉइस कन्वर्ज़न के लिए भी यही सच है। जितनी अधिक प्राथमिकता हम लक्ष्य स्पीच को देते हैं, उतना ही हम स्रोत स्पीच के साथ असंगत होने का जोखिम उठाते हैं। लेकिन अगर हम इसे पर्याप्त प्राथमिकता नहीं देते, तो हम उस स्पीच की विशेषता खोने का जोखिम उठाते हैं। उदाहरण के लिए, अगर हम किसी के गुस्से में चिल्लाने की रिकॉर्डिंग को फुसफुसाती आवाज़ में प्रस्तुत करें, तो हम मुश्किल में पड़ जाएंगे। स्रोत स्पीच की भावनाओं को अधिक प्राथमिकता देने पर हम यह प्रभाव खो देते हैं कि यह फुसफुसाती आवाज़ बोल रही है। फुसफुसाती स्पीच पैटर्न पर अधिक जोर देने पर हम स्रोत स्पीच की भावनात्मक चार्ज खो देते हैं।
हम इस सप्ताह के अंत में स्पीच सिंथेसिस में उपलब्ध डिफ़ॉल्ट आवाज़ों में बदलाव करेंगे। हम कुछ आवाज़ों का समर्थन बंद कर देंगे, लेकिन उन्हें नई आवाज़ों से बदल देंगे। हम आने वाले हफ्तों में कुल मिलाकर 20 से अधिक जोड़ने की योजना बना रहे हैं।
हम यह भी शुरू करेंगे कि प्रत्येक आवाज़ कितने समय तक उपलब्ध रहने की उम्मीद है, इसके बारे में UI जानकारी प्रदान करेंगे। अंत में, दिसंबर के दौरान हम अपने प्लेटफ़ॉर्म की आवाज़ साझा करने और उपयोग मुआवजा सुविधाओं को सुधारने पर काम करेंगे ताकि आवाज़ की विविधता को और बेहतर बनाया जा सके। इस पर जल्द ही और विवरण।
हमारा टर्बो मॉडल हमारी टेक टीम के महीनों के अनुसंधान का परिणाम है। यह रीयलटाइम इंटरैक्शन के लिए डिज़ाइन किया गया है लेकिन इसका उपयोग आप किसी भी चीज़ के लिए कर सकते हैं। यह IVR सिस्टम्स के लिए मानक (m)uLaw 8kHz फॉर्मेट के साथ भी आता है।
अब आप स्टूडियो में उद्योग-मानक ऑडियोबुक सबमिशन दिशानिर्देशों का पालन कर सकते हैं। इसमें गेन को समायोजित करना और डायनामिक कंप्रेशन लागू करना शामिल है। इसके अलावा, अब आपके स्टूडियो में मेटाडेटा (ISBN, लेखक, और शीर्षक) एम्बेड करने का विकल्प है।
उच्चारण शब्दकोश जोड़ना हमारी सबसे अधिक अनुरोधित विशेषताओं में से एक रहा है। पिछले महीने हमने हमारे अंग्रेजी मॉडलों के लिए IPA और CMU शब्दकोशों का उपयोग करके उच्चारण निर्दिष्ट करने के लिए SSML टैग जोड़ने को लागू किया। हमने अब हमारे स्टूडियो UI में उच्चारण शब्दकोश समर्थन जारी किया है, जिससे आप IPA, CMU या शब्द प्रतिस्थापन का उपयोग करके उच्चारण निर्दिष्ट करने वाली फ़ाइल अपलोड कर सकते हैं। शब्दकोश फ़ाइलें उद्योग मानक और ओपन .PLS लेक्सिकॉन फ़ाइल फॉर्मेट का उपयोग करके अपलोड की जाती हैं।
फिलहाल, IPA और CMU Turbo V2 अंग्रेजी द्वारा समर्थित हैं, और शब्द प्रतिस्थापन (उपनाम) सभी मॉडलों और भाषाओं द्वारा समर्थित हैं। पूरी डॉक्यूमेंटेशन यहाँ पाई जा सकती है।
यदि आपके पास कोई प्रतिक्रिया है, तो बेझिझक हमें Discord पर संपर्क करें!
इसे आप जिस तरह से कहना चाहते हैं, वैसे कहें और इसे किसी दूसरी आवाज़ में कहें, तथा इसे कहने पर पूरा नियंत्रण रखें
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
Tips from latency-sensitive RAG systems in production
ElevenLabs द्वारा संचालित कन्वर्सेशनल AI