
Eleven v3 ऑडियो टैग्स: AI ऑडियो को स्थिति की जानकारी देना
Eleven v3 ऑडियो टैग्स के साथ AI स्पीच को बेहतर बनाएं। प्राकृतिक बातचीत के लिए टोन, भावना, और गति को नियंत्रित करें। अपने टेक्स्ट टू स्पीच में स्थिति की जानकारी जोड़ें।
ElevenLabs के ऑडियो टैग्स से आप AI वॉइस की भावना, गति और साउंड इफेक्ट्स कंट्रोल कर सकते हैं।
के साथ Eleven v3 के रिलीज़ होने पर, ऑडियो प्रॉम्प्टिंग अब एक ज़रूरी स्किल बन गई है। अब आपको AI वॉइस से जो भी कहना है, उसे टाइप या पेस्ट करने की बजाय, आप एक नई सुविधा — ऑडियो टैग्स — का इस्तेमाल कर सकते हैं, जिससे आप भावना से लेकर डिलीवरी तक सब कंट्रोल कर सकते हैं।
Eleven v3 एक अल्फा रिलीज़ है रिसर्च प्रीव्यू नए मॉडल का। इसमें पिछले मॉडल्स के मुकाबले ज़्यादा प्रॉम्प्ट इंजीनियरिंग की ज़रूरत है — लेकिन रिजल्ट्स शानदार हैं।
ElevenLabs ऑडियो टैग्स वे शब्द होते हैं जिन्हें स्क्वायर ब्रैकेट्स में लिखा जाता है और नया Eleven v3 मॉडल इन्हें समझकर ऑडियो में इस्तेमाल करता है। ये कुछ भी हो सकते हैं जैसे [excited], [whispers], [sighs], [gunshot], [clapping], या [explosion]।
ऑडियो टैग्स से आप AI वॉइस की आवाज़ को अपनी पसंद के हिसाब से ढाल सकते हैं, जिसमें टोन, पॉज़ और गति जैसे नॉनवर्बल संकेत भी शामिल हैं। चाहे आप इमर्सिव ऑडियोबुक बना रहे हों, इंटरएक्टिव कैरेक्टर्स या डायलॉग-बेस्ड मीडिया, ये आसान स्क्रिप्ट-लेवल टूल्स आपको भावना और डिलीवरी पर पूरा कंट्रोल देते हैं।
आप अपने स्क्रिप्ट में कहीं भी ऑडियो टैग्स डाल सकते हैं और रियल टाइम में डिलीवरी को ढाल सकते हैं। आप एक ही स्क्रिप्ट या वाक्य में कई टैग्स भी इस्तेमाल कर सकते हैं। टैग्स मुख्य रूप से इन कैटेगरी में आते हैं:
इन टैग्स से आप वॉइस का इमोशनल टोन सेट कर सकते हैं — चाहे वो गंभीर हो, तेज़ हो या खुशमिज़ाज। उदाहरण के लिए आप [sad], [angry], [happily] और [sorrowful] जैसे टैग्स का एक साथ या अलग-अलग इस्तेमाल कर सकते हैं।
ये टैग्स टोन और परफॉर्मेंस से जुड़े होते हैं। आप इनसे वॉल्यूम और एनर्जी को एडजस्ट कर सकते हैं, खासकर उन सीन के लिए जहां संयम या जोश चाहिए। उदाहरण: [whispers], [shouts] या [x accent]।
सच्ची नैचुरल स्पीच में रिएक्शन्स भी होते हैं। आप इन्हें इस्तेमाल करके स्पीच में नैचुरल, अनस्क्रिप्टेड मोमेंट्स जोड़ सकते हैं। जैसे: [laughs], [clears throat], [sighs]।
इन फीचर्स के पीछे v3 की नई आर्किटेक्चर है। यह मॉडल टेक्स्ट के कॉन्टेक्स्ट को गहराई से समझता है, जिससे यह भावना, टोन शिफ्ट और स्पीकर ट्रांजिशन को और नैचुरल तरीके से फॉलो कर सकता है। ऑडियो टैग्स के साथ मिलकर, यह TTS में पहले से कहीं ज़्यादा एक्सप्रेसिवनेस देता है।
अब आप मल्टी-स्पीकर डायलॉग्स भी बना सकते हैं जो स्पॉन्टेनियस लगते हैं — इंटरप्शन, मूड शिफ्ट और कन्वर्सेशनल नूअंस को बहुत कम प्रॉम्प्टिंग में संभाल सकते हैं।
प्रोफेशनल वॉइस क्लोन्स (PVCs) अभी पूरी तरह Eleven v3 के लिए ऑप्टिमाइज़ नहीं हैं, जिससे क्लोन क्वालिटी पिछले मॉडल्स के मुकाबले कम हो सकती है। रिसर्च प्रीव्यू के दौरान, अगर आपको v3 फीचर्स चाहिए तो बेहतर होगा कि आप इंस्टेंट वॉइस क्लोन (IVC) या डिज़ाइन की गई वॉइस का इस्तेमाल करें। PVC का v3 के लिए ऑप्टिमाइज़ेशन जल्द ही आ रहा है।
Eleven v3 अब ElevenLabs UI में उपलब्ध है, और हम जून के अंत तक 80% की छूट दे रहे हैं। Eleven v3 (अल्फा) के लिए पब्लिक API भी उपलब्ध है। चाहे आप एक्सपेरिमेंट कर रहे हों या बड़े पैमाने पर डिप्लॉय, अभी नए फीचर्स आज़माने का सही समय है।
AI स्पीच बनाना जो सिर्फ पढ़ती नहीं, बल्कि परफॉर्म भी करती है ऑडियो टैग्स को अच्छे से समझने पर निर्भर करता है। हमने सात छोटे, प्रैक्टिकल गाइड्स बनाए हैं जो दिखाते हैं कि कैसे [धीरे से फुसफुसाते हुए], [हल्के से हँसते हुए], या [फ्रेंच लहजा] जैसे टैग्स से आप एक ही मॉडल में कॉन्टेक्स्ट, भावना, गति और मल्टी-कैरेक्टर डायलॉग्स को ढाल सकते हैं।
[धीरे से फुसफुसाते हुए], [चिल्लाते हुए], और [आह भरते हुए] Eleven v3 को मौके के हिसाब से रिएक्ट करने देते हैं—कहीं इंटेंसिटी बढ़ाना, कहीं चेतावनी को सॉफ्ट करना या सस्पेंस के लिए पॉज़ लेना।[समुद्री डाकू की आवाज़] से लेकर [फ्रेंच लहजा] तक, टैग्स नैरेशन को रोल-प्ले में बदल देते हैं। एक ही लाइन में पर्सोना बदलें और बिना मॉडल बदले फुल कैरेक्टर परफॉर्मेंस डायरेक्ट करें।[आह भरते हुए], [उत्साहित], या [थके हुए] हर पल की भावना को गाइड करते हैं, टेंशन, राहत या ह्यूमर जोड़ते हैं—फिर से रिकॉर्डिंग की ज़रूरत नहीं।[रुकावट], [आश्चर्य], या [नाटकीय अंदाज़] रिदम और इम्पहसिस कंट्रोल करते हैं ताकि AI वॉइस हर बीट पर लिस्नर को गाइड कर सके।[बीच में टोकते हुए], [एक-दूसरे पर बोलते हुए], या टोन स्विच के साथ। एक ही मॉडल, कई आवाज़ें—एक ही टेक में नैचुरल कन्वर्सेशन।[रुकावट], [जल्दी-जल्दी], या [खींचकर बोले हुए] से आप टेम्पो पर सटीक कंट्रोल पाते हैं, जिससे सिंपल टेक्स्ट भी परफॉर्मेंस बन जाता है।[अमेरिकन लहजा], [ब्रिटिश लहजा], [साउदर्न US लहजा] और भी बहुत कुछ—कल्चरल टच के साथ स्पीच, बिना मॉडल बदले।
Eleven v3 ऑडियो टैग्स के साथ AI स्पीच को बेहतर बनाएं। प्राकृतिक बातचीत के लिए टोन, भावना, और गति को नियंत्रित करें। अपने टेक्स्ट टू स्पीच में स्थिति की जानकारी जोड़ें।
