
Eleven v3 ऑडियो टैग्स: AI ऑडियो को स्थिति की जानकारी देना
Eleven v3 ऑडियो टैग्स के साथ AI स्पीच को बेहतर बनाएं। प्राकृतिक बातचीत के लिए टोन, भावना, और गति को नियंत्रित करें। अपने टेक्स्ट टू स्पीच में स्थिति की जानकारी जोड़ें।
Eleven v3 अल्फा का परिचय
v3 आजमाएंElevenLabs के ऑडियो टैग्स AI वॉइस की भावना, गति और साउंड इफेक्ट्स को नियंत्रित करते हैं।
के रिलीज़ के साथ Eleven v3, ऑडियो प्रॉम्प्टिंग अब एक आवश्यक कौशल बन गया है। जिस वाक्य को आप AI वॉइस से कहलवाना चाहते हैं, उसे टाइप या पेस्ट करने के बजाय, अब आप एक नई क्षमता का उपयोग कर सकते हैं — ऑडियो टैग्स — जिससे आप भावना से लेकर डिलीवरी तक सब कुछ नियंत्रित कर सकते हैं।
Eleven v3 एक अल्फा रिलीज़ है रिसर्च प्रीव्यू नए मॉडल का। इसमें अधिक प्रॉम्प्ट इंजीनियरिंगकी आवश्यकता होती है पिछले मॉडलों की तुलना में — लेकिन जनरेशन अद्भुत हैं।
ElevenLabs ऑडियो टैग्स वे शब्द हैं जो वर्ग कोष्ठकों में होते हैं और नया Eleven v3 मॉडल उन्हें सुनने योग्य क्रिया को निर्देशित करने के लिए समझ सकता है। ये कुछ भी हो सकते हैं जैसे [उत्साहित], [फुसफुसाहट], और [आहें] से लेकर [बंदूक की गोली], [ताली] और [विस्फोट]।
ऑडियो टैग्स आपको AI आवाज़ों की ध्वनि को आकार देने देते हैं, जिसमें गैर-मौखिक संकेत जैसे टोन, विराम, और गति शामिल हैं। चाहे आप इमर्सिव ऑडियोबुक्स बना रहे हों, इंटरैक्टिव कैरेक्टर्स, या संवाद-चालित मीडिया, ये सरल स्क्रिप्ट-स्तरीय उपकरण आपको भावना और डिलीवरी पर सटीक नियंत्रण देते हैं।
आप अपने स्क्रिप्ट में कहीं भी ऑडियो टैग्स रख सकते हैं ताकि वास्तविक समय में डिलीवरी को आकार दे सकें। आप स्क्रिप्ट या यहां तक कि एक वाक्य के भीतर टैग्स के संयोजन का भी उपयोग कर सकते हैं। टैग्स मुख्य श्रेणियों में आते हैं:
ये टैग्स आपको आवाज़ के भावनात्मक टोन को सेट करने में मदद कर सकते हैं — चाहे वह गंभीर हो, तीव्र हो, या खुशमिजाज। उदाहरण के लिए आप [दुखी], [गुस्सा], [खुशी से] और [विषादपूर्ण] का उपयोग कर सकते हैं।
ये अधिक टोन और प्रदर्शन के बारे में हैं। आप इन टैग्स का उपयोग उन दृश्यों के लिए वॉल्यूम और ऊर्जा को समायोजित करने के लिए कर सकते हैं जिन्हें संयम या बल की आवश्यकता होती है। उदाहरण शामिल हैं: [फुसफुसाहट], [चिल्लाना] और यहां तक कि [x उच्चारण]।
सच्ची प्राकृतिक वाणी में प्रतिक्रियाएँ शामिल होती हैं। उदाहरण के लिए, आप इसे प्राकृतिक, बिना स्क्रिप्ट के क्षणों को भाषण में एम्बेड करके यथार्थवाद जोड़ने के लिए उपयोग कर सकते हैं। उदाहरण: [हंसना], [गला साफ करना] और [आहें]।
इन विशेषताओं के पीछे v3 की नई आर्किटेक्चर है। मॉडल टेक्स्ट के संदर्भ को गहराई से समझता है, जिसका मतलब है कि यह भावनात्मक संकेतों, टोन शिफ्ट्स, और वक्ता के संक्रमणों को अधिक स्वाभाविक रूप से समझ सकता है। ऑडियो टैग्स के साथ मिलकर, यह TTS में पहले से संभव से अधिक अभिव्यक्ति को अनलॉक करता है।
अब आप मल्टी-स्पीकर संवाद भी बना सकते हैं जो सहज महसूस होते हैं — न्यूनतम संकेत के साथ रुकावटों, मूड शिफ्ट्स, और संवादात्मक बारीकियों को संभालते हैं।
प्रोफेशनल वॉइस क्लोन (PVCs) फिलहाल Eleven v3 के लिए पूरी तरह से अनुकूलित नहीं हैं, जिससे पहले के मॉडल की तुलना में क्लोन की गुणवत्ता कम हो सकती है। इस रिसर्च प्रीव्यू चरण के दौरान, अगर आपको v3 फीचर्स का उपयोग करना है, तो आपके प्रोजेक्ट के लिए एक इंस्टेंट वॉइस क्लोन (IVC) या डिज़ाइन की गई वॉइस ढूंढना बेहतर होगा। v3 के लिए PVC का अनुकूलन जल्द ही आ रहा है।80% off until the end of June. Public API for Eleven v3 (alpha) is coming soon. For early access, please contact sales. Whether you’re experimenting or deploying at scale, now’s the time to explore what’s possible.
Eleven v3 ऑडियो टैग्स के साथ AI स्पीच को बेहतर बनाएं। प्राकृतिक बातचीत के लिए टोन, भावना, और गति को नियंत्रित करें। अपने टेक्स्ट टू स्पीच में स्थिति की जानकारी जोड़ें।
Automating 1,000+ outbound calls with custom multilingual voice agents.