
Le Walk brings cities to life with ElevenLabs
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Eleven v3 ऑडियो टैग्स का उपयोग करके AI भाषण में भावनात्मक बारीकियाँ जोड़ें। तनाव, गर्मजोशी, हिचकिचाहट और राहत को नियंत्रित करें ताकि संवादात्मक, गतिशील और मानव-समान बोली जा सके।
भावनाएँ हमारे बोलने के तरीके को आकार देती हैं — सिर्फ़ हम क्या कहते हैं, बल्कि कैसे कहते हैं। Eleven v3 ऑडियो टैग्स के साथ, अब आप AI स्पीच में भावनात्मक बारीकियाँ जोड़ सकते हैं, किसी भी लाइन में तनाव, गर्मजोशी, झिझक, या राहत डाल सकते हैं।
इससे बोला गया कंटेंट अधिक संबंधित, अधिक गतिशील और अधिक मानवीय बनता है।
[सांस], [उत्साहित], या [थका हुआ] जैसे ब्रैकेटेड संकेतों का उपयोग करके, आप वॉइस मॉडल की भावनात्मक प्रस्तुति को निर्देशित कर सकते हैं — पल-पल।
भावनात्मक संदर्भ मॉडल की उस क्षमता को संदर्भित करता है जो स्थिति के अनुसार भावनाओं को व्यक्त कर सके। यह दर्शाता है कि कोई पात्र घटनाओं पर कैसे प्रतिक्रिया करता है — चाहे वह विस्मय हो, डर हो, खुशी हो, या थकावट।
ऑडियो टैग्स के साथ, आप किसी लाइन की भावनात्मक स्थिति को बीच में ही निर्देशित कर सकते हैं। उदाहरण के लिए: “[दुखी] मैं उस रात सो नहीं सका। हवा बहुत स्थिर थी, और चाँदनी पर्दों के बीच से ऐसे फिसल रही थी जैसे कुछ कहना चाह रही हो। [धीरे से] और अचानक, तभी मैंने उसे देखा।”
यह सिर्फ़ वॉइस एक्टिंग नहीं है — यह संदर्भ-सचेत प्रदर्शन है।
वास्तविक भाषण में, भावनाएँ बदलती हैं। Eleven v3 इसे लेयर्ड टैग्स के माध्यम से पकड़ता है। उदाहरण के लिए: ” [थका हुआ] मैं 14 घंटे से लगातार काम कर रहा हूँ। [सांस] अब मैं अपने हाथ भी महसूस नहीं कर सकता। [घबराहट से] क्या आपको यकीन है कि यह काम करेगा? [गटकता है] ठीक है… चलिए।”
यहाँ तक कि [हल्की हँसी] या [राहत की सांस] जैसे सूक्ष्म परिवर्तन भी वाक्य के अर्थ को काफी बदल सकते हैं।
यहाँ कुछ सामान्यतः उपयोग किए जाने वाले टैग्स हैं जो भावनात्मक प्रदर्शन को निर्देशित करते हैं:
इनको समृद्ध भावनात्मक आर्क्स के लिए संयोजित या क्रमबद्ध किया जा सकता है: [झिझकते हुए] मैं... मैं ऐसा कहने का मतलब नहीं था। [पछतावे से] यह बस निकल गया।
वर्णन, पात्र संवाद, या UI फीडबैक में, भावनात्मक टैग्स गति, स्वर, और वातावरण को नियंत्रित करने में मदद करते हैं। एक आवाज़ जो अपने मजाक पर हँसती है या रोमांचक दृश्य के दौरान फुसफुसाती है, वह सिर्फ़ पाठ नहीं पढ़ती — वह जोड़ती है।
उदाहरण के लिए, एक पात्र डेमो से यह लाइन: [हँसते हुए] ब्रू—ब्रू मुझे नहीं पता क्यों वह मुझे भेज दिया!! [जोर से हँसते हुए] चिकन की कोई कहानी नहीं थी, कोई ट्विस्ट नहीं, बस कच्चा दृढ़ संकल्प!
ऐसे टैग्स वॉइस ऐक्टर्स, डिज़ाइनर्स, और डेवलपर्स को अधिक आकर्षक अनुभव बनाने देते हैं — बिना पुनः रिकॉर्डिंग, पुनः संपादन, या पुनः लेखन के।
Eleven v3 संरचनात्मक स्तर पर भावनात्मक संदर्भ को समझता है। इसका मतलब है कि यह लंबी प्रस्तुतियाँ दे सकता है जो स्वाभाविक रूप से विकसित होती हैं, आंतरिक अवस्थाओं को दर्शाती हैं, और कहानी या इंटरैक्शन के जवाब में स्वर बदलती हैं — सब स्क्रिप्ट से।
निर्माताओं के लिए, यह अब सिर्फ़ लाइन डिलीवरी के बारे में नहीं है। यह भावनात्मक निर्देशन के बारे में है।
प्रोफेशनल वॉइस क्लोन्स (PVCs) वर्तमान में Eleven v3 के लिए पूरी तरह से अनुकूलित नहीं हैं, जिसके परिणामस्वरूप पहले के मॉडलों की तुलना में क्लोन गुणवत्ता कम हो सकती है। इस शोध पूर्वावलोकन चरण के दौरान, यदि आपको v3 फीचर्स का उपयोग करना है, तो अपने प्रोजेक्ट के लिए एक इंस्टेंट वॉइस क्लोन (IVC) या डिज़ाइन की गई आवाज़ ढूंढना सबसे अच्छा होगा। PVC का v3 के लिए अनुकूलन निकट भविष्य में आ रहा है।
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Supporting 10,000+ research conversations with natural, trustworthy voices
ElevenLabs द्वारा संचालित एजेंट्स