
Le Walk brings cities to life with ElevenLabs
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Eleven v3 ऑडियो टैग्स के साथ डायनामिक मल्टी-कैरेक्टर संवाद बनाएं। ओवरलैपिंग आवाज़ें, रुकावटें, और भावनात्मक बदलावों के लिए स्क्रिप्ट करें ताकि AI बातचीत प्राकृतिक और इंसानों जैसी लगे।
बातचीत कहानी को आगे बढ़ाती है। Eleven v3 ऑडियो टैग्स के साथ, अब आप ओवरलैपिंग आवाज़ों, तेज़-तर्रार संवादों और भावनात्मक इंटरप्ले के साथ दृश्य लिख सकते हैं — और यह सब एक ही मॉडल द्वारा किया जाता है।
टैग्स जैसे [interrupting], [overlapping], या [laughs] का उपयोग करके आप प्राकृतिक संवाद बना सकते हैं जो इंसानी बातचीत की तरह बहता है — जिसमें रुकावटें, टोन में बदलाव, और स्वतःस्फूर्त प्रतिक्रियाएं शामिल हैं।
यह सिर्फ लाइन-बाय-लाइन स्पीच नहीं है। यह मल्टी-कैरेक्टर परफॉर्मेंस है।
मल्टी-कैरेक्टर डायलॉग तब होता है जब एक वॉइस मॉडल एक ही दृश्य में कई अलग-अलग भूमिकाएँ निभाता है। प्रत्येक कैरेक्टर अलग शैली, टोन, या रिदम में बोलता है — कभी-कभी बीच में रोकते हुए या एक साथ बोलते हुए।
के साथ Eleven v3, आप इसे सीधे स्क्रिप्ट कर सकते हैं: मरिसा: [बोलना शुरू करते हुए] तो मैं सोच रही थी कि हम— क्रिस: [बीच में रोकते हुए] —हमारी नई टाइमिंग फीचर्स का परीक्षण करें? मरिसा: [आश्चर्यचकित] बिल्कुल! आपने कैसे— क्रिस: [ओवरलैप करते हुए] —जान लिया कि मैं क्या सोच रही थी? किस्मत का अंदाज़ा! मरिसा: [हंसते हुए] सच में? यह तो मज़ेदार है।
परिणाम वास्तविक संवाद जैसा लगता है — न कि जोड़ा गया वर्णन।
जो पहले कई स्पीकर्स, रिकॉर्डिंग्स, और टाइमिंग एडजस्टमेंट्स की आवश्यकता होती थी, अब एक स्क्रिप्ट द्वारा संभाला जा सकता है। टैग्स आपको एक ही सीन में प्रत्येक आवाज़ को स्वतंत्र रूप से निर्देशित करने देते हैं।
उदाहरण: जेसिका: [whispers] ऐसे। वॉन फ्यूज़न: [sarcastically] ओह, देखो तो सही, मिस फैंसी पैंट्स। जेसिका: [French accent] यह शानदार है, है ना?
आवाज़ें सिर्फ बारी-बारी से नहीं आतीं — वे इंटरैक्ट, रिएक्ट, और ओवरलैप करती हैं।
प्राकृतिक, प्रतिक्रियात्मक संवाद लिखने के लिए कुछ आवश्यक टैग्स यहां दिए गए हैं:
इनको अभिव्यक्तिपूर्ण इंटरप्ले के लिए लेयर किया जा सकता है: [frustrated] आप कभी मेरी बात नहीं सुनते — [interjecting] क्योंकि आप कभी वो नहीं कहते जो आप वास्तव में कहना चाहते हैं!
Eleven v3 समय-सचेत डिलीवरी का समर्थन करता है जो आवाज़ों को स्वाभाविक रूप से एक-दूसरे को बाधित करने या ओवरलैप करने देता है। यह हास्य, तनाव, या यथार्थवाद के लिए आवश्यक है।
इस अंश में: मारिसा: [panicking] रुको, क्या हम क्रैश हो रहे हैं? मुझे नहीं पता कि यह एक फीचर है या— क्रिस: [interrupting] बग! मारिसा: [sighing] हाँ, लेकिन सच में? यह थोड़ा मजेदार है।
दृश्य जीवंत लगता है क्योंकि इंटरैक्शन तरल है, स्क्रिप्टेड टर्न-बाय-टर्न नहीं।
Eleven v3 के साथ, संवाद दृश्य एक संगठित प्रदर्शन बन जाते हैं। आप एक स्क्रिप्ट और एक मॉडल का उपयोग करके पूरे संवाद बना सकते हैं — पात्रों, समय, भावना, और डिलीवरी के साथ।
कहानीकारों, गेम लेखकों, और इंटरैक्टिव डिज़ाइनरों के लिए, यह जटिल दृश्य लेखन को बिना अतिरिक्त उत्पादन बोझ के अनलॉक करता है। आप सिर्फ लाइनों की स्क्रिप्टिंग नहीं कर रहे हैं। आप कास्ट डायनामिक्स का निर्देशन कर रहे हैं।
प्रोफेशनल वॉइस क्लोन्स (PVCs) वर्तमान में Eleven v3 के लिए पूरी तरह से अनुकूलित नहीं हैं, जिससे पहले के मॉडलों की तुलना में क्लोन गुणवत्ता कम हो सकती है। इस रिसर्च प्रीव्यू चरण के दौरान, यदि आपको v3 फीचर्स का उपयोग करना है, तो आपके प्रोजेक्ट के लिए एक इंस्टेंट वॉइस क्लोन (IVC) या डिज़ाइन की गई आवाज़ ढूंढना बेहतर होगा। PVC का v3 के लिए अनुकूलन निकट भविष्य में आ रहा है।
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Supporting 10,000+ research conversations with natural, trustworthy voices
ElevenLabs द्वारा संचालित एजेंट्स