
Introducing Experiments in ElevenAgents
The most data-driven way to improve real-world agent performance.
Eleven v3 ऑडियो टैग्स के साथ समय, लय, और जोर पर सूक्ष्म नियंत्रण। सपाट डिलीवरी को गतिशील, प्रदर्शनकारी सामग्री में बदलें।
बेहतरीन स्पीच सिर्फ़ क्या कहा जाता है इस पर निर्भर नहीं करती — यह कैसे कहा जाता है इस पर भी निर्भर करती है। Eleven v3 ऑडियो टैग्स के साथ, आप समय, लय, और जोर पर सूक्ष्म नियंत्रण प्राप्त करते हैं, जिससे आप एक लाइन की गति को सटीकता से आकार दे सकते हैं।
[pause], [rushed], [stammers], या [drawn out] जैसे टैग्स का उपयोग करके, आप यह समायोजित कर सकते हैं कि प्रत्येक वाक्य कैसे उतरता है — न केवल भावनात्मक रूप से, बल्कि लयबद्ध रूप से भी। यह नियंत्रण सपाट डिलीवरी को प्रदर्शन में बदल देता है।
डिलीवरी नियंत्रण स्पीच के प्रवाह को निर्देशित करने की क्षमता है — यह कितनी तेजी से चलती है, कहां रुकती है, कब जोर देती है। यह वही है जो एक लाइन को नाटकीय, आकस्मिक, तनावपूर्ण, या हास्यपूर्ण महसूस कराता है।
के साथ Eleven v3, डिलीवरी डिफ़ॉल्ट गति तक सीमित नहीं है। आप स्क्रिप्ट से ही सस्पेंस के लिए गति धीमी कर सकते हैं, तात्कालिकता के लिए तेज़ कर सकते हैं, या हास्य के लिए लय जोड़ सकते हैं।
उदाहरण: "ठीक है, तो जैसे मैंने आखिरकार उस गेम का लेवल 42 पार कर लिया जिसे मैंने कहा था कि मैं छोड़ दूंगा... एक महीने पहले। [हंसते हैं] और फिर अंतिम बॉस... बस... [गिगल] एक खरगोश था। [बड़ी हंसी] मैं नहीं कर सका। यह बहुत प्यारा था।"
यहां टैग्स गति और समय को आकार देते हैं — और यही लाइन को प्रभावी बनाता है।
टैग्स आपको उन सूक्ष्म संकेतों तक पहुंच देते हैं जिनका उपयोग मनुष्य स्वाभाविक रूप से स्पीच की गति को नियंत्रित करने के लिए करते हैं:
उदाहरण: "[drawn out] सोओओओ... आप कह रहे हैं... [संदेहपूर्ण स्वर] आपने आखिरी स्लाइस नहीं खाई?"
ये टैग्स आपको यह नियंत्रित करने की पूरी क्षमता देते हैं कि एक आवाज़ कैसी महसूस होती है।
कैसे एक लाइन दी जाती है, यह बदलने से यह कैसे समझी जाती है, यह बदल जाता है।
वही शब्द। अलग अर्थ। डिलीवरी नियंत्रण के साथ, स्वर शब्द चयन से नहीं, बल्कि समय और इरादे से उभरता है।
आप भावनात्मक या चरित्र संकेतों के साथ डिलीवरी-केंद्रित टैग्स को लेयर कर सकते हैं ताकि पूरे दृश्य को आकार दे सकें।
उदाहरण: [हिचकिचाते हुए][नर्वस] मैं... मुझे यकीन नहीं है कि यह काम करेगा। [गटकता है] लेकिन चलो कोशिश करते हैं।
या: [फुसफुसाते हुए][विराम] क्या आपने वह सुना? [जल्दी से] छुपो! अभी!
यह लय और प्रतिक्रिया का मिश्रण है जो प्रदर्शन को विश्वसनीय बनाता है।
Eleven v3 स्क्रिप्ट को एक स्कोर में बदल देता है — और डिलीवरी नियंत्रण वह है जिससे आप इसे संचालित करते हैं। चाहे आप ट्यूटोरियल, मोनोलॉग, या पंचलाइन लिख रहे हों, ऑडियो टैग्स आपको फ्रेम-बाय-फ्रेम सटीकता के साथ डिलीवरी प्रबंधित करने देते हैं।
निर्माताओं के लिए, इसका मतलब है कि एक लाइन कैसे खुलती है इस पर पूरा नियंत्रण। आप केवल यह नहीं लिख रहे हैं कि क्या होता है। आप इसकी गति सेट कर रहे हैं।
प्रोफेशनल वॉइस क्लोन्स (PVCs) वर्तमान में Eleven v3 के लिए पूरी तरह से अनुकूलित नहीं हैं, जिससे पहले के मॉडलों की तुलना में क्लोन गुणवत्ता कम हो सकती है। इस शोध पूर्वावलोकन चरण के दौरान, यदि आपको v3 फीचर्स का उपयोग करना है, तो आपके प्रोजेक्ट के लिए एक इंस्टेंट वॉइस क्लोन (IVC) या डिज़ाइन की गई आवाज़ ढूंढना सबसे अच्छा होगा। PVC का v3 के लिए अनुकूलन निकट भविष्य में आ रहा है।

The most data-driven way to improve real-world agent performance.
.webp&w=3840&q=95)
UK AI Security Institute researchers will explore the implications of AI voice technology