
वॉइस डिज़ाइन v3 का परिचय
- श्रेणी
- रिसर्च
- तारीख
सबसे एक्सप्रेसिव टेक्स्ट टू स्पीच मॉडल
हम Eleven v3 (alpha) पेश करते हुए खुश हैं —सबसे एक्सप्रेसिव टेक्स्ट टू स्पीच मॉडल.
Eleven v3 अब अल्फा में नहीं है, और अब सभी के लिए उपलब्ध है।
70+ भाषाएं को पहले से ज्यादा प्रॉम्प्ट इंजीनियरिंग की जरूरत है — लेकिन जो रिजल्ट मिलते हैं, वो शानदार हैं।
अगर आप वीडियो, ऑडियोबुक या मीडिया टूल्स पर काम कर रहे हैं — तो इससे एक्सप्रेसिवनेस का नया स्तर खुलता है। रियल-टाइम और कन्वर्सेशनल इस्तेमाल के लिए, अभी v2.5 Turbo या Flash का इस्तेमाल करें। v3 का रियल-टाइम वर्शन डेवलप हो रहा है।
अगर आप वीडियो, ऑडियोबुक या मीडिया टूल्स पर काम कर रहे हैं — तो यह एक्सप्रेसिवनेस का नया स्तर खोलता है। रियल-टाइम और कन्वर्सेशनल इस्तेमाल के लिए, हम अभी v2.5 Turbo या Flash इस्तेमाल करने की सलाह देते हैं। v3 का रियल-टाइम वर्शन डेवलपमेंट में है।API.
हमने v3 क्यों बनायाएक्सप्रेसिवनेसथी। ज्यादा एक्सप्रेसिव इमोशंस, कन्वर्सेशनल रुकावटें और नेचुरल बातचीत बनाना मुश्किल था।
Multilingual v2 लॉन्च होने के बाद से हमने देखा कि वॉइस AI का इस्तेमाल प्रोफेशनल फिल्म, गेम डेवलपमेंट, एजुकेशन और एक्सेसिबिलिटी में हो रहा है। लेकिन सबसे बड़ी कमी साउंड क्वालिटी नहीं थी — बल्कि
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
ऑडियो टैग्स का इस्तेमालv3 के लिए प्रॉम्प्टिंग गाइड डॉक्युमेंटेशन में.
ऑडियो टैग्स आपके स्क्रिप्ट में इनलाइन रहते हैं और लोअरकेस स्क्वायर ब्रैकेट्स में लिखे जाते हैं। ऑडियो टैग्स के बारे में और जानें हमारे
प्रोफेशनल वॉइस क्लोन्स (PVCs) अभी Eleven v3 के लिए पूरी तरह ऑप्टिमाइज़ नहीं हैं, जिससे क्लोन क्वालिटी पहले के मॉडल्स से कम हो सकती है। रिसर्च प्रीव्यू के दौरान, अगर आपको v3 फीचर्स चाहिए तो Instant Voice Clone (IVC) या डिज़ाइन की गई वॉइस का इस्तेमाल करें। PVC का v3 के लिए ऑप्टिमाइज़ेशन जल्द आ रहा है।
मल्टी-स्पीकर डायलॉग बनानाटेक्स्ट टू डायलॉग API एंडपॉइंटलाए हैं। इसमें आप JSON ऑब्जेक्ट्स की स्ट्रक्चर्ड ऐरे देते हैं — हर एक स्पीकर के लिए — और मॉडल एक कोहेसिव, ओवरलैपिंग ऑडियो फाइल बनाता है:
एंडपॉइंट खुद-ब-खुद स्पीकर ट्रांजिशन, इमोशनल बदलाव और रुकावटें मैनेज करता है।
एंडपॉइंट खुद-ब-खुद स्पीकर ट्रांजिशन, इमोशनल बदलाव और रुकावटें मैनेज करता है।यहां.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
v3 को एक्टिवेट करने के लिए:
API एक्सेस और स्टूडियो में सपोर्ट जल्द आ रहा है। जल्दी एक्सेस के लिए कृपयासेल्स से संपर्क करें.
कब v3 का इस्तेमाल न करें
Eleven v3 (alpha) को हमारे पिछले मॉडल्स से ज्यादा प्रॉम्प्ट इंजीनियरिंग चाहिए। जब यह काम करता है तो आउटपुट शानदार होता है, लेकिन इसकी भरोसेमंदी और ज्यादा लेटेंसी के कारण यह रियल-टाइम और कन्वर्सेशनल यूज़ केस के लिए सही नहीं है। इनके लिए हम Eleven v2.5 Turbo/Flash की सलाह देते हैं।v3 डॉक्युमेंटेशनऔर FAQ देखें।
हम उत्साहित हैं कि आप v3 को नई जगहों पर कैसे इस्तेमाल करते हैं — इमर्सिव स्टोरीटेलिंग से लेकर सिनेमैटिक प्रोडक्शन पाइपलाइंस तक।



