
Supporting refugee education with the SOK Foundation & UNICEF
Giving students access to the language of school during wartime.
सबसे एक्सप्रेसिव टेक्स्ट टू स्पीच मॉडल
हम Eleven v3 (alpha) पेश करते हुए खुश हैं —सबसे एक्सप्रेसिव टेक्स्ट टू स्पीच मॉडल.
इस रिसर्च प्रीव्यू में स्पीच जनरेशन पर पहले से कहीं ज्यादा कंट्रोल और रियलिज़्म मिलता है:
Eleven v3 (alpha) को पहले से ज्यादा प्रॉम्प्ट इंजीनियरिंग की जरूरत है — लेकिन जो रिजल्ट मिलते हैं, वो शानदार हैं।
अगर आप वीडियो, ऑडियोबुक या मीडिया टूल्स पर काम कर रहे हैं — तो इससे एक्सप्रेसिवनेस का नया स्तर खुलता है। रियल-टाइम और कन्वर्सेशनल इस्तेमाल के लिए, अभी v2.5 Turbo या Flash का इस्तेमाल करें। v3 का रियल-टाइम वर्शन डेवलप हो रहा है।
Eleven v3 आज हमारी वेबसाइट और API.
Multilingual v2 लॉन्च होने के बाद से हमने देखा कि वॉइस AI को प्रोफेशनल फिल्म, गेम डेवलपमेंट, एजुकेशन और एक्सेसिबिलिटी में अपनाया गया है। लेकिन सबसे बड़ी कमी साउंड क्वालिटी नहीं थी — बल्किएक्सप्रेसिवनेसथी। ज्यादा एक्सप्रेसिव इमोशंस, कन्वर्सेशनल रुकावटें और नेचुरल बातचीत बनाना मुश्किल था।
Eleven v3 इस कमी को पूरा करता है। इसे शुरू से ऐसे बनाया गया है कि वॉइस में सिसकी, फुसफुसाहट, हंसी और रिएक्शन आ सके — जिससे स्पीच सच में जिंदा और रेस्पॉन्सिव लगे।
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
ऑडियो टैग्स आपके स्क्रिप्ट में इनलाइन रहते हैं और लोअरकेस स्क्वायर ब्रैकेट्स में लिखे जाते हैं। ऑडियो टैग्स के बारे में और जानने के लिए देखें हमाराv3 के लिए प्रॉम्प्टिंग गाइड डॉक्युमेंटेशन में.
प्रोफेशनल वॉइस क्लोन्स (PVCs) अभी Eleven v3 के लिए पूरी तरह ऑप्टिमाइज़ नहीं हैं, जिससे क्लोन क्वालिटी पहले के मॉडल्स से कम हो सकती है। रिसर्च प्रीव्यू के दौरान, अगर आपको v3 की खूबियां चाहिए तो Instant Voice Clone (IVC) या डिज़ाइन की गई वॉइस का इस्तेमाल करें। PVC का v3 के लिए ऑप्टिमाइज़ेशन जल्द आ रहा है।
उदाहरण के लिए, आप प्रॉम्प्ट कर सकते हैं: “[whispers] कुछ आने वाला है… [sighs] मुझे महसूस हो रहा है।” और ज्यादा एक्सप्रेसिव कंट्रोल के लिए, आप कई टैग्स मिला सकते हैं:
| 1 | “[happily][shouts] We did it! [laughs].” |
Eleven v3 हमारे मौजूदा टेक्स्ट टू स्पीच एंडपॉइंट में सपोर्टेड है। साथ ही, हम एक नयाटेक्स्ट टू डायलॉग API एंडपॉइंटलाए हैं। इसमें आप JSON ऑब्जेक्ट्स की स्ट्रक्चर्ड ऐरे देते हैं — हर एक स्पीकर के लिए — और मॉडल एक कोहेसिव, ओवरलैपिंग ऑडियो फाइल बनाता है:
| 1 | [ |
| 2 | {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."}, |
| 3 | {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."}, |
| 4 | {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"} |
| 5 | ] |
| 6 |
एंडपॉइंट खुद-ब-खुद स्पीकर ट्रांजिशन, इमोशनल बदलाव और रुकावटें मैनेज करता है।
और जानेंयहां.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
v3 को एक्टिवेट करने के लिए:
API एक्सेस और स्टूडियो में सपोर्ट जल्द आ रहा है। जल्दी एक्सेस के लिए कृपयासेल्स से संपर्क करें.
Eleven v3 (alpha) को हमारे पिछले मॉडल्स से ज्यादा प्रॉम्प्ट इंजीनियरिंग चाहिए। जब यह काम करता है तो आउटपुट शानदार होता है, लेकिन इसकी भरोसेमंदी और ज्यादा लेटेंसी के कारण यह रियल-टाइम और कन्वर्सेशनल इस्तेमाल के लिए सही नहीं है। इनके लिए हम Eleven v2.5 Turbo/Flash की सलाह देते हैं।
और जानकारी के लिए पूरीv3 डॉक्युमेंटेशनऔर FAQ देखें।
हम उत्साहित हैं कि आप v3 को नई जगहों पर कैसे इस्तेमाल करते हैं — इमर्सिव स्टोरीटेलिंग से लेकर सिनेमैटिक प्रोडक्शन पाइपलाइंस तक।

Giving students access to the language of school during wartime.
.webp&w=3840&q=95)
A landmark musical release created in collaboration with world-class artists and powered by Eleven Music.