हम आपको यह बताते हुए खुश हैं Eleven v3 (अल्फा) — सबसे अभिव्यक्तिपूर्ण टेक्स्ट टू स्पीच मॉडल।
यह रिसर्च प्रीव्यू स्पीच जनरेशन में अभूतपूर्व नियंत्रण और यथार्थवाद लाता है:
70+ भाषाएं
मल्टी-स्पीकर संवाद
Audio tags like [excited], [whispers], and [sighs]
Eleven v3 (अल्फा) को पिछले मॉडलों की तुलना में अधिक प्रॉम्प्ट इंजीनियरिंग की आवश्यकता होती है — लेकिन इसके जनरेशन अद्भुत हैं।
यदि आप वीडियो, ऑडियोबुक, या मीडिया टूल्स पर काम कर रहे हैं — यह अभिव्यक्ति के नए स्तर को खोलता है। रियल-टाइम और कन्वर्सेशनल उपयोग के लिए, हम अभी v2.5 Turbo या Flash का उपयोग करने की सलाह देते हैं। v3 का रियल-टाइम संस्करण विकास में है।
Eleven v3 आज हमारी वेबसाइट पर उपलब्ध है। सार्वजनिक API एक्सेस जल्द ही आ रहा है। प्रारंभिक एक्सेस के लिए, कृपया सेल्स से संपर्क करें.
ElevenLabs ऐप में नए मॉडल का उपयोग जून के अंत तक 80% छूट पर है। साइन अप करें यहां.
हमने v3 क्यों बनाया
हमने v3 क्यों बनायाअभिव्यक्तिपूर्णता. अधिक बढ़ी-चढ़ी भावनाएं, बातचीत में रुकावटें, और विश्वसनीय संवाद बनाना मुश्किल था।
मल्टीलिंगुअल v2 लॉन्च करने के बाद से, हमने देखा कि वॉइस AI का उपयोग प्रोफेशनल फिल्म, गेम डेवलपमेंट, शिक्षा, और एक्सेसिबिलिटी में किया जा रहा है। लेकिन लगातार सीमा ध्वनि की गुणवत्ता नहीं थी — यह
Eleven v3 इस अंतर को पूरा करता है। इसे शुरू से ही ऐसी आवाजें देने के लिए बनाया गया था जो आहें भरें, फुसफुसाएं, हंसें, और प्रतिक्रिया दें — ऐसा भाषण उत्पन्न करते हैं जो वास्तव में उत्तरदायी और जीवंत लगता है।
Feature
What it unlocks
Audio tags
Inline control of tone, emotion, and non-verbal reactions
Dialogue mode
Multi-speaker conversations with natural pacing and interruptions
70+ languages
Full coverage of high-demand global languages
Deeper text understanding
Better stress, cadence, and expressivity from text input
ऑडियो टैग्स आपके स्क्रिप्ट के साथ इनलाइन रहते हैं और लोअरकेस स्क्वायर ब्रैकेट्स के साथ फॉर्मेट किए जाते हैं। आप हमारे
1
“[happily][shouts] We did it![laughs].”
उदाहरण के लिए, आप यह प्रॉम्प्ट कर सकते हैं: “[धीरे से] कुछ आ रहा है… [आहें भरते हुए] मुझे महसूस हो रहा है।” या अधिक अभिव्यक्तिपूर्ण नियंत्रण के लिए, आप कई टैग्स को जोड़ सकते हैं:
मल्टी-स्पीकर संवाद बनानाText to Dialogue API endpoint. Provide a structured array of JSON objects — each representing a speaker turn — and the model generates a cohesive, overlapping audio file:
1
[
2
{"speaker_id":"scarlett","text":"(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3
{"speaker_id":"lex","text":"You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4
{"speaker_id":"scarlett","text":"(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5
]
6
Eleven v3 हमारे मौजूदा टेक्स्ट टू स्पीच एंडपॉइंट में समर्थित है। इसके अलावा, हम एक नया
एंडपॉइंट स्वचालित रूप से स्पीकर ट्रांज़िशन, भावनात्मक परिवर्तन, और रुकावटों को प्रबंधित करता है।here.
We’re excited to see how you bring v3 to life across new use cases — from immersive storytelling to cinematic production pipelines.
Eleven v3 is 80% off until the end of June 2025 for self-serve users using it through the UI.
They were generated with only the Eleven v3 model.
Text to Dialogue weaves multiple voices together to create a seamless interaction between them. Matching prosody, emotional range and taking cues from audio tags, Text to Dialogue is a leap forward in generating engaging conversations.
Public API for Eleven v3 (alpha) is coming soon. For early access, please contact sales.
Eleven v3 supports a wide variety of audio tags and are somewhat voice and context dependent. Read the prompting guide for further information.
Afrikaans (afr), Arabic (ara), Armenian (hye), Assamese (asm), Azerbaijani (aze), Belarusian (bel), Bengali (ben), Bosnian (bos), Bulgarian (bul), Catalan (cat), Cebuano (ceb), Chichewa (nya), Croatian (hrv), Czech (ces), Danish (dan), Dutch (nld), English (eng), Estonian (est), Filipino (fil), Finnish (fin), French (fra), Galician (glg), Georgian (kat), German (deu), Greek (ell), Gujarati (guj), Hausa (hau), Hebrew (heb), Hindi (hin), Hungarian (hun), Icelandic (isl), Indonesian (ind), Irish (gle), Italian (ita), Japanese (jpn), Javanese (jav), Kannada (kan), Kazakh (kaz), Kirghiz (kir), Korean (kor), Latvian (lav), Lingala (lin), Lithuanian (lit), Luxembourgish (ltz), Macedonian (mkd), Malay (msa), Malayalam (mal), Mandarin Chinese (cmn), Marathi (mar), Nepali (nep), Norwegian (nor), Pashto (pus), Persian (fas), Polish (pol), Portuguese (por), Punjabi (pan), Romanian (ron), Russian (rus), Serbian (srp), Sindhi (snd), Slovak (slk), Slovenian (slv), Somali (som), Spanish (spa), Swahili (swa), Swedish (swe), Tamil (tam), Telugu (tel), Thai (tha), Turkish (tur), Ukrainian (ukr), Urdu (urd), Vietnamese (vie), Welsh (cym)
Millions of people across Africa live with speech impairments or loss of voice. Through our partnership with Senses Hub, we’re developing personalized, culturally relevant voices that restore identity, confidence, and connection across the continent.