
ElevenAPI
ElevenLabs API से स्पीच जनरेट करें
टेक्स्ट टू स्पीच API
अल्ट्रा-रियलिस्टिक और लो लेटेंसी स्पीच जनरेशन
रियल-टाइम और बल्क ऐप्लिकेशंस के लिए हाई-क्वालिटी, कंट्रोल करने योग्य स्पीच जनरेशन बनाएं। मॉडल्स लेटेंसी, फिडेलिटी और लंबी कंटेंट की कंसिस्टेंसी के लिए ऑप्टिमाइज़ किए गए हैं।
डेमो
कोड
प्राचीन भूमि एल्डोरिया में, जहाँ आकाश चमकते थे और जंगल हवा को राज़ फुसफुसाते थे, वहाँ ज़ेफिरोस नाम का एक ड्रैगन रहता था। [sarcastically] वह “सब कुछ जला दो” वाला नहीं था... [giggles] बल्कि वह कोमल, बुद्धिमान था, जिसकी आँखें पुराने सितारों जैसी थीं। [whispers] जब वह गुजरता था तो पक्षी भी चुप हो जाते थे।
- Lovable
- Synthesia
- Stripe
- Perplexity
- Twilio
सबसे पावरफुल वॉइस AI मॉडल्स पर बना
अपने इस्तेमाल के हिसाब से सही मॉडल चुनें: अल्ट्रा-लो लेटेंसी एजेंट्स से लेकर एक्सप्रेसिव, लंबी नैरेशन तक।

फ्लैश v2.5
हमारा सबसे कम लेटेंसी वाला स्पीच सिंथेसिस मॉडल
- अल्ट्रा-लो लेटेंसी (~75ms)
- 32 भाषाओं का सपोर्ट
- 40,000 कैरेक्टर लिमिट
- ~$0.06 प्रति मिनट

टर्बो v2.5
क्वालिटी और लेटेंसी का बैलेंस
- लो लेटेंसी (~250-300ms)
- हाई क्वालिटी वॉइस जनरेशन
- 32 भाषाओं का सपोर्ट
- 40,000 कैरेक्टर लिमिट
- ~$0.06 प्रति मिनट

मल्टीलिंगुअल v2
लाइफलाइक, लगातार क्वालिटी वाला स्पीच सिंथेसिस मॉडल
- नैचुरल-साउंडिंग आउटपुट
- 29 भाषाओं का सपोर्ट
- 10,000 कैरेक्टर लिमिट
- लंबी जनरेशन के लिए डिज़ाइन किया गया
- ~$0.12 प्रति मिनट

इलेवन v3
हमारा सबसे इमोशनल और एक्सप्रेसिव मॉडल
- ड्रामैटिक डिलीवरी और परफॉर्मेंस
- 70+ भाषाओं का सपोर्ट
- 3,000 कैरेक्टर लिमिट
- मल्टी-स्पीकर डायलॉग
- ~$0.12 प्रति मिनट
प्रोडक्शन के लिए तैयार स्पीच बनाने के लिए सब कुछ
ऐसे मॉडल्स के साथ एक्सप्रेसिव, कंट्रोल करने योग्य स्पीच जनरेट करें, जो रियल-टाइम, लंबी और प्रोडक्शन यूज़ के लिए बने हैं।
इमोशन और डिलीवरी कंट्रोल करें
कंट्रोल करने योग्य, एक्सप्रेसिव स्पीच बनाएं जिसमें इमोशन, ऑडियो इवेंट्स और इमर्सिव साउंडस्केप्स शामिल हों।

10,000+ वॉइस एक्सेस करें
हर यूज़ केस के लिए लगातार बढ़ती एक्सप्रेसिव, लाइफलाइक वॉइस की लाइब्रेरी एक्सप्लोर करें।

वॉइस डिज़ाइन और क्लोनिंग
30 से ज़्यादा भाषाओं में नैचुरल वॉइस, एक्सप्रेसिव एक्सेंट्स और आपकी ऑडियंस के लिए लोकलाइज़्ड ऑडियो बनाएं।

मल्टी-स्पीकर डायलॉग
30+ भाषाओं में नैचुरल मल्टी-स्पीकर बातचीत बनाएं, एक्सप्रेसिव और कंट्रोल करने योग्य वॉइस के साथ।

ऑडियो इवेंट्स और डायरेक्शन
ऑडियो टैग्स, टाइमिंग क्यूज़ और नैरेटिव डायरेक्शन के साथ डिलीवरी कंट्रोल करें।

प्रोनन्सिएशन डिक्शनरीज़
कस्टम प्रोनन्सिएशन सेट करें ताकि नाम और टर्म्स हमेशा सही और एक जैसे बोले जाएं।

दुनिया की प्रमुख कंपनियों और ब्रांड्स को पावर दे रहे हैं
“रील्स को लोकल भाषाओं में डब करने से लेकर Horizon में म्यूजिक और कैरेक्टर वॉइस जनरेट करने तक, ElevenLabs प्लेटफॉर्म ग्लोबल क्रिएटर्स, बिज़नेस और एंटरप्राइजेज को वॉइस, म्यूजिक और साउंड के साथ बड़े स्तर पर काम करने की सुविधा देता है।”
“हर दिन लाखों लोग YouTube और Twitch पर Hikaru, Levy और Magnus जैसे क्रिएटर्स से शतरंज सीखते हैं। अब आप Chess.com के अंदर उनसे ऐसे सीख सकते हैं, जैसे सब कुछ इमर्सिव, पर्सनल और कैरेक्टर से भरा हो। हमारा मिशन है कि हर स्किल लेवल के खिलाड़ियों के लिए सही कोचिंग मिले, शतरंज को आसान और मज़ेदार बनाया जाए। ElevenLabs और इन शानदार नई वॉइस के साथ, हमने इस विज़न को हकीकत के और करीब ला दिया है।”
“ElevenLabs ने हमें अपने SDK में पावरफुल टेक्स्ट-टू-स्पीच फीचर जल्दी जोड़ने में मदद की, जिससे एजेंट्स यूज़र के सवालों का रियल-टाइम में एक्सप्रेसिव वॉइस में जवाब दे सकते हैं या जो देख रहे हैं उस पर फीडबैक दे सकते हैं।”

“Twilio ने ElevenLabs की जनरेटिव AI वॉइस टेक्नोलॉजी को अपने CPaaS में इंटीग्रेट किया है, जिससे ConversationRelay बेहतर हुआ है। इस इंटीग्रेशन से बिज़नेस और डेवलपर्स ऐसे कन्वर्सेशनल AI वॉइस इंटरैक्शन बना सकते हैं, जो इंसानों जैसे लगें, एक्सप्रेसिव हों और रियल-टाइम में रिस्पॉन्ड करें। हम ElevenLabs में खुश हैं कि Twilio ने ConversationRelay को सबसे एक्सप्रेसिव, इंसान जैसी वॉइस के साथ बेहतर बनाने के लिए हमें चुना।”
प्रोडक्शन के लिए बने APIs

अक्सर पूछे जाने वाले प्रश्न
- Flash v2.5 - अल्ट्रा-लो लेटेंसी (~75ms) रियल-टाइम ऐप्लिकेशंस जैसे वॉइस एजेंट्स के लिए
- Turbo v2.5 - बैलेंस्ड क्वालिटी और स्पीड (~250-300ms) इंटरैक्टिव यूज़ केस के लिए
- Multilingual v2 - लंबी कंटेंट (10,000 कैरेक्टर्स तक) के लिए लगातार क्वालिटी
- Eleven v3 - क्रिएटिव यूज़ के लिए सबसे ज़्यादा एक्सप्रेसिव और इमोशनल रेंज
Flash v2.5 लगभग ~75ms लेटेंसी देता है।
Turbo v2.5 आमतौर पर 250-300ms में रिस्पॉन्स करता है।
दोनों में स्ट्रीमिंग आउटपुट है, जिससे ऑडियो जनरेट होने से पहले ही प्लेबैक शुरू हो सकता है।
Eleven v3 में 70+ भाषाओं का सपोर्ट है।
Flash v2.5 और Turbo v2.5 में 32 भाषाओं का सपोर्ट है।
Multilingual v2 में भी 70+ भाषाओं का सपोर्ट है।
Flash v2.5 और Turbo v2.5: 40,000 कैरेक्टर्स
Multilingual v2: 10,000 कैरेक्टर्स
Eleven v3: 3,000 कैरेक्टर्स
डिलीवरी, इमोशन, एम्फेसिस, पॉज़ और साउंड इफेक्ट्स कंट्रोल करने के लिए ऑडियो टैग्स ([laughs], [whispers], [sighs], [door slam]) का इस्तेमाल करें। Eleven v3 में सबसे ज़्यादा एक्सप्रेसिव कंट्रोल मिलता है।
वॉइस लाइब्रेरी में 10,000+ वॉइस हैं। आप वॉइस क्लोन भी कर सकते हैं या टेक्स्ट प्रॉम्प्ट्स से कस्टम वॉइस डिज़ाइन कर सकते हैं।
हाँ। स्ट्रीमिंग से आप पूरा ऑडियो जनरेट होने से पहले ही प्लेबैक शुरू कर सकते हैं, जिससे रियल-टाइम ऐप्लिकेशंस में लेटेंसी कम महसूस होती है।
हाँ। अपनी लाइब्रेरी में किसी भी वॉइस को वॉइस ID से रेफर कर सकते हैं, जिसमें प्रोफेशनल वॉइस क्लोन, इंस्टेंट वॉइस क्लोन और आपने डिज़ाइन की हुई वॉइस भी शामिल हैं।
API डिफॉल्ट रूप से MP3 आउटपुट देता है। अतिरिक्त फॉर्मेट्स में PCM और μ-law भी शामिल हैं।
Flash v2.5 को स्ट्रीमिंग के साथ इस्तेमाल करें। रिक्वेस्ट 1,000 कैरेक्टर्स से कम रखें। रियल-टाइम ऐप्लिकेशंस के लिए WebSocket कनेक्शन ऑन करें।
हाँ। फोनेटिक स्पेलिंग या प्रोनन्सिएशन डिक्शनरीज़ से आप तय कर सकते हैं कि कौन सा शब्द कैसे बोला जाए।
Python और JavaScript/TypeScript के लिए ऑफिशियल SDKs उपलब्ध हैं। आप HTTP API भी इस्तेमाल कर सकते हैं।
पूरा API रेफरेंस, कोड उदाहरण और इंटीग्रेशन गाइड्स elevenlabs.io/docs/api-reference पर उपलब्ध हैं।
हाँ। एंटरप्राइज प्लान्स में SOC 2 कंप्लायंस, HIPAA सपोर्ट, GDPR कंप्लायंस, EU डेटा रेजिडेंसी, ज़ीरो रिटेंशन मोड, डेडिकेटेड सपोर्ट और कस्टम SLA शामिल हैं।
.webp&w=3840&q=80)




.webp&w=3840&q=80)

.webp&w=3840&q=80)