
वॉइस डिज़ाइन - ऑडियो के लिए पहला जनरेटिव AI
- श्रेणी
- प्रोडक्ट
- तारीख
मूर्ति की फोटो लें। उसमें दिख रहे किरदारों की पहचान करें। फिर उनके साथ रियल-टाइम वॉइस में बातचीत करें – हर किरदार अपनी अलग, उस दौर के हिसाब से आवाज़ में बोलेगा।
यही सब आप ElevenLabs के वॉइस डिज़ाइन और एजेंट API से बना सकते हैं। इस पोस्ट में हम एक मोबाइल वेब ऐप की आर्किटेक्चर बताते हैं, जो कंप्यूटर विज़न और वॉइस जनरेशन को जोड़कर सार्वजनिक स्मारकों को इंटरैक्टिव अनुभव में बदलता है। नीचे दिए गए API और कोड सैंपल्स से आप यह सब खुद भी बना सकते हैं।
नीचे दिया गया पूरा ऐप सिर्फ एक प्रॉम्प्ट से बना है, जिसेकर्सर में Claude Opus 4.5 (high) के साथ एक खाली NextJS प्रोजेक्ट में टेस्ट किया गया। अगर आप सीधे बनाना चाहते हैं, तो इसे अपने एडिटर में पेस्ट करें:
आपElevenLabs एजेंट स्किल्स का भी इस्तेमाल कर सकते हैं, डॉक्युमेंटेशन लिंक करने की बजाय। ये डॉक्युमेंटेशन पर आधारित हैं और इससे और भी अच्छे नतीजे मिल सकते हैं।
बाकी पोस्ट में हम बताते हैं कि यह प्रॉम्प्ट क्या-क्या बनाता है।
इस पाइपलाइन के पाँच स्टेज हैं:
जब कोई यूज़र मूर्ति की फोटो लेता है, तो इमेज OpenAI के विज़न मॉडल को भेजी जाती है। एक स्ट्रक्चर्ड सिस्टम प्रॉम्प्ट आर्टवर्क का नाम, लोकेशन, आर्टिस्ट, तारीख और – सबसे ज़रूरी – हर किरदार के लिए डिटेल्ड वॉइस डिस्क्रिप्शन निकालता है। सिस्टम प्रॉम्प्ट में अपेक्षित JSON आउटपुट फॉर्मेट भी शामिल है:
अगर फोटो लंदन के वेस्टमिंस्टर ब्रिज पर बौडिका की मूर्ति की है, तो जवाब कुछ ऐसा दिखेगा:
वॉइस डिस्क्रिप्शन की क्वालिटी सीधे जनरेटेड वॉइस की क्वालिटी तय करती है। वॉइस डिज़ाइन प्रॉम्प्टिंग गाइड में यह विस्तार से बताया गया है, लेकिन मुख्य बातें हैं: ऑडियो क्वालिटी मार्कर ("Perfect audio quality."), उम्र और जेंडर, टोन/टिम्बर (गहरी, गूंजदार, खुरदरी), सटीक एक्सेंट ("thick Celtic British accent" सिर्फ "British" की बजाय), और बोलने की गति। जितना डिटेल में प्रॉम्प्ट देंगे, उतना सटीक रिजल्ट मिलेगा – "60 साल की थकी हुई न्यू यॉर्कर, जिसमें हल्का ह्यूमर है" हमेशा "एक बुजुर्ग महिला की आवाज़" से बेहतर रिजल्ट देगा।
गाइड से कुछ बातें ध्यान देने लायक: एक्सेंट की मजबूती बताने के लिए "thick" शब्द का इस्तेमाल करें, "foreign" जैसे अस्पष्ट शब्दों से बचें, और काल्पनिक या ऐतिहासिक किरदारों के लिए असली दुनिया के एक्सेंट को इंस्पिरेशन के तौर पर सुझा सकते हैं (जैसे, "एक प्राचीन सेल्टिक रानी, जिसकी ब्रिटिश एक्सेंट मोटी, शाही और दमदार है").
वॉइस डिज़ाइन API टेक्स्ट डिस्क्रिप्शन से नई सिंथेटिक आवाज़ें बनाता है – न वॉइस सैंपल चाहिए, न क्लोनिंग। यह खासतौर पर उन ऐतिहासिक किरदारों के लिए बढ़िया है, जिनकी असली ऑडियो मौजूद नहीं है।
इस प्रक्रिया में दो स्टेप होते हैं।
टेक्स्ट पैरामीटर मायने रखता है। लंबा, किरदार के हिसाब से सैंपल टेक्स्ट (50+ शब्द) ज़्यादा स्थिर रिजल्ट देता है – डायलॉग को किरदार के मुताबिक रखें, न कि कोई सामान्य ग्रीटिंग। वॉइस डिज़ाइन प्रॉम्प्टिंग गाइड में यह और विस्तार से बताया गया है।
प्रीव्यू जनरेट होने के बाद, एक चुनें और परमानेंट वॉइस बनाएं:
अगर मूर्ति में कई किरदार हैं, तो वॉइस क्रिएशन एक साथ चलता है। पाँच किरदारों की आवाज़ें लगभग उतने ही समय में बन जाती हैं, जितना एक की लगती है:
वॉइस बन जाने के बाद अगला स्टेप है ElevenLabs एजेंट को सेटअप करना, जो रियल-टाइम में किरदारों की आवाज़ बदल सके।
supportedVoices ऐरे एजेंट को बताता है कि कौन-कौन सी आवाज़ें उपलब्ध हैं। Agents प्लेटफॉर्म वॉइस स्विचिंग खुद ही संभालता है – जब LLM के जवाब से पता चलता है कि कोई दूसरा किरदार बोल रहा है, तो TTS इंजन उस हिस्से को सही वॉइस में भेज देता है।
कई किरदारों को असली ग्रुप जैसा महसूस कराने के लिए – न कि सिर्फ सवाल-जवाब – प्रॉम्प्ट को सोच-समझकर डिजाइन करना पड़ता है:
आखिरी हिस्सा है क्लाइंट कनेक्शन। ElevenLabs Agents WebRTC सपोर्ट करते हैं, जिससे वॉइस कन्वर्सेशन में बहुत कम लेटेंसी रहती है – यह WebSocket कनेक्शन से तेज़ है, जिससे बातचीत और नेचुरल लगती है।
useConversation हुक ऑडियो कैप्चर, स्ट्रीमिंग, वॉइस एक्टिविटी डिटेक्शन और प्लेबैक संभालता है।
अगर यूज़र बातचीत शुरू करने से पहले ज़्यादा ऐतिहासिक जानकारी चाहते हैं, तो आप OpenAI के वेब सर्च टूल से एक एडवांस्ड रिसर्च मोड जोड़ सकते हैं:
इस प्रोजेक्ट से पता चलता है कि जब हम AI के अलग-अलग मोड – टेक्स्ट, रिसर्च, विज़न और ऑडियो – को जोड़ते हैं, तो ऐसे अनुभव बना सकते हैं जो डिजिटल और असली दुनिया, दोनों को जोड़ते हैं। मल्टी-मोडल एजेंट्स में बहुत संभावनाएं हैं, जिन्हें हम चाहते हैं कि और लोग एजुकेशन, काम और मज़े के लिए एक्सप्लोर करें।
इस प्रोजेक्ट में इस्तेमाल हुए API – वॉइस डिज़ाइन,ElevenAgents, और OpenAI – ये सभी अभी उपलब्ध हैं।



