मूर्ति से बात करें: मल्टी-मोडल ElevenAgents-चालित ऐप बनाना
- लेखक
- Joe Reeve
- प्रकाशित
- आखिरी बार अपडेट किया गया
सुनेंइस आर्टिकल को सुनें
मूर्ति की फोटो लें। उसमें दिख रहे किरदारों की पहचान करें। फिर उनके साथ रियल-टाइम वॉइस में बातचीत करें – हर किरदार अपनी अलग, उस दौर के हिसाब से आवाज़ में बोलेगा।
यही सब आप ElevenLabs के वॉइस डिज़ाइन और एजेंट API से बना सकते हैं। इस पोस्ट में हम एक मोबाइल वेब ऐप की आर्किटेक्चर बताते हैं, जो कंप्यूटर विज़न और वॉइस जनरेशन को जोड़कर सार्वजनिक स्मारकों को इंटरैक्टिव अनुभव में बदलता है। नीचे दिए गए API और कोड सैंपल्स से आप यह सब खुद भी बना सकते हैं।
ट्यूटोरियल छोड़ें – एक ही प्रॉम्प्ट में बनाएं
नीचे दिया गया पूरा ऐप सिर्फ एक प्रॉम्प्ट से बना है, जिसेकर्सर में Claude Opus 4.5 (high) के साथ एक खाली NextJS प्रोजेक्ट में टेस्ट किया गया। अगर आप सीधे बनाना चाहते हैं, तो इसे अपने एडिटर में पेस्ट करें:
आपElevenLabs एजेंट स्किल्स का भी इस्तेमाल कर सकते हैं, डॉक्युमेंटेशन लिंक करने की बजाय। ये डॉक्युमेंटेशन पर आधारित हैं और इससे और भी अच्छे नतीजे मिल सकते हैं।
बाकी पोस्ट में हम बताते हैं कि यह प्रॉम्प्ट क्या-क्या बनाता है।
यह कैसे काम करता है
इस पाइपलाइन के पाँच स्टेज हैं:
- इमेज कैप्चर करें
- आर्टवर्क और उसके किरदार पहचानें (OpenAI)
- इतिहास की रिसर्च करें (OpenAI)
- हर किरदार के लिए अलग वॉइस जनरेट करें (ElevenAPI)
- WebRTC के ज़रिए रियल-टाइम वॉइस कन्वर्सेशन शुरू करें (ElevenAgents)
विज़न से मूर्ति की पहचान
जब कोई यूज़र मूर्ति की फोटो लेता है, तो इमेज OpenAI के विज़न मॉडल को भेजी जाती है। एक स्ट्रक्चर्ड सिस्टम प्रॉम्प्ट आर्टवर्क का नाम, लोकेशन, आर्टिस्ट, तारीख और – सबसे ज़रूरी – हर किरदार के लिए डिटेल्ड वॉइस डिस्क्रिप्शन निकालता है। सिस्टम प्रॉम्प्ट में अपेक्षित JSON आउटपुट फॉर्मेट भी शामिल है:
अगर फोटो लंदन के वेस्टमिंस्टर ब्रिज पर बौडिका की मूर्ति की है, तो जवाब कुछ ऐसा दिखेगा:
असरदार वॉइस डिस्क्रिप्शन कैसे लिखें
वॉइस डिस्क्रिप्शन की क्वालिटी सीधे जनरेटेड वॉइस की क्वालिटी तय करती है। वॉइस डिज़ाइन प्रॉम्प्टिंग गाइड में यह विस्तार से बताया गया है, लेकिन मुख्य बातें हैं: ऑडियो क्वालिटी मार्कर ("Perfect audio quality."), उम्र और जेंडर, टोन/टिम्बर (गहरी, गूंजदार, खुरदरी), सटीक एक्सेंट ("thick Celtic British accent" सिर्फ "British" की बजाय), और बोलने की गति। जितना डिटेल में प्रॉम्प्ट देंगे, उतना सटीक रिजल्ट मिलेगा – "60 साल की थकी हुई न्यू यॉर्कर, जिसमें हल्का ह्यूमर है" हमेशा "एक बुजुर्ग महिला की आवाज़" से बेहतर रिजल्ट देगा।
गाइड से कुछ बातें ध्यान देने लायक: एक्सेंट की मजबूती बताने के लिए "thick" शब्द का इस्तेमाल करें, "foreign" जैसे अस्पष्ट शब्दों से बचें, और काल्पनिक या ऐतिहासिक किरदारों के लिए असली दुनिया के एक्सेंट को इंस्पिरेशन के तौर पर सुझा सकते हैं (जैसे, "एक प्राचीन सेल्टिक रानी, जिसकी ब्रिटिश एक्सेंट मोटी, शाही और दमदार है").
वॉइस डिज़ाइन से किरदारों की आवाज़ बनाना
वॉइस डिज़ाइन API टेक्स्ट डिस्क्रिप्शन से नई सिंथेटिक आवाज़ें बनाता है – न वॉइस सैंपल चाहिए, न क्लोनिंग। यह खासतौर पर उन ऐतिहासिक किरदारों के लिए बढ़िया है, जिनकी असली ऑडियो मौजूद नहीं है।
इस प्रक्रिया में दो स्टेप होते हैं।
प्रीव्यू जनरेट करें
टेक्स्ट पैरामीटर मायने रखता है। लंबा, किरदार के हिसाब से सैंपल टेक्स्ट (50+ शब्द) ज़्यादा स्थिर रिजल्ट देता है – डायलॉग को किरदार के मुताबिक रखें, न कि कोई सामान्य ग्रीटिंग। वॉइस डिज़ाइन प्रॉम्प्टिंग गाइड में यह और विस्तार से बताया गया है।
वॉइस सेव करें
प्रीव्यू जनरेट होने के बाद, एक चुनें और परमानेंट वॉइस बनाएं:
अगर मूर्ति में कई किरदार हैं, तो वॉइस क्रिएशन एक साथ चलता है। पाँच किरदारों की आवाज़ें लगभग उतने ही समय में बन जाती हैं, जितना एक की लगती है:
मल्टी-वॉइस ElevenLabs एजेंट बनाना
वॉइस बन जाने के बाद अगला स्टेप है ElevenLabs एजेंट को सेटअप करना, जो रियल-टाइम में किरदारों की आवाज़ बदल सके।
मल्टी-वॉइस स्विचिंग
supportedVoices ऐरे एजेंट को बताता है कि कौन-कौन सी आवाज़ें उपलब्ध हैं। Agents प्लेटफॉर्म वॉइस स्विचिंग खुद ही संभालता है – जब LLM के जवाब से पता चलता है कि कोई दूसरा किरदार बोल रहा है, तो TTS इंजन उस हिस्से को सही वॉइस में भेज देता है।
ग्रुप कन्वर्सेशन के लिए प्रॉम्प्ट इंजीनियरिंग
कई किरदारों को असली ग्रुप जैसा महसूस कराने के लिए – न कि सिर्फ सवाल-जवाब – प्रॉम्प्ट को सोच-समझकर डिजाइन करना पड़ता है:
WebRTC पर रियल-टाइम वॉइस
आखिरी हिस्सा है क्लाइंट कनेक्शन। ElevenLabs Agents WebRTC सपोर्ट करते हैं, जिससे वॉइस कन्वर्सेशन में बहुत कम लेटेंसी रहती है – यह WebSocket कनेक्शन से तेज़ है, जिससे बातचीत और नेचुरल लगती है।
सर्वर-साइड: कन्वर्सेशन टोकन लें
क्लाइंट-साइड: सेशन शुरू करें
useConversation हुक ऑडियो कैप्चर, स्ट्रीमिंग, वॉइस एक्टिविटी डिटेक्शन और प्लेबैक संभालता है।
वेब सर्च से रिसर्च को गहराई दें
अगर यूज़र बातचीत शुरू करने से पहले ज़्यादा ऐतिहासिक जानकारी चाहते हैं, तो आप OpenAI के वेब सर्च टूल से एक एडवांस्ड रिसर्च मोड जोड़ सकते हैं:
हमने क्या सीखा
इस प्रोजेक्ट से पता चलता है कि जब हम AI के अलग-अलग मोड – टेक्स्ट, रिसर्च, विज़न और ऑडियो – को जोड़ते हैं, तो ऐसे अनुभव बना सकते हैं जो डिजिटल और असली दुनिया, दोनों को जोड़ते हैं। मल्टी-मोडल एजेंट्स में बहुत संभावनाएं हैं, जिन्हें हम चाहते हैं कि और लोग एजुकेशन, काम और मज़े के लिए एक्सप्लोर करें।
शुरू करें
इस प्रोजेक्ट में इस्तेमाल हुए API – वॉइस डिज़ाइन,ElevenAgents, और OpenAI – ये सभी अभी उपलब्ध हैं।



.webp&w=3840&q=80)
