
ElevenAgent के ऑर्केस्ट्रेशन इंजन की गहराई से समझ
जानिए ElevenAgents कैसे कॉन्टेक्स्ट, टूल्स और वर्कफ़्लो को मैनेज करते हैं ताकि रियल-टाइम, एंटरप्राइज़-ग्रेड बातचीत मिल सके।
पाँच मुख्य वॉइस एजेंट आर्किटेक्चर और रीजनिंग, कंट्रोल और नैचुरलनेस के बीच समझौते की जानकारी।
ElevenAgents को लो-लेटेंसी ऑर्केस्ट्रेशन इंजन से पावर मिलता है, जिसे खासतौर पर रियल-टाइम बातचीत के लिए बनाया गया है और इसमें 100ms से भी कम ओवरहेड जुड़ता है। इस आर्किटेक्चर में ElevenLabs की रिसर्च और OpenAI, Google, Anthropic जैसे लीडिंग प्रोवाइडर्स के फ्रंटियर LLMs के साथ-साथ ElevenLabs द्वारा होस्ट किए गए चुनिंदा ओपन-सोर्स मॉडल्स को जोड़ा गया है। जवाब देने की प्रक्रिया के अलग-अलग स्टेज पर कई मॉडल्स का इस्तेमाल करके, एजेंट बातचीत को तेज़ और कॉन्टेक्स्ट के हिसाब से सही बनाता है। हर मॉडल की ताकत को सही समय पर इस्तेमाल करके, हम अलग-अलग एंटरप्राइज़ टास्क्स और कन्वर्सेशनल सिचुएशंस में भरोसेमंद, स्केलेबल परफॉर्मेंस पाते हैं, साथ ही इंटेलिजेंस, स्पीड और लागत का सही संतुलन भी रखते हैं।
एजेंट की आर्किटेक्चर यह तय करने में मदद करती है कि उसकी प्रतिक्रियाएँ कितनी नेचुरल, इंटेलिजेंट और कंसिस्टेंट हैं, और क्या वह समय के साथ प्रेडिक्टेबल तरीके से व्यवहार करता है। उदाहरण के लिए, फ्यूजन-बेस्ड आर्किटेक्चर से बना एजेंट छोटी बातचीत में बहुत लाइफलाइक लग सकता है, लेकिन लंबी बातचीत में रीजनिंग या कंसिस्टेंसी में दिक्कत आ सकती है।
इस पोस्ट में, हम आज के पाँच मुख्य कन्वर्सेशनल एजेंट आर्किटेक्चर के बारे में बताते हैं—उनकी कोर डिज़ाइन, फायदे-नुकसान, और टीमें अपने गोल्स के हिसाब से इनमें से कैसे चुनती हैं।टूल्स और एक नॉलेज बेस होता है। जब आपके यूज़ केस में स्टेप्स के सख्त क्रम की ज़रूरत कम हो या एजेंट्स के बीच नॉलेज साइलो से बचना जरूरी हो, तो इंडिपेंडेंट एजेंट्स वर्कफ़्लो से बेहतर होते हैं। नॉलेज साइलो तब बनते हैं जब कुछ टूल्स, डॉक्युमेंट्स या हिस्टोरिकल कॉन्टेक्स्ट कुछ सब-एजेंट्स को तो मिलते हैं, लेकिन दूसरों को नहीं। ये मल्टी-एजेंट वर्कफ़्लो में आम हैं और फ्लेक्सिबिलिटी व डिटरमिनिज्म के बीच समझौता लाते हैं।
एजेंट बनाते समय टीम्स किस चीज़ को बेहतर बनाती हैं
हालांकि टीम्स कंकरेन्सी, इंटीग्रेशन और वॉइस क्वालिटी जैसी चीज़ों की भी परवाह करती हैं, लेकिन ऊपर बताए गए पहलुओं को एजेंट की आर्किटेक्चर से सीधे प्रभावित किया जा सकता है। सबसे सफल टीम्स अपनी आर्किटेक्चर को अपने यूज़ केस के हिसाब से इन पहलुओं के लिए ऑप्टिमाइज़ करती हैं।

कैस्केड-बेस्ड आर्किटेक्चर में अलग-अलग स्पेशलाइज्ड कंपोनेंट्स को जोड़ा जाता है: , एक बड़ा लैंग्वेज मॉडल, और टेक्स्ट टू स्पीच. हर स्टेज को अलग से ऑप्टिमाइज़, टेस्ट और अपग्रेड किया जा सकता है।पिछली पोस्ट में डिटेल में बताया है। इससे डॉक्युमेंट्स को भरोसेमंद तरीके से निकाला जा सकता है, भले ही यूज़र का लेटेस्ट इनपुट फॉलो-अप हो, क्लैरिफिकेशन की पुष्टि हो या उसमें कोई सीधा सवाल न हो।
हालांकि, रिट्रीवल सिर्फ एक तरीका है जिससे एजेंट्स बाहरी सिस्टम्स से इंटरैक्ट करते हैं।
वहीं, फ्यूज्ड अप्रोच इन स्टेप्स को एक ही मल्टीमोडल मॉडल में जोड़ देती है। ऑडियो इनपुट जाता है और ऑडियो आउटपुट आता है, जिसमें स्पीच रिकग्निशन, रीजनिंग और जेनरेशन सब एक ही नेटवर्क के अंदर होता है। जैसे-जैसे और टूल्स जुड़ते हैं, सही क्रम में टूल्स कॉल करने की जिम्मेदारी मॉडल पर बढ़ती जाती है। Agent Builder में, टूल का डिस्क्रिप्शन बताता है कि टूल क्या करता है और कौन से फील्ड्स रिटर्न करता है। यही जानकारी लैंग्वेज मॉडल को उसके इस्तेमाल का कॉन्टेक्स्ट समझने में मदद करती है। एक बार टूल डिफाइन हो जाए, तो उसे कब कॉल करना है, ये एजेंट के सिस्टम प्रॉम्प्ट में लिखा जाता है। उदाहरण के लिए:
इस डिजाइन से फ्यूजन-बेस्ड आर्किटेक्चर प्रोसोडी को ज़्यादा अच्छे से पकड़ और दोहरा सकते हैं, क्योंकि मॉडल सीधे उच्चारण और इंटोनेशन प्रोसेस करता है। लेकिन फ्यूज्ड मॉडल्स को टेस्ट और कंट्रोल करना मुश्किल होता है, क्योंकि इंटरमीडिएट आउटपुट्स दिखते नहीं हैं। ये आमतौर पर हल्के LLM कोर पर निर्भर करते हैं, जिससे रीजनिंग और टूल-कॉलिंग की क्षमता सीमित हो जाती है, जबकि कैस्केडेड अप्रोच में सबसे स्ट्रॉन्ग मॉडल्स को जोड़ा जा सकता है।प्रॉम्प्टिंग गाइड में और जानकारी दी है। इस फ्रेमवर्क में कई तरह के टूल्स डिफाइन किए जा सकते हैं, जैसे:
पाँच संभावित आर्किटेक्चरडायनामिक वेरिएबल के रूप में भी अपडेट कर सकता है। यह जानकारी सिंपल की-वैल्यू पेयर के रूप में सेव होती है, जो टूल के रिस्पॉन्स से प्री-डिफाइंड मैपिंग के ज़रिए निकाली जाती है। एक बार सेट होने के बाद, ये वेरिएबल्स एजेंट के सिस्टम प्रॉम्प्ट, भविष्य के टूल पैरामीटर्स और वर्कफ़्लो कंडीशन्स में इस्तेमाल हो सकते हैं। यह फीडबैक लूप एजेंट्स को एक तरह की वर्किंग मेमोरी देता है, जो बातचीत के साथ बदलती रहती है।
1. बेसिक कैस्केडेड
एक्जीक्यूशन और ऑर्केस्ट्रेशन सेट होने के बाद, अगला स्टेप है परफॉर्मेंस को मापना।
हालांकि, एजेंट स्पीच की बारीकियों जैसे टोन, रिदम और इमोशन को नहीं पहचानता, जिससे बातचीत उतनी नैचुरल नहीं लगती।डेटा कलेक्शन और इवैल्यूएशन क्राइटेरिया काम आते हैं। डेटा कलेक्शन आपको कॉल ट्रांसक्रिप्ट से स्ट्रक्चर्ड जानकारी निकालने देता है, जिसे आगे एनालिसिस या एग्रीगेशन के लिए इस्तेमाल किया जा सकता है। ग्राहक अक्सर इन आउटपुट्स को अपने एंटरप्राइज़ डेटा लेकहाउस में रिपोर्टिंग या एनरिचमेंट वर्कफ़्लो के लिए एक्सपोर्ट करते हैं। उदाहरण के लिए, कोई सेल्स डेवेलपमेंट एजेंट बातचीत से खुद-ब-खुद संभावित ग्राहक की डिटेल्स निकाल सकता है, ताकि CRM सिस्टम में लीड बना या अपडेट कर सके। वहीं, इवैल्यूएशन क्राइटेरिया तय करते हैं कि कॉल सफल मानी जाए या नहीं। अगर सभी सेट किए गए क्राइटेरिया पूरे हो जाते हैं, तो कॉल सफल मानी जाती है; वरना उसे फेल के रूप में मार्क किया जाता है। इससे बातचीत हमेशा तय क्वालिटी और इंटेग्रिटी स्टैंडर्ड्स पर खरी उतरती है और फीडबैक भी जल्दी मिलता है। जैसे ही कॉल खत्म होती है और पोस्ट-कॉल वेबहुक ट्रिगर होता है, एजेंट फाइनल ट्रांसक्रिप्ट (जिसमें टूल एक्जीक्यूशन और मेटाडेटा भी शामिल है) को LLM के ज़रिए सभी डेटा कलेक्शन पॉइंट्स और इवैल्यूएशन क्राइटेरिया के साथ प्रोसेस करता है। मॉडल इस कंबाइंड प्रॉम्प्ट से तय करता है कि हर इवैल्यूएशन क्राइटेरिया पूरा हुआ या नहीं, और बताए गए डेटा पॉइंट्स को आगे एनालिसिस के लिए निकालता है। क्योंकि LLM इन सेटिंग्स को सीधे अपने इनपुट प्रॉम्प्ट के हिस्से के रूप में पढ़ता है, इसलिए इन्हें साफ और एक जैसा फॉर्मेट करना जरूरी है, ताकि मॉडल इन्हें सही से समझ और लागू कर सके। इसी वजह से हम इवैल्यूएशन क्राइटेरिया और डेटा कलेक्शन डिस्क्रिप्शन लिखने के लिए ये बेस्ट प्रैक्टिसेस सुझाते हैं।
संभावित यूज़ केस:
2. एडवांस्ड कैस्केडेड
एडवांस्ड कैस्केडेड आर्किटेक्चर में कॉन्टेक्स्टुअल TTS आता है, जहाँ LLM सिर्फ क्या कहना है ही नहीं, बल्कि कैसे कहना है, यह भी तय करता है, जैसे "यह बात भरोसे के साथ कहें" या "जवाब में ज़ोर दें" जैसी इंस्ट्रक्शन TTS मॉडल को भेजता है। एजेंट ज़्यादा रियलिस्टिक टोन और स्टाइल में बोलता है, जबकि बेसिक कैस्केडेड सिस्टम की तरह ही गार्डरेल्स, डिटरमिनिस्टिक फ्लो, टूल यूज़ और ऑडिटेबिलिटी बनी रहती है।
यह तरीका
कस्टमर सपोर्ट जटिल बातचीत के फ्लो डिज़ाइन करने के लिए विज़ुअल इंटरफेस देते हैं। आखिरकार, यह वही लॉजिकल ऑब्जेक्ट बनाता है जिसे ऑर्केस्ट्रेटर कई सबएजेंट्स, टूल्स और ट्रांसफर को एक इंडिपेंडेंट एजेंट आईडी के तहत मैनेज करने के लिए इस्तेमाल करता है। वर्कफ़्लो में इंडिपेंडेंट एजेंट्स के अलावा और भी चीजें जुड़ती हैं, जैसे:
कुछ कैस्केडेड आर्किटेक्चर इनपुट स्पीच से एकॉस्टिक फीचर्स (जैसे उच्चारण, इमोशन, टोन) को सीधे LLM में एम्बेडिंग्स के रूप में भेजते हैं। इस आर्किटेक्चर से यूज़र की असली मंशा ज्यादा बनी रहती है, साथ ही TTS भी मॉड्युलर रहता है। टूल यूज़ और गार्डरेल्स अब भी संभव हैं, लेकिन फ्यूज्ड ASR+LLM ब्लॉक को ऑडिट करना क्लीन टेक्स्ट हैंडऑफ की तुलना में मुश्किल होता है, और LLM को उतनी आसानी से बदला नहीं जा सकता जितना कैस्केडेड मॉडल में।

इस साझा आधार पर, वर्कफ़्लो में स्पेशलाइज्ड सब-एजेंट्स होते हैं, जो एक डायरेक्टेड ग्राफ में काम करते हैं। हर सब-एजेंट को एक सीमित उद्देश्य दिया जाता है और वह बेस कॉन्फ़िगरेशन में अपनी भूमिका के हिसाब से अतिरिक्त प्रॉम्प्ट इंस्ट्रक्शंस, टूल्स और नॉलेज सोर्सेज जोड़ता है। पूरी बातचीत की सेटिंग फिर से डिफाइन करने के बजाय, सब-एजेंट्स अपने इरादे को बेस एजेंट पर प्रॉम्प्ट कंपोजिशन और सिलेक्टिव कॉन्टेक्स्ट एक्सटेंशन के ज़रिए जोड़ते हैं। सब-एजेंट ट्रांजिशन के दौरान बातचीत का इतिहास बना रहता है, ताकि बातचीत में निरंतरता बनी रहे, लेकिन हर सब-एजेंट सिस्टम का सीमित हिस्सा ही देखता है। नॉलेज बेस और टूल्स चुनिंदा तौर पर दिखाए जाते हैं, जिससे जिम्मेदारियों के बीच साफ साइलो बनते हैं और जानकारी लीक नहीं होती। इस आइसोलेशन को मजबूत करने के लिए, हर ट्रांजिशन पर ऑर्केस्ट्रेटर ऑब्जेक्ट फिर से बनाया जाता है, जैसे वह एक इंडिपेंडेंट एजेंट हो। इससे एक्टिव सब-एजेंट का प्रॉम्प्ट स्टेट, कॉन्फ़िगरेशन और उपलब्ध क्षमताएं पूरी तरह डिटरमिनिस्टिक रहती हैं। इस डिज़ाइन से वर्कफ़्लो ग्लोबल स्थिरता बनाए रखते हैं, साथ ही लोकल स्पेशलाइजेशन भी सपोर्ट करते हैं, जिससे व्यवहार अनुमानित, जिम्मेदारियां साफ और हर स्टेज पर कॉन्टेक्स्ट, नॉलेज और एक्शन का कंट्रोल सटीक रहता है।
4. सीक्वेंशियल फ्यूज्ड
सीक्वेंशियल फ्यूज्ड आर्किटेक्चर में, एक ही मल्टीमोडल मॉडल रिकग्निशन, रीजनिंग और स्पीच जेनरेशन संभालता है। एक बार में एक टर्न पर काम करते हुए, मॉडल यूज़र के खत्म होने तक सुनता है, फिर सीधे ऑडियो बनाता है। ऑडियो को एंड-टू-एंड प्रोसेस करने से ये आर्किटेक्चर उच्चारण, गति और इंटोनेशन जैसी चीज़ों को नैचुरली पकड़ते हैं, जिससे स्पीच डिलीवरी ज़्यादा फ्लूइड और एक्सप्रेसिव होती है।
हालांकि, समझौता यह है कि बिना टेक्स्ट लेयर के गार्डरेल्स लागू करना मुश्किल है, हल्के रीजनिंग कोर के कारण टूल यूज़ सीमित है, और इंटरमीडिएट आउटपुट्स न होने से ऑब्ज़र्वेबिलिटी भी कम है।
जब बातचीत नए स्टेज पर जाती है, तो सिस्टम उस स्टेप के लिए खास एजेंट वर्जन एक्टिव करता है। हर स्टेज अपनी फोकस्ड इंस्ट्रक्शंस और सिर्फ उसी जिम्मेदारी से जुड़ी नॉलेज और टूल्स के साथ काम करता है। उदाहरण के लिए, रिफंड हैंडलिंग स्टेज रिफंड पॉलिसी देख सकता है, लेकिन ऑनबोर्डिंग या ट्रायेज का कॉन्टेक्स्ट नहीं लेता। स्टेज के बीच मूवमेंट एक्सप्लिसिट ट्रांजिशन कंडीशन्स से कंट्रोल होता है। ये कंडीशन्स तय करती हैं कि जिम्मेदारी कब शिफ्ट हो और बातचीत के साथ-साथ रूटिंग डिसीजन नैचुरली हो सकें। निरंतरता बनाए रखने के लिए, यूज़र का अनुभव ट्रांजिशन के दौरान भी स्मूद रहता है, हर स्टेज में जरूरी बातचीत का कॉन्टेक्स्ट मिल जाता है, लेकिन हैंडऑफ की डिटेल्स नहीं दिखतीं। ट्रांजिशन पर सेफगार्ड्स भी नजर रखते हैं, ताकि बेकार के रूटिंग साइकल्स न हों और वर्कफ़्लो स्थिर और लक्ष्य की ओर बढ़ता रहे।
5. डुप्लेक्स फ्यूज्ड
डुप्लेक्स फ्यूज्ड आर्किटेक्चर में, मॉडल इनपुट और आउटपुट को एक साथ प्रोसेस करता है। इससे सबसे इंसान-जैसी कन्वर्सेशनल फ्लो मिल सकती है, जिसमें छोटी बातचीत के दौरान असली ओवरलैपिंग स्पीच होती है, लेकिन इसमें काफी जटिलता भी आ जाती है। गार्डरेल्स लागू करना मुश्किल है, क्रॉसटॉक और इंटरप्शन से गलतियाँ हो सकती हैं, और कैस्केड-बेस्ड आर्किटेक्चर की तुलना में ऑब्ज़र्वेबिलिटी बहुत कम है।
कभी-कभी स्पीकर्स एजेंट के साथ संवेदनशील जानकारी शेयर कर सकते हैं, जिस पर सख्त स्टोरेज और प्रोसेसिंग नियम लागू होते हैं, जैसे मेडिकल डेटा जिसे HIPAA-कंप्लायंट हैंडलिंग चाहिए। ऐसे यूज़ केस के लिए हम Agent या Workspace लेवल पर Zero Retention Mode (ZRM) ऑफर करते हैं। जब यह ऑन होता है, तो सारी कॉल डेटा सिर्फ मेमोरी में प्रोसेस होती है और कभी भी परमानेंट स्टोरेज में नहीं जाती। कॉल और प्रोसेसिंग खत्म होते ही ElevenLabs के पास कोई जानकारी नहीं रहती। नतीजतन, ट्रांसक्रिप्ट, ऑडियो रिकॉर्डिंग और एनालिसिस आउटपुट्स Agents डैशबोर्ड में उपलब्ध नहीं होते, और यह पॉलिसी कस्टमर-फेसिंग सिस्टम्स और इंटरनल लॉग्स दोनों पर लागू होती है। हालांकि डेटा सेव नहीं होता, कॉल के दौरान प्रोसेस होता है, और कोई भी पोस्ट-कॉल वेबहुक आउटपुट्स पा सकता है, जिससे ग्राहक जरूरत हो तो अपने सिस्टम में ट्रांसक्रिप्ट या एनालिसिस रिजल्ट सेव कर सकते हैं।
अपने यूज़ केस के लिए सही आर्किटेक्चर चुनना
इस पोस्ट में हमने देखा कि ElevenLabs एजेंट्स कैसे बातचीत का कॉन्टेक्स्ट, टूल्स, इवैल्यूएशन और स्ट्रक्चर्ड वर्कफ़्लो मैनेज करते हैं, ताकि बड़े पैमाने पर भरोसेमंद, रियल-टाइम अनुभव मिल सके। जैसे-जैसे ग्राहक एजेंट्स को और जटिल माहौल में तैनात करते हैं, हम अपने ऑर्केस्ट्रेशन इंजन की फ्लेक्सिबिलिटी बढ़ाते जा रहे हैं—कस्टमाइज़ेबल इवैल्यूएशन मॉडल्स, बेहतर ट्रांजिशन कंट्रोल्स और हर स्टेज पर प्रॉम्प्ट कंपोजिशन व टोकन यूसेज की डीप ऑब्ज़र्वेबिलिटी के साथ।
हमारी फॉरवर्ड डिप्लॉयड इंजीनियरिंग टीम ग्राहकों के साथ मिलकर काम कर रही है ताकि ये क्षमताएं रियल-वर्ल्ड डिप्लॉयमेंट्स के साथ-साथ विकसित हों। अगली पीढ़ी के एजेंट्स और भी ज्यादा पारदर्शिता, डिटरमिनिज्म और अनुकूलता देंगे, वो भी उसी लो-लेटेंसी परफॉर्मेंस के साथ, जो रियल-टाइम बातचीत को संभव बनाती है।

जानिए ElevenAgents कैसे कॉन्टेक्स्ट, टूल्स और वर्कफ़्लो को मैनेज करते हैं ताकि रियल-टाइम, एंटरप्राइज़-ग्रेड बातचीत मिल सके।

अब और ज्यादा एक्सप्रेसिव वॉइस एजेंट्स, असली ग्राहकों से बातचीत के लिए तैयार।