
ElevenAgent के ऑर्केस्ट्रेशन इंजन की गहराई से समझ
जानिए ElevenAgents कैसे कॉन्टेक्स्ट, टूल्स और वर्कफ़्लो को मैनेज करते हैं ताकि रियल-टाइम, एंटरप्राइज़-ग्रेड बातचीत मिल सके।
पाँच वॉइस एजेंट आर्किटेक्चर और ट्रस्ट, कन्फ़िगर करने की सुविधा, और बातचीत की क्वालिटी के बीच समझौते की पूरी जानकारी।
ElevenAgents को लो-लेटेंसी ऑर्केस्ट्रेशन इंजन से पावर मिलता है, जिसे खासतौर पर रियल-टाइम बातचीत के लिए बनाया गया है और इसमें 100ms से भी कम ओवरहेड जुड़ता है। इस आर्किटेक्चर में ElevenLabs की रिसर्च और OpenAI, Google, Anthropic जैसे लीडिंग प्रोवाइडर्स के फ्रंटियर LLMs के साथ-साथ ElevenLabs द्वारा होस्ट किए गए चुनिंदा ओपन-सोर्स मॉडल्स को जोड़ा गया है। जवाब देने की प्रक्रिया के अलग-अलग स्टेज पर कई मॉडल्स का इस्तेमाल करके, एजेंट बातचीत को तेज़ और कॉन्टेक्स्ट के हिसाब से सही बनाता है। हर मॉडल की ताकत को सही समय पर इस्तेमाल करके, हम अलग-अलग एंटरप्राइज़ टास्क्स और कन्वर्सेशनल सिचुएशंस में भरोसेमंद, स्केलेबल परफॉर्मेंस पाते हैं, साथ ही इंटेलिजेंस, स्पीड और लागत का सही संतुलन भी रखते हैं।
एजेंट की आर्किटेक्चर यह तय करती है कि वह प्रोडक्शन में कितनी भरोसेमंद है, बिज़नेस की ज़रूरतों के हिसाब से कितनी आसानी से ढल सकती है, और बातचीत में कितनी नैचुरल लगती है। फ्यूजन-बेस्ड आर्किटेक्चर, जैसे OpenAI का Realtime मॉडल, छोटी बातचीत में काफी असली लग सकता है। लेकिन जब टीम्स को कंप्लायंस गार्डरेल लागू करने हों, फेल्ड रिस्पॉन्स को डिबग करना हो, या अगले महीने नया और बेहतर LLM जोड़ना हो, तो एक सिंगल फ्यूज्ड नेटवर्क में आगे बढ़ने के ज्यादा रास्ते नहीं होते।
इस आर्टिकल में हम पाँच मुख्य आर्किटेक्चर, उनकी खासियतें, उनकी सीमाएँ, और हम एजेंट्स की नींव के बारे में कैसे सोचते हैं, यह सब बताएंगे, खासकर जब उन्हें क्रिटिकल वर्कफ़्लोज़ में इस्तेमाल किया जाता है।टूल्स और एक नॉलेज बेस होता है। जब आपके यूज़ केस में स्टेप्स के सख्त क्रम की ज़रूरत कम हो या एजेंट्स के बीच नॉलेज साइलो से बचना जरूरी हो, तो इंडिपेंडेंट एजेंट्स वर्कफ़्लो से बेहतर होते हैं। नॉलेज साइलो तब बनते हैं जब कुछ टूल्स, डॉक्युमेंट्स या हिस्टोरिकल कॉन्टेक्स्ट कुछ सब-एजेंट्स को तो मिलते हैं, लेकिन दूसरों को नहीं। ये मल्टी-एजेंट वर्कफ़्लो में आम हैं और फ्लेक्सिबिलिटी व डिटरमिनिज्म के बीच समझौता लाते हैं।
टीम्स आर्किटेक्चर चुनते समय क्या देखते हैं
हालांकि टीम्स कंकरेन्सी, इंटीग्रेशन और वॉइस क्वालिटी जैसी चीज़ों की भी परवाह करती हैं, लेकिन ऊपर बताए गए पहलुओं को एजेंट की आर्किटेक्चर से सीधे प्रभावित किया जा सकता है। सबसे सफल टीम्स अपनी आर्किटेक्चर को अपने यूज़ केस के हिसाब से इन पहलुओं के लिए ऑप्टिमाइज़ करती हैं।

कैस्केड-बेस्ड आर्किटेक्चर में अलग-अलग स्पेशलाइज्ड कंपोनेंट्स को जोड़ा जाता है: , एक बड़ा लैंग्वेज मॉडल, और टेक्स्ट टू स्पीच. हर स्टेज को अलग से ऑप्टिमाइज़, टेस्ट और अपग्रेड किया जा सकता है।पिछली पोस्ट में डिटेल में बताया है। इससे डॉक्युमेंट्स को भरोसेमंद तरीके से निकाला जा सकता है, भले ही यूज़र का लेटेस्ट इनपुट फॉलो-अप हो, क्लैरिफिकेशन की पुष्टि हो या उसमें कोई सीधा सवाल न हो।
क्या मैं इसे प्रोडक्शन में ट्रस्ट कर सकता हूँ?
कैस्केडेड और फ्यूज्ड आर्किटेक्चर के बीच समझौते जैसे-जैसे और टूल्स जुड़ते हैं, सही क्रम में टूल्स कॉल करने की जिम्मेदारी मॉडल पर बढ़ती जाती है। Agent Builder में, टूल का डिस्क्रिप्शन बताता है कि टूल क्या करता है और कौन से फील्ड्स रिटर्न करता है। यही जानकारी लैंग्वेज मॉडल को उसके इस्तेमाल का कॉन्टेक्स्ट समझने में मदद करती है। एक बार टूल डिफाइन हो जाए, तो उसे कब कॉल करना है, ये एजेंट के सिस्टम प्रॉम्प्ट में लिखा जाता है। उदाहरण के लिए:
इस डिजाइन से फ्यूजन-बेस्ड आर्किटेक्चर प्रोसोडी को ज़्यादा अच्छे से पकड़ और दोहरा सकते हैं, क्योंकि मॉडल सीधे उच्चारण और इंटोनेशन प्रोसेस करता है। लेकिन फ्यूज्ड मॉडल्स को टेस्ट और कंट्रोल करना मुश्किल होता है, क्योंकि इंटरमीडिएट आउटपुट्स दिखते नहीं हैं। ये आमतौर पर हल्के LLM कोर पर निर्भर करते हैं, जिससे रीजनिंग और टूल-कॉलिंग की क्षमता सीमित हो जाती है, जबकि कैस्केडेड अप्रोच में सबसे स्ट्रॉन्ग मॉडल्स को जोड़ा जा सकता है।प्रॉम्प्टिंग गाइड में और जानकारी दी है। इस फ्रेमवर्क में कई तरह के टूल्स डिफाइन किए जा सकते हैं, जैसे:
कैस्केडेड आर्किटेक्चर की पुरानी आलोचना यह है कि इसमें प्रोसोदिक क्यूज़ खो जाते हैं। स्पीच को टेक्स्ट में बदल दिया जाता है, और इंटोनेशन, रिद्म, और इमोशन को आउटपुट साइड पर फिर से बनाना पड़ता है। ये क्यूज़ एक्सप्लिसिट मॉडलिंग से कुछ हद तक वापस लाए जा सकते हैं, लेकिन फ्यूज्ड अप्रोच जितने नैचुरल नहीं होते। लेटेंसी और टर्न-टेकिंग जैसी दूसरी चीज़ें दोनों अप्रोच में आमतौर पर बराबर स्तर तक ऑप्टिमाइज़ की जा सकती हैं।डायनामिक वेरिएबल के रूप में भी अपडेट कर सकता है। यह जानकारी सिंपल की-वैल्यू पेयर के रूप में सेव होती है, जो टूल के रिस्पॉन्स से प्री-डिफाइंड मैपिंग के ज़रिए निकाली जाती है। एक बार सेट होने के बाद, ये वेरिएबल्स एजेंट के सिस्टम प्रॉम्प्ट, भविष्य के टूल पैरामीटर्स और वर्कफ़्लो कंडीशन्स में इस्तेमाल हो सकते हैं। यह फीडबैक लूप एजेंट्स को एक तरह की वर्किंग मेमोरी देता है, जो बातचीत के साथ बदलती रहती है।
1. बेसिक कैस्केडेड
फ्यूज्ड आर्किटेक्चर बिल्कुल अलग तरीका अपनाते हैं। रिकग्निशन, रीजनिंग और जेनरेशन सब एक ही मल्टीमोडल नेटवर्क के अंदर होता है। ऑडियो अंदर जाता है, ऑडियो बाहर आता है, बीच में कोई इंस्पेक्टेबल लेयर नहीं होती।
पाँच आर्किटेक्चरडेटा कलेक्शन और इवैल्यूएशन क्राइटेरिया काम आते हैं। डेटा कलेक्शन आपको कॉल ट्रांसक्रिप्ट से स्ट्रक्चर्ड जानकारी निकालने देता है, जिसे आगे एनालिसिस या एग्रीगेशन के लिए इस्तेमाल किया जा सकता है। ग्राहक अक्सर इन आउटपुट्स को अपने एंटरप्राइज़ डेटा लेकहाउस में रिपोर्टिंग या एनरिचमेंट वर्कफ़्लो के लिए एक्सपोर्ट करते हैं। उदाहरण के लिए, कोई सेल्स डेवेलपमेंट एजेंट बातचीत से खुद-ब-खुद संभावित ग्राहक की डिटेल्स निकाल सकता है, ताकि CRM सिस्टम में लीड बना या अपडेट कर सके। वहीं, इवैल्यूएशन क्राइटेरिया तय करते हैं कि कॉल सफल मानी जाए या नहीं। अगर सभी सेट किए गए क्राइटेरिया पूरे हो जाते हैं, तो कॉल सफल मानी जाती है; वरना उसे फेल के रूप में मार्क किया जाता है। इससे बातचीत हमेशा तय क्वालिटी और इंटेग्रिटी स्टैंडर्ड्स पर खरी उतरती है और फीडबैक भी जल्दी मिलता है। जैसे ही कॉल खत्म होती है और पोस्ट-कॉल वेबहुक ट्रिगर होता है, एजेंट फाइनल ट्रांसक्रिप्ट (जिसमें टूल एक्जीक्यूशन और मेटाडेटा भी शामिल है) को LLM के ज़रिए सभी डेटा कलेक्शन पॉइंट्स और इवैल्यूएशन क्राइटेरिया के साथ प्रोसेस करता है। मॉडल इस कंबाइंड प्रॉम्प्ट से तय करता है कि हर इवैल्यूएशन क्राइटेरिया पूरा हुआ या नहीं, और बताए गए डेटा पॉइंट्स को आगे एनालिसिस के लिए निकालता है। क्योंकि LLM इन सेटिंग्स को सीधे अपने इनपुट प्रॉम्प्ट के हिस्से के रूप में पढ़ता है, इसलिए इन्हें साफ और एक जैसा फॉर्मेट करना जरूरी है, ताकि मॉडल इन्हें सही से समझ और लागू कर सके। इसी वजह से हम इवैल्यूएशन क्राइटेरिया और डेटा कलेक्शन डिस्क्रिप्शन लिखने के लिए ये बेस्ट प्रैक्टिसेस सुझाते हैं।
1. बेसिक कैस्केडेड
ऑडियो ट्रांसक्राइब होता है, LLM टेक्स्ट रिप्लाई जनरेट करता है, और TTS उसे बोलता है। हर स्टेज सिंपल टेक्स्ट पर काम करता है, इसलिए आप सबकुछ देख, टेस्ट और कंट्रोल कर सकते हैं।
उदाहरण यूज़ केस:
यह तरीका
कस्टमर सपोर्ट जटिल बातचीत के फ्लो डिज़ाइन करने के लिए विज़ुअल इंटरफेस देते हैं। आखिरकार, यह वही लॉजिकल ऑब्जेक्ट बनाता है जिसे ऑर्केस्ट्रेटर कई सबएजेंट्स, टूल्स और ट्रांसफर को एक इंडिपेंडेंट एजेंट आईडी के तहत मैनेज करने के लिए इस्तेमाल करता है। वर्कफ़्लो में इंडिपेंडेंट एजेंट्स के अलावा और भी चीजें जुड़ती हैं, जैसे:
यह आर्किटेक्चर बेसिक कैस्केडेड की सारी खूबियाँ रखता है: फुल ट्रांसपेरेंसी, टेक्स्ट-लेयर गार्डरेल्स, कंपोनेंट्स बदलने की सुविधा, डोमेन-ट्यूनिंग, और सबसे स्ट्रॉन्ग टूल-कॉलिंग और रीजनिंग मॉडल्स तक एक्सेस। इसमें बेहतर प्रोसोदी, लेटेंसी और टर्न-टेकिंग भी मिलती है। टीमें नया फ्रंटियर LLM जैसे ही आए, इंटीग्रेट कर सकती हैं, या हेल्थकेयर के लिए STT को फाइन-ट्यून कर सकती हैं, बिना बाकी कंपोनेंट्स को बदले।

इस साझा आधार पर, वर्कफ़्लो में स्पेशलाइज्ड सब-एजेंट्स होते हैं, जो एक डायरेक्टेड ग्राफ में काम करते हैं। हर सब-एजेंट को एक सीमित उद्देश्य दिया जाता है और वह बेस कॉन्फ़िगरेशन में अपनी भूमिका के हिसाब से अतिरिक्त प्रॉम्प्ट इंस्ट्रक्शंस, टूल्स और नॉलेज सोर्सेज जोड़ता है। पूरी बातचीत की सेटिंग फिर से डिफाइन करने के बजाय, सब-एजेंट्स अपने इरादे को बेस एजेंट पर प्रॉम्प्ट कंपोजिशन और सिलेक्टिव कॉन्टेक्स्ट एक्सटेंशन के ज़रिए जोड़ते हैं। सब-एजेंट ट्रांजिशन के दौरान बातचीत का इतिहास बना रहता है, ताकि बातचीत में निरंतरता बनी रहे, लेकिन हर सब-एजेंट सिस्टम का सीमित हिस्सा ही देखता है। नॉलेज बेस और टूल्स चुनिंदा तौर पर दिखाए जाते हैं, जिससे जिम्मेदारियों के बीच साफ साइलो बनते हैं और जानकारी लीक नहीं होती। इस आइसोलेशन को मजबूत करने के लिए, हर ट्रांजिशन पर ऑर्केस्ट्रेटर ऑब्जेक्ट फिर से बनाया जाता है, जैसे वह एक इंडिपेंडेंट एजेंट हो। इससे एक्टिव सब-एजेंट का प्रॉम्प्ट स्टेट, कॉन्फ़िगरेशन और उपलब्ध क्षमताएं पूरी तरह डिटरमिनिस्टिक रहती हैं। इस डिज़ाइन से वर्कफ़्लो ग्लोबल स्थिरता बनाए रखते हैं, साथ ही लोकल स्पेशलाइजेशन भी सपोर्ट करते हैं, जिससे व्यवहार अनुमानित, जिम्मेदारियां साफ और हर स्टेज पर कॉन्टेक्स्ट, नॉलेज और एक्शन का कंट्रोल सटीक रहता है।
3. हाइब्रिड कैस्केडेड और फ्यूज्ड
कुछ आर्किटेक्चर इनपुट स्पीच से एकॉस्टिक फीचर्स (उच्चारण, इमोशन, टोन) को सीधे LLM में एम्बेडिंग के रूप में भेजते हैं, पहले टेक्स्ट में बदले बिना। TTS मॉड्युलर रहता है।
यह LLM को
उदाहरण यूज़ केस:
4. सीक्वेंशियल फ्यूज्ड
एक सिंगल मल्टीमोडल मॉडल एक बार में, एक टर्न में, रिकग्निशन, रीजनिंग और जेनरेशन सब संभालता है। यही आर्किटेक्चर OpenAI के Realtime API जैसे मॉडल्स के पीछे है।
लेकिन टेक्स्ट लेयर के बिना गार्डरेल्स लागू करने की सुविधा कम है, डिबगिंग के लिए इंटरमीडिएट आउटपुट्स कम हैं, और बेहतर LLM या अपने डोमेन के लिए STT को फाइन-ट्यून करने की फ्लेक्सिबिलिटी भी कम है। रीजनिंग कोर आमतौर पर फ्रंटियर LLMs से हल्के होते हैं, इसलिए जटिल टूल-कॉलिंग और मल्टी-स्टेप टास्क्स में दिक्कत आती है। जब टास्क में जटिल समस्या सुलझानी हो, तो सिर्फ प्रोसोदी काफी नहीं।
उदाहरण यूज़ केस:
5. डुप्लेक्स फ्यूज्ड
हमारी फॉरवर्ड डिप्लॉयड इंजीनियरिंग टीम ग्राहकों के साथ मिलकर काम कर रही है ताकि ये क्षमताएं रियल-वर्ल्ड डिप्लॉयमेंट्स के साथ-साथ विकसित हों। अगली पीढ़ी के एजेंट्स और भी ज्यादा पारदर्शिता, डिटरमिनिज्म और अनुकूलता देंगे, वो भी उसी लो-लेटेंसी परफॉर्मेंस के साथ, जो रियल-टाइम बातचीत को संभव बनाती है।

जानिए ElevenAgents कैसे कॉन्टेक्स्ट, टूल्स और वर्कफ़्लो को मैनेज करते हैं ताकि रियल-टाइम, एंटरप्राइज़-ग्रेड बातचीत मिल सके।

अब और ज्यादा एक्सप्रेसिव वॉइस एजेंट्स, असली ग्राहकों से बातचीत के लिए तैयार।