
Building an edutainment universe for the next generation
Life Heroes Universe uses character-driven storytelling to inspire learning beyond the classroom.
ElevenLabs वॉइस ऑर्केस्ट्रेशन को जटिल और स्टेटफुल एजेंट्स के साथ इंटीग्रेट करने के पैटर्न
फ्रंटियर एजेंट ऑर्केस्ट्रेटर्स अब जटिल कार्यों को संभालने और एंटरप्राइज टूलिंग के पूरे सूट में काम करने में सक्षम हैं। इसके लिए एप्लिकेशन, बातचीत और सिस्टम स्टेट का सावधानीपूर्वक प्रबंधन आवश्यक है। वॉइस के अलावा अन्य मोडालिटी के लिए, सामान्य पैटर्न 'कॉन्टेक्स्ट इंजीनियरिंग' के तहत उभरे हैं।कॉन्टेक्स्ट इंजीनियरिंग,जो एजेंट के सिस्टम प्रॉम्प्ट के चारों ओर लगातार प्रथाओं का निर्माण करने का प्रयास करता है जैसे-जैसे इंटरैक्शन आगे बढ़ता है। वॉइस को शामिल करना न केवल वॉइस इंटरैक्शन के घटकों को प्रबंधित करने के लिए एक अतिरिक्त परत पेश करता है, बल्कि आदर्श रूप से अन्य मोडालिटी पर पिछले कार्य से आर्टिफैक्ट्स के पुन: उपयोग की अनुमति भी देता है।
इस पोस्ट में, हम बताते हैं कि ElevenLabs एजेंट्स बाहरी एजेंट्स का समर्थन कैसे करते हैं और उनके इंटीग्रेशन पर सूक्ष्म नियंत्रण सक्षम करने वाले पैटर्न क्या हैं। ये तंत्र ग्राहकों को ElevenLabs की बेहतरीन वॉइस ऑर्केस्ट्रेशन का लाभ उठाने की अनुमति देते हैं जबकि उनके व्यापक ऑर्केस्ट्रेशन का पूरा स्वामित्व बनाए रखते हैं।
ElevenLabs एजेंट्स
अपने सबसे सरल रूप में, एक ElevenLabs एजेंट एक वेबस्केट क्लाइंट के माध्यम से सुलभ है। बातचीत में सर्वर और क्लाइंट इवेंट्स का प्रतिनिधित्व करने वाली जानकारी एजेंट को JSON ऑब्जेक्ट्स के रूप में पास होती है। जब एजेंट यूज़र की स्पीच को ट्रांसक्राइब करता है, तो यह लालची तरीके से एक जनरेशन अनुरोध को ट्रिगर करता है। हम अधिकांश प्रमुख मॉडल प्रदाताओं का समर्थन करते हैं और ग्राहकों को अपना कस्टम LLM लाने की अनुमति देते हैं।जब कस्टम LLM के पीछे जनरेशन अनुरोधों का उत्तर देने के लिए एक अधिक जटिल ऑर्केस्ट्रेटर (एजेंट्स) लाया जाता है, तो ग्राहकों को यह सुनिश्चित करना चाहिए कि यह या तो OpenAI के चैट कम्प्लीशन या रिस्पॉन्सेस API का समर्थन करता है। सौभाग्य से, यह API फॉर्मेटिंग स्पेसिफिकेशन अधिकांश प्रमुख एजेंट बिल्डिंग फ्रेमवर्क (CrewAI, LangChain, LangGraph, HayStack, LlamaIndex, ...) द्वारा आसानी से समर्थित है।
एक बार इंटीग्रेट हो जाने पर, इन एजेंट्स को अक्सर किसी भी समय अपनी आंतरिक और बाहरी स्थिति को पढ़ने और अपडेट करने की क्षमता की आवश्यकता होती है, चाहे वे जिस वॉइस ऑर्केस्ट्रेटर के पीछे हों। इसे प्रभावी ढंग से प्रबंधित करने से मौजूदा टेक्स्ट-ओनली एजेंट्स के साथ संगति सुनिश्चित होती है।
स्टेट प्रबंधन
परिभाषा के अनुसार, डेटा जो एक एजेंट को अपने वातावरण को कुशलतापूर्वक नेविगेट करने के लिए ट्रैक करना चाहिए, वह अत्यधिक टास्क-विशिष्ट होता है। बाहरी एजेंट द्वारा संचालित ElevenLabs एजेंट्स के लिए, कुछ अच्छी तरह से परिभाषित श्रेणियों में स्टेट बनाए रखना उपयोगी होता है।
आंतरिक स्टेट बातचीत की गतिशीलता को नियंत्रित करता है। एजेंट के आंतरिक स्टेट के हिस्से के रूप में ट्रैक किए गए तत्वों के उदाहरणों में शामिल हैं:
दूसरी ओर, बाहरी स्टेट मुख्य रूप से उन प्रासंगिक सिस्टम्स और व्यक्तियों पर केंद्रित होता है जिनके साथ एजेंट इंटरैक्ट करता है या प्रभावित करता है। एजेंट के बाहरी स्टेट के हिस्से के रूप में ट्रैक किए गए तत्वों के उदाहरणों में शामिल हैं:
हम एजेंट के यूज़र के साथ संबंध के जीवनचक्र के दौरान इस जानकारी को विश्वसनीय रूप से बनाए रखने के लिए एक सामान्य पैटर्न की रूपरेखा प्रस्तुत करते हैं।
अवलोकन
इस खंड में, हम जटिल बाहरी एजेंट्स को सफलतापूर्वक इंटीग्रेट करने के लिए आवश्यक आर्किटेक्चर घटकों और कार्यान्वयन विवरणों को कवर करते हैं। इस दृष्टिकोण के केंद्र में सभी सेवाओं में एक सत्र का प्रतिनिधित्व करने वाले एक अद्वितीय पहचानकर्ता को प्रॉक्सी करने की क्षमता है। कस्टम LLMs का उपयोग करने वाले ElevenLabs एजेंट्स के लिए, यह आवश्यक पहचानकर्ता को एक LLM पैरामीटर के रूप में अतिरिक्त बॉडी ऑब्जेक्ट के भीतर के हिस्से के रूप में पास करके किया जा सकता है बातचीत ओवरराइड्स कॉल शुरू करने के दौरान। ऐसा करने से पहचानकर्ता ElevenLabs एजेंट से यूज़र तक और फिर बाहरी एजेंट तक प्रवाहित हो सकता है।

कस्टम LLM के पीछे स्टेटफुल प्रॉक्सी पर ध्यान दें। यह सेवा, जो आमतौर पर मौजूद नहीं होती है, हमें बाहरी एजेंट के साथ कनेक्शन का प्रतिनिधित्व करने वाले मनमाने पहचानकर्ताओं के लिए व्यक्तिगत जनरेशन अनुरोधों को मैप करने की अनुमति देती है। इस सेवा के कार्यान्वयन का स्वामित्व बाहरी एजेंट डेवलपर्स के हाथों में है। अपने सबसे सरल रूप में, प्रॉक्सी कनेक्शनों का प्रबंधन करता है जो ElevenLabs बातचीत या कॉल SIDs (टेलीफोनी के लिए) को मैप करते हैं। जबकि, अधिक उन्नत संस्करण बातचीत के मैपिंग में पदानुक्रम पेश कर सकते हैं जो कई इंटरैक्शन में फैले अधिक जटिल ग्राहक संबंधों को शामिल करते हैं।

इन अधिक उन्नत कॉन्फ़िगरेशन में, प्रॉक्सी अतिरिक्त पहचानकर्ताओं को बनाए रखता है जो एकल डाउनस्ट्रीम सत्र से जुड़े एकल अनुरोध से परे जाते हैं। प्रत्येक पहचानकर्ता केवल एक बातचीत या कॉल SID का प्रतिनिधित्व करने के बजाय, प्रॉक्सी एकल पहचानकर्ता को कई संबंधित इंटरैक्शन के साथ जोड़ सकता है। यह सिस्टम को चैनलों के पार ग्राहक यात्राओं का पालन करने, ऐतिहासिक संदर्भ को पुन: उपयोग करने, और एक साथ कई इंटरैक्शन का समन्वय करने की अनुमति देता है। उदाहरण के लिए, एकल मैपिंग कई वेब चैट सत्रों, एक फॉलो-अप वॉइस कॉल, और एक आंतरिक समर्थन वर्कफ़्लो को एक ही तार्किक ग्राहक पहचानकर्ता के तहत समूहित कर सकती है। प्रॉक्सी फिर सरल नियमों के आधार पर सही पहचानकर्ता को अनुरोधों को रूट कर सकता है जबकि कस्टम LLM के पीछे एकीकृत स्टेट को संरक्षित कर सकता है। यह बाहरी एजेंट द्वारा प्रबंधित अधिक लचीले और स्थायी मल्टी-स्टेप इंटरैक्शन को सक्षम करता है।
संदेश पासिंग
जनरेशन अनुरोधों को उच्च क्रम की संस्थाओं के लिए सफलतापूर्वक मैप करने से परे, स्टेटफुल प्रॉक्सी बाहरी स्रोतों जैसे कि एप्लिकेशन फ्रंटेंड या एक अलग राउटर सेवा के लिए API अनुरोधों के माध्यम से द्विदिश संदेश पासिंग का समर्थन कर सकता है। उन एप्लिकेशनों में जहां यह आवश्यक है, ElevenLabs एजेंट्स को इस बात की जानकारी की आवश्यकता नहीं होती है कि संदेश अन्य सेवाओं को पास किए जा रहे हैं।
उदाहरण के लिए, बाहरी एजेंट्स के लिए चल रही वॉइस गतिविधि में दृश्यता होना अक्सर उपयोगी होता है, ताकि यह निर्धारित कर सके कि यूज़र बोल रहा है, कितनी देर तक और क्या इसे पूर्वनिर्धारित रूप से कोई कार्रवाई करनी चाहिए। ये अंतर्दृष्टियाँ सीधे प्राप्त की जा सकती हैं और ElevenLabs एजेंट्स द्वारा प्रदान किए गए प्रोसेस्ड वॉइस एक्टिविटी डिटेक्शन (VAD) स्कोर को क्लाइंट इवेंट्स के रूप में बातचीत वेबस्केट के माध्यम से प्राप्त करके कार्रवाई की जा सकती हैं। ElevenLabs से स्कोर प्राप्त करते समय, क्लाइंट एप्लिकेशन VAD क्लाइंट इवेंट्स को एप्लिकेशन आवश्यकताओं के आधार पर स्टेटफुल प्रॉक्सी को फॉरवर्ड कर सकता है यह सुनिश्चित करते हुए कि यह संदेश में मनमाना सत्र पहचानकर्ता शामिल करता है। स्टेटफुल प्रॉक्सी के लिए यह आवश्यक है कि वह अनुरोध मैपिंग लॉजिक को लागू करे जो सत्र के लिए मौजूदा कनेक्शन को इष्टतम रूप से पहचानता है।
इस पैटर्न को क्लाइंट से किसी भी इवेंट को समायोजित करने के लिए विस्तारित किया जा सकता है, बशर्ते कि इसे JSON के एक ब्लॉक के रूप में व्यक्त किया जा सके। हालांकि, उन इवेंट्स को उजागर करना भी उपयोगी होता है जो स्वयं एजेंट से उत्पन्न होते हैं। एक सामान्य उदाहरण में टूल कॉल्स या नॉलेज बेस क्वेरीज़ का जीवनचक्र शामिल होता है जो बाहरी सिस्टम्स पर संचालन का प्रतिनिधित्व करते हैं। ये तंत्र उन एजेंट्स के लिए मौलिक हैं जिन्हें एंटरप्राइजेज आज बना रहे हैं।
कस्टम LLM के माध्यम से बाहरी एजेंट्स को इंटीग्रेट करते समय, ElevenLabs के टूल कॉलिंग और रिट्रीवल ऑगमेंटेड जनरेशन (RAG) फीचर्स को अक्सर बाहरी एजेंट के अपने कार्यान्वयन के पक्ष में बायपास किया जाता है। परिणामस्वरूप, इन घटकों का स्वामित्व पूरी तरह से बाहरी एजेंट प्रदाता के पास होता है। एप्लिकेशन अभी भी टूल गतिविधि में दृश्यता से लाभान्वित होते हैं, क्योंकि यह उन्हें एजेंट की प्रगति को सतह पर लाने और तदनुसार अंतिम-यूज़र अनुभव को अपडेट करने में सक्षम बनाता है।
इस दृश्यता को प्रदान करने के लिए, बाहरी एजेंट टूल्स के आह्वान के समय संदेश प्रसारित करता है, दोनों अनुरोधों और प्रतिक्रियाओं के लिए। ये संदेश स्टेटफुल प्रॉक्सी द्वारा क्लाइंट एप्लिकेशनों को फॉरवर्ड किए जाते हैं, जो उन्हें एक समर्पित संदेश कतार के माध्यम से संभालते हैं। यह ElevenLabs एजेंट्स के क्लाइंट इवेंट्स द्वारा उपयोग किए गए तंत्रों को दर्शाता है और यह सुनिश्चित करता है कि एप्लिकेशन ट्रैक कर सकें कि एजेंट कब बाहरी सिस्टम से पढ़ता है या संशोधित करता है।

इस प्रकार, इन मुख्य घटकों का उपयोग करके और प्रॉक्सी और क्लाइंट एप्लिकेशन के बीच संदेशों के द्विदिश पासिंग को सक्षम करके ग्राहक ElevenLabs एजेंट्स के भीतर बाहरी एजेंट्स को इंटीग्रेट कर सकते हैं ताकि वे केवल वॉइस ऑर्केस्ट्रेशन का उपयोग कर सकें जो यह प्रदान करता है जबकि LLM ऑर्केस्ट्रेशन के सभी भागों पर स्वामित्व बनाए रखते हैं।
स्टेट से जोड़ना
जटिल बाहरी एजेंट्स का प्रभावी ढंग से समर्थन करने के लिए प्रॉक्सी और एजेंट के बीच जिम्मेदारियों का स्पष्ट विभाजन आवश्यक होता है, विशेष रूप से जब स्टेट प्रबंधन की बात आती है। इस मॉडल में, प्रॉक्सी एप्लिकेशन की आवश्यकताओं के अनुसार समूहित प्रासंगिक इंटरैक्शन की एक तालिका बनाए रखने और स्वयं और एजेंट के बीच संदेशों को रूट करने के लिए जिम्मेदार होता है जो स्टेटलेस लॉजिक का उपयोग करता है। बदले में, बाहरी एजेंट को सभी महत्वपूर्ण आंतरिक और बाहरी जानकारी को संभालना और संग्रहीत करना चाहिए जो समग्र स्टेट में योगदान करती है।
हालांकि इस विभाजन को शिथिल करने से मौजूदा समाधान के पुन: कार्य को और कम किया जा सकता है, एक सख्त सीमा बनाए रखना आमतौर पर अधिक मजबूत और स्केलेबल परिणामों की ओर ले जाता है क्योंकि एजेंट का टास्क सेट बढ़ता है।
जैसे-जैसे संगठन वॉइस और नॉन-वॉइस सक्षम एजेंट्स को अपनाने में परिपक्व होते जाते हैं, हम उम्मीद करते हैं कि इन एजेंट्स द्वारा आवश्यक जानकारी के पैटर्न स्पष्ट हो जाएंगे जिससे हमें इस पोस्ट में वर्णित सेवाओं के विकास और स्वामित्व को सरल बनाने की अनुमति मिलेगी। इस बीच, हम पहले से उभरी आवश्यकताओं के लिए निर्माण जारी रख रहे हैं। हमारी फॉरवर्ड डिप्लॉयड इंजीनियरिंग टीम ग्राहकों के साथ मिलकर काम कर रही है ताकि इन उभरती जरूरतों को ठोस प्रोडक्ट क्षमताओं में अनुवादित किया जा सके और यह सुनिश्चित किया जा सके कि हमारे समाधान वास्तविक दुनिया की तैनाती के साथ तालमेल में विकसित हों।
यदि आप पहले से ही एक मौजूदा एजेंट के साथ काम कर रहे हैं और ElevenLabs एजेंट्स के साथ वॉइस को सक्षम करना चाहते हैं जबकि अपने LLM ऑर्केस्ट्रेशन पर स्वामित्व बनाए रखते हैं, इस दृष्टिकोण को आजमाएं और हमें बताएं कि आप क्या सोचते हैं!

Life Heroes Universe uses character-driven storytelling to inspire learning beyond the classroom.

Granular music creation built on the Eleven Music API
ElevenLabs द्वारा संचालित एजेंट्स