ElevenLabs एजेंट्स की वॉइस ऑर्केस्ट्रेशन के साथ बाहरी एजेंट्स का इंटीग्रेशन

ElevenLabs वॉइस ऑर्केस्ट्रेशन को जटिल और स्टेटफुल एजेंट्स के साथ इंटीग्रेट करने के पैटर्न

orange mountain on the right side and blue sky on the left

फ्रंटियर एजेंट ऑर्केस्ट्रेटर्स अब जटिल कार्यों को संभालने और एंटरप्राइज टूलिंग के पूरे सूट में काम करने में सक्षम हैं। इसके लिए एप्लिकेशन, बातचीत और सिस्टम स्टेट का सावधानीपूर्वक प्रबंधन आवश्यक है। वॉइस के अलावा अन्य मोडालिटी के लिए, सामान्य पैटर्न 'कॉन्टेक्स्ट इंजीनियरिंग' के तहत उभरे हैं।कॉन्टेक्स्ट इंजीनियरिंग,जो एजेंट के सिस्टम प्रॉम्प्ट के चारों ओर लगातार प्रथाओं का निर्माण करने का प्रयास करता है जैसे-जैसे इंटरैक्शन आगे बढ़ता है। वॉइस को शामिल करना न केवल वॉइस इंटरैक्शन के घटकों को प्रबंधित करने के लिए एक अतिरिक्त परत पेश करता है, बल्कि आदर्श रूप से अन्य मोडालिटी पर पिछले कार्य से आर्टिफैक्ट्स के पुन: उपयोग की अनुमति भी देता है।

इस पोस्ट में, हम बताते हैं कि ElevenLabs एजेंट्स बाहरी एजेंट्स का समर्थन कैसे करते हैं और उनके इंटीग्रेशन पर सूक्ष्म नियंत्रण सक्षम करने वाले पैटर्न क्या हैं। ये तंत्र ग्राहकों को ElevenLabs की बेहतरीन वॉइस ऑर्केस्ट्रेशन का लाभ उठाने की अनुमति देते हैं जबकि उनके व्यापक ऑर्केस्ट्रेशन का पूरा स्वामित्व बनाए रखते हैं।

मुख्य घटक

ElevenLabs एजेंट्स

अपने सबसे सरल रूप में, एक ElevenLabs एजेंट एक वेबस्केट क्लाइंट के माध्यम से सुलभ है। बातचीत में सर्वर और क्लाइंट इवेंट्स का प्रतिनिधित्व करने वाली जानकारी एजेंट को JSON ऑब्जेक्ट्स के रूप में पास होती है। जब एजेंट यूज़र की स्पीच को ट्रांसक्राइब करता है, तो यह लालची तरीके से एक जनरेशन अनुरोध को ट्रिगर करता है। हम अधिकांश प्रमुख मॉडल प्रदाताओं का समर्थन करते हैं और ग्राहकों को अपना कस्टम LLM लाने की अनुमति देते हैं।जब कस्टम LLM के पीछे जनरेशन अनुरोधों का उत्तर देने के लिए एक अधिक जटिल ऑर्केस्ट्रेटर (एजेंट्स) लाया जाता है, तो ग्राहकों को यह सुनिश्चित करना चाहिए कि यह या तो OpenAI के चैट कम्प्लीशन या रिस्पॉन्सेस API का समर्थन करता है। सौभाग्य से, यह API फॉर्मेटिंग स्पेसिफिकेशन अधिकांश प्रमुख एजेंट बिल्डिंग फ्रेमवर्क (CrewAI, LangChain, LangGraph, HayStack, LlamaIndex, ...) द्वारा आसानी से समर्थित है।

एक बार इंटीग्रेट हो जाने पर, इन एजेंट्स को अक्सर किसी भी समय अपनी आंतरिक और बाहरी स्थिति को पढ़ने और अपडेट करने की क्षमता की आवश्यकता होती है, चाहे वे जिस वॉइस ऑर्केस्ट्रेटर के पीछे हों। इसे प्रभावी ढंग से प्रबंधित करने से मौजूदा टेक्स्ट-ओनली एजेंट्स के साथ संगति सुनिश्चित होती है।

स्टेट प्रबंधन

परिभाषा के अनुसार, डेटा जो एक एजेंट को अपने वातावरण को कुशलतापूर्वक नेविगेट करने के लिए ट्रैक करना चाहिए, वह अत्यधिक टास्क-विशिष्ट होता है। बाहरी एजेंट द्वारा संचालित ElevenLabs एजेंट्स के लिए, कुछ अच्छी तरह से परिभाषित श्रेणियों में स्टेट बनाए रखना उपयोगी होता है।

आंतरिक स्टेट बातचीत की गतिशीलता को नियंत्रित करता है। एजेंट के आंतरिक स्टेट के हिस्से के रूप में ट्रैक किए गए तत्वों के उदाहरणों में शामिल हैं:

  • वर्तमान बातचीत का प्रवाह, जिसमें वॉइस गतिविधि, रुकावटें, और सक्रिय स्पीकर की पहचान शामिल है।
  • रियल-टाइम ट्रांसक्रिप्ट विश्लेषण से प्राप्त एप्लिकेशन-विशिष्ट अंतर्दृष्टियाँ, जैसे कि पहचाने गए इरादे, संस्थाएँ, या भावना।
  • तर्क ट्रेस, जिसमें मध्यवर्ती विचार, परिकल्पनाएँ, और समाधान उत्पन्न करने के पिछले प्रयास शामिल हैं।
  • कॉन्फ़िगरेशन और परिचालन पैरामीटर, जैसे कि इसके सक्रिय लक्ष्य, संचालन का तरीका, और बातचीत के दौरान इसके व्यवहार का मार्गदर्शन करने वाली कोई अस्थायी बाधाएँ।

दूसरी ओर, बाहरी स्टेट मुख्य रूप से उन प्रासंगिक सिस्टम्स और व्यक्तियों पर केंद्रित होता है जिनके साथ एजेंट इंटरैक्ट करता है या प्रभावित करता है। एजेंट के बाहरी स्टेट के हिस्से के रूप में ट्रैक किए गए तत्वों के उदाहरणों में शामिल हैं:

  • अन्य यूज़र्स या सिस्टम्स की स्थिति जिनके साथ यह इंटरैक्ट करता है, जैसे कि उनके वर्तमान लक्ष्य, उपलब्धता, या अनुमतियाँ।
  • टूल्स और नॉलेज बेस, उदाहरण के लिए APIs, डेटाबेस, या इंटीग्रेशन जो एजेंट की कार्य करने की क्षमता को प्रभावित कर सकते हैं।
  • बाहरी एक्टर्स या सिस्टम्स को शामिल करने वाले चल रहे कार्य और निर्भरताएँ जो एजेंट के अगले कदमों को प्रभावित करती हैं।

हम एजेंट के यूज़र के साथ संबंध के जीवनचक्र के दौरान इस जानकारी को विश्वसनीय रूप से बनाए रखने के लिए एक सामान्य पैटर्न की रूपरेखा प्रस्तुत करते हैं।

समाधान घटक

अवलोकन

इस खंड में, हम जटिल बाहरी एजेंट्स को सफलतापूर्वक इंटीग्रेट करने के लिए आवश्यक आर्किटेक्चर घटकों और कार्यान्वयन विवरणों को कवर करते हैं। इस दृष्टिकोण के केंद्र में सभी सेवाओं में एक सत्र का प्रतिनिधित्व करने वाले एक अद्वितीय पहचानकर्ता को प्रॉक्सी करने की क्षमता है। कस्टम LLMs का उपयोग करने वाले ElevenLabs एजेंट्स के लिए, यह आवश्यक पहचानकर्ता को एक LLM पैरामीटर के रूप में अतिरिक्त बॉडी ऑब्जेक्ट के भीतर के हिस्से के रूप में पास करके किया जा सकता है बातचीत ओवरराइड्स कॉल शुरू करने के दौरान। ऐसा करने से पहचानकर्ता ElevenLabs एजेंट से यूज़र तक और फिर बाहरी एजेंट तक प्रवाहित हो सकता है।

diagram describing the flow from user to elevenlabs websocket to custom llm to stateful proxy to external agent

कस्टम LLM के पीछे स्टेटफुल प्रॉक्सी पर ध्यान दें। यह सेवा, जो आमतौर पर मौजूद नहीं होती है, हमें बाहरी एजेंट के साथ कनेक्शन का प्रतिनिधित्व करने वाले मनमाने पहचानकर्ताओं के लिए व्यक्तिगत जनरेशन अनुरोधों को मैप करने की अनुमति देती है। इस सेवा के कार्यान्वयन का स्वामित्व बाहरी एजेंट डेवलपर्स के हाथों में है। अपने सबसे सरल रूप में, प्रॉक्सी कनेक्शनों का प्रबंधन करता है जो ElevenLabs बातचीत या कॉल SIDs (टेलीफोनी के लिए) को मैप करते हैं। जबकि, अधिक उन्नत संस्करण बातचीत के मैपिंग में पदानुक्रम पेश कर सकते हैं जो कई इंटरैक्शन में फैले अधिक जटिल ग्राहक संबंधों को शामिल करते हैं।

Comparison of mapping ids for one to one versus one to many cases. In the case of one to many, there is a hierarchy grouping multiple conversations ids together.

इन अधिक उन्नत कॉन्फ़िगरेशन में, प्रॉक्सी अतिरिक्त पहचानकर्ताओं को बनाए रखता है जो एकल डाउनस्ट्रीम सत्र से जुड़े एकल अनुरोध से परे जाते हैं। प्रत्येक पहचानकर्ता केवल एक बातचीत या कॉल SID का प्रतिनिधित्व करने के बजाय, प्रॉक्सी एकल पहचानकर्ता को कई संबंधित इंटरैक्शन के साथ जोड़ सकता है। यह सिस्टम को चैनलों के पार ग्राहक यात्राओं का पालन करने, ऐतिहासिक संदर्भ को पुन: उपयोग करने, और एक साथ कई इंटरैक्शन का समन्वय करने की अनुमति देता है। उदाहरण के लिए, एकल मैपिंग कई वेब चैट सत्रों, एक फॉलो-अप वॉइस कॉल, और एक आंतरिक समर्थन वर्कफ़्लो को एक ही तार्किक ग्राहक पहचानकर्ता के तहत समूहित कर सकती है। प्रॉक्सी फिर सरल नियमों के आधार पर सही पहचानकर्ता को अनुरोधों को रूट कर सकता है जबकि कस्टम LLM के पीछे एकीकृत स्टेट को संरक्षित कर सकता है। यह बाहरी एजेंट द्वारा प्रबंधित अधिक लचीले और स्थायी मल्टी-स्टेप इंटरैक्शन को सक्षम करता है।

संदेश पासिंग

जनरेशन अनुरोधों को उच्च क्रम की संस्थाओं के लिए सफलतापूर्वक मैप करने से परे, स्टेटफुल प्रॉक्सी बाहरी स्रोतों जैसे कि एप्लिकेशन फ्रंटेंड या एक अलग राउटर सेवा के लिए API अनुरोधों के माध्यम से द्विदिश संदेश पासिंग का समर्थन कर सकता है। उन एप्लिकेशनों में जहां यह आवश्यक है, ElevenLabs एजेंट्स को इस बात की जानकारी की आवश्यकता नहीं होती है कि संदेश अन्य सेवाओं को पास किए जा रहे हैं।

उदाहरण के लिए, बाहरी एजेंट्स के लिए चल रही वॉइस गतिविधि में दृश्यता होना अक्सर उपयोगी होता है, ताकि यह निर्धारित कर सके कि यूज़र बोल रहा है, कितनी देर तक और क्या इसे पूर्वनिर्धारित रूप से कोई कार्रवाई करनी चाहिए। ये अंतर्दृष्टियाँ सीधे प्राप्त की जा सकती हैं और ElevenLabs एजेंट्स द्वारा प्रदान किए गए प्रोसेस्ड वॉइस एक्टिविटी डिटेक्शन (VAD) स्कोर को क्लाइंट इवेंट्स के रूप में बातचीत वेबस्केट के माध्यम से प्राप्त करके कार्रवाई की जा सकती हैं। ElevenLabs से स्कोर प्राप्त करते समय, क्लाइंट एप्लिकेशन VAD क्लाइंट इवेंट्स को एप्लिकेशन आवश्यकताओं के आधार पर स्टेटफुल प्रॉक्सी को फॉरवर्ड कर सकता है यह सुनिश्चित करते हुए कि यह संदेश में मनमाना सत्र पहचानकर्ता शामिल करता है। स्टेटफुल प्रॉक्सी के लिए यह आवश्यक है कि वह अनुरोध मैपिंग लॉजिक को लागू करे जो सत्र के लिए मौजूदा कनेक्शन को इष्टतम रूप से पहचानता है।

इस पैटर्न को क्लाइंट से किसी भी इवेंट को समायोजित करने के लिए विस्तारित किया जा सकता है, बशर्ते कि इसे JSON के एक ब्लॉक के रूप में व्यक्त किया जा सके। हालांकि, उन इवेंट्स को उजागर करना भी उपयोगी होता है जो स्वयं एजेंट से उत्पन्न होते हैं। एक सामान्य उदाहरण में टूल कॉल्स या नॉलेज बेस क्वेरीज़ का जीवनचक्र शामिल होता है जो बाहरी सिस्टम्स पर संचालन का प्रतिनिधित्व करते हैं। ये तंत्र उन एजेंट्स के लिए मौलिक हैं जिन्हें एंटरप्राइजेज आज बना रहे हैं।

कस्टम LLM के माध्यम से बाहरी एजेंट्स को इंटीग्रेट करते समय, ElevenLabs के टूल कॉलिंग और रिट्रीवल ऑगमेंटेड जनरेशन (RAG) फीचर्स को अक्सर बाहरी एजेंट के अपने कार्यान्वयन के पक्ष में बायपास किया जाता है। परिणामस्वरूप, इन घटकों का स्वामित्व पूरी तरह से बाहरी एजेंट प्रदाता के पास होता है। एप्लिकेशन अभी भी टूल गतिविधि में दृश्यता से लाभान्वित होते हैं, क्योंकि यह उन्हें एजेंट की प्रगति को सतह पर लाने और तदनुसार अंतिम-यूज़र अनुभव को अपडेट करने में सक्षम बनाता है।

इस दृश्यता को प्रदान करने के लिए, बाहरी एजेंट टूल्स के आह्वान के समय संदेश प्रसारित करता है, दोनों अनुरोधों और प्रतिक्रियाओं के लिए। ये संदेश स्टेटफुल प्रॉक्सी द्वारा क्लाइंट एप्लिकेशनों को फॉरवर्ड किए जाते हैं, जो उन्हें एक समर्पित संदेश कतार के माध्यम से संभालते हैं। यह ElevenLabs एजेंट्स के क्लाइंट इवेंट्स द्वारा उपयोग किए गए तंत्रों को दर्शाता है और यह सुनिश्चित करता है कि एप्लिकेशन ट्रैक कर सकें कि एजेंट कब बाहरी सिस्टम से पढ़ता है या संशोधित करता है।

Diagram showing the message passing flow between some frontend application and the stateful proxy bypassing the elevenlabs agent.

इस प्रकार, इन मुख्य घटकों का उपयोग करके और प्रॉक्सी और क्लाइंट एप्लिकेशन के बीच संदेशों के द्विदिश पासिंग को सक्षम करके ग्राहक ElevenLabs एजेंट्स के भीतर बाहरी एजेंट्स को इंटीग्रेट कर सकते हैं ताकि वे केवल वॉइस ऑर्केस्ट्रेशन का उपयोग कर सकें जो यह प्रदान करता है जबकि LLM ऑर्केस्ट्रेशन के सभी भागों पर स्वामित्व बनाए रखते हैं।

स्टेट से जोड़ना

जटिल बाहरी एजेंट्स का प्रभावी ढंग से समर्थन करने के लिए प्रॉक्सी और एजेंट के बीच जिम्मेदारियों का स्पष्ट विभाजन आवश्यक होता है, विशेष रूप से जब स्टेट प्रबंधन की बात आती है। इस मॉडल में, प्रॉक्सी एप्लिकेशन की आवश्यकताओं के अनुसार समूहित प्रासंगिक इंटरैक्शन की एक तालिका बनाए रखने और स्वयं और एजेंट के बीच संदेशों को रूट करने के लिए जिम्मेदार होता है जो स्टेटलेस लॉजिक का उपयोग करता है। बदले में, बाहरी एजेंट को सभी महत्वपूर्ण आंतरिक और बाहरी जानकारी को संभालना और संग्रहीत करना चाहिए जो समग्र स्टेट में योगदान करती है।

हालांकि इस विभाजन को शिथिल करने से मौजूदा समाधान के पुन: कार्य को और कम किया जा सकता है, एक सख्त सीमा बनाए रखना आमतौर पर अधिक मजबूत और स्केलेबल परिणामों की ओर ले जाता है क्योंकि एजेंट का टास्क सेट बढ़ता है।

आगे की राह

जैसे-जैसे संगठन वॉइस और नॉन-वॉइस सक्षम एजेंट्स को अपनाने में परिपक्व होते जाते हैं, हम उम्मीद करते हैं कि इन एजेंट्स द्वारा आवश्यक जानकारी के पैटर्न स्पष्ट हो जाएंगे जिससे हमें इस पोस्ट में वर्णित सेवाओं के विकास और स्वामित्व को सरल बनाने की अनुमति मिलेगी। इस बीच, हम पहले से उभरी आवश्यकताओं के लिए निर्माण जारी रख रहे हैं। हमारी फॉरवर्ड डिप्लॉयड इंजीनियरिंग टीम ग्राहकों के साथ मिलकर काम कर रही है ताकि इन उभरती जरूरतों को ठोस प्रोडक्ट क्षमताओं में अनुवादित किया जा सके और यह सुनिश्चित किया जा सके कि हमारे समाधान वास्तविक दुनिया की तैनाती के साथ तालमेल में विकसित हों।

यदि आप पहले से ही एक मौजूदा एजेंट के साथ काम कर रहे हैं और ElevenLabs एजेंट्स के साथ वॉइस को सक्षम करना चाहते हैं जबकि अपने LLM ऑर्केस्ट्रेशन पर स्वामित्व बनाए रखते हैं, इस दृष्टिकोण को आजमाएं और हमें बताएं कि आप क्या सोचते हैं!

ElevenLabs टीम के लेखों को देखें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें