जब दो एआई वॉयस असिस्टेंट बातचीत करते हैं तो क्या होता है?

एलेवनलैब्स लंदन हैकाथन में, डेवलपर्स ने गिब्बरलिंक बनाया, एक प्रोटोकॉल जो एआई एजेंटों को एक-दूसरे को पहचानने और एक हाइपर-प्रभावी ध्वनि-आधारित भाषा में स्विच करने की अनुमति देता है।

जब दो एआई वॉयस असिस्टेंट बातचीत करते हैं तो क्या होता है? यदि एआई एआई से बात कर रहा है, तो उसे मानव भाषण की अक्षमताओं से क्यों परेशान होना चाहिए? शब्दों का उपयोग क्यों करें जब शुद्ध डेटा तेज़, अधिक सटीक और त्रुटि-प्रूफ है?

यह ठीक वही हुआ जो एलेवनलैब्स लंदन हैकाथन में हुआ, जहां डेवलपर्स बोरिस स्टारकोव और एंटन पिडकुइको ने पेश किया गिबरलिंक, एक तंत्र जो एआई एजेंटों को एक-दूसरे को पहचानने और संचार के एक नए मोड में स्विच करने की अनुमति देता है - जो बोली गई भाषा की तुलना में अधिक कुशल है। और इस विचार के वायरल होने में ज्यादा समय नहीं लगा, मार्केस ब्राउनली, टिम अर्बन और अन्य के शेयरों के साथ।

गिब्बरलिंक का जन्म

गिब्बरलिंक के पीछे का विचार सरल है: एआई को मनुष्यों की तरह बोलने की आवश्यकता नहीं है। हैकाथन के दौरान, स्टारकोव और पिडकुइको ने पारंपरिक एआई-से-एआई भाषण की सीमाओं का पता लगाया और महसूस किया कि वे मशीनों के लिए अनुकूलित तरीके से एआई को एआई से बात करने देकर अनावश्यक जटिलता को समाप्त कर सकते हैं।

यह अवधारणा हैकाथन के दौरान आई जहां स्टारकोव और पिडकुइको इलेवनलैब्स के संवादात्मक एआई उत्पाद के साथ प्रयोग कर रहे थे, जो आपको किसी भी LLM से कनेक्ट करने और एक एजेंट बनाने की अनुमति देता है।

स्टारकोव ने लिखा लिंक्डइन. हम दिखाना चाहते थे कि उस दुनिया में जहां एआई एजेंट फोन कॉल कर सकते हैं (यानी आज), वे कभी-कभी एक-दूसरे से बात करेंगे - और इसके लिए मानव-समान भाषण उत्पन्न करना कंप्यूट, पैसे, समय और पर्यावरण की बर्बादी होगी। इसके बजाय, उन्हें एक अधिक कुशल प्रोटोकॉल पर स्विच करना चाहिए जब वे एक-दूसरे को एआई के रूप में पहचानें।

इलेवनलैब्स के संयोजन द्वारा Conversational AI प्रौद्योगिकी के साथ जीजीवेव, एक ओपन-सोर्स डेटा-ओवर-साउंड लाइब्रेरी, उन्होंने एक ऐसा सिस्टम बनाया जहां एआई सहायक यह पहचान सकते हैं कि वे किसी अन्य एआई से बात कर रहे हैं और तुरंत एक अधिक कुशल संचार मोड में स्विच कर सकते हैं - ध्वनि तरंगों के माध्यम से शब्दों के बजाय संरचित डेटा का संचरण।

उन्होंने ggwave का उपयोग किया क्योंकि यह "एक हैकाथन के समय सीमा में हमें मिल सकने वाला सबसे सुविधाजनक और स्थिर समाधान था," लेकिन समान या समान परिणाम प्राप्त करने के लिए अन्य तंत्र भी हैं। स्टारकोव ने लिखा: डायल-अप मोडेम ने 80 के दशक से ध्वनि के माध्यम से जानकारी प्रसारित करने के लिए समान एल्गोरिदम का उपयोग किया, और तब से कई प्रोटोकॉल मौजूद थे।

इस तंत्र का कोड ElevenLabs के इंजीनियरों द्वारा ऑडिट किया गया था और डेमो के दौरान एक संवादात्मक एआई एजेंट को एक शादी के लिए होटल का कमरा प्राप्त करने के लिए प्रेरित किया गया, जबकि दूसरे ने अनुरोध को पूरा किया (होटल बुकिंग सिस्टम की भूमिका निभाते हुए)। उन्हें यह भी बताया गया कि यदि उन्हें विश्वास था कि दूसरा भी एक एआई एजेंट है, तो उन्हें ध्वनि-स्तर प्रोटोकॉल पर स्विच करना चाहिए, लेकिन उन्हें यह नहीं बताया गया कि दूसरा एक एजेंट है।

डेमो वीडियो में एक क्षण है जब ग्राहक की भूमिका निभा रहा एआई यह घोषित करता है कि वह एक एजेंट है। बुकिंग एआई प्रतिक्रिया करता है और गिबरलिंक पर स्विच करने के बारे में पूछता है। यह एक जोड़ी डायल-अप मोडेम की तरह लगता है जो वर्ष की आवाज़ के लिए R2D2 के साथ प्रतिस्पर्धा कर रहे हैं। आप इस डिजिटल बातचीत के मुख्य बिंदुओं को प्रत्येक डिवाइस की स्क्रीन पर टेक्स्ट में देख सकते हैं, जो डेमो में उपयोग किया गया है, जिसमें मेहमानों की संख्या और तारीखों के बारे में पूछना शामिल है।

यह कैसे काम करता है

  • एक एआई सामान्य रूप से बोलना शुरू करता है — बिल्कुल एक वॉयस असिस्टेंट की तरह जो एक मानव के साथ बातचीत कर रहा है।
  • पहचान शुरू होती है — अगर एआई को एहसास होता है कि वह दूसरे एआई से बात कर रहा है, तो वे दोनों प्रोटोकॉल बदल लेते हैं।
  • भाषा बदलती है — बोले गए शब्दों के बजाय, एआई एजेंट्स मोड्यूलेटेड साउंड वेव्स के माध्यम से संरचित डेटा संचारित करते हैं, ग्गवेव के फ्रीक्वेंसी मॉड्यूलेशन सिस्टम के धन्यवाद।

विशेष रूप से, एक जोड़ी ElevenLabs संवादात्मक एआई एजेंट मानव भाषा में बात करना शुरू करते हैं। दोनों एक कॉल फ़ंक्शन का उपयोग करते हैं ताकि गिबरलिंक मोड को सक्रिय किया जा सके यदि सही परिस्थितियाँ पूरी होती हैं। यदि उपकरण को इलेवनलैब्स कहा जाता है, तो कॉल समाप्त हो जाती है और ggwave "डेटा ओवर साउंड" प्रोटोकॉल ले लेता है, लेकिन उसी LLM थ्रेड के साथ।

स्टारकोव कहते हैं कि यह "उपकरणों का जादू था जो ElevenLabs प्रदान करते हैं" जिसने इसे संभव बनाया क्योंकि हमारा संवादात्मक एआई सिस्टम "आपको कुछ परिस्थितियों के तहत कस्टम कोड निष्पादित करने के लिए एआई को प्रॉम्प्ट करने की अनुमति देता है।" परिणाम? तेज़, त्रुटि-रहित संचार अधिक दक्षता के साथ।

गिब्बरलिंक ने इंटरनेट को कैसे तोड़ा

मिनटों में वेब, मोबाइल या टेलीफोनी पर अपने एजेंटों से अपनी बात जोड़ें। हमारा रियलटाइम एपीआई कम विलंबता, पूर्ण विन्यास और निर्बाध मापनीयता प्रदान करता है।

गिब्बरलिंक सिर्फ एक चतुर हैकाथन प्रयोग नहीं था - यह तेजी से इस समय के सबसे चर्चित एआई विषयों में से एक बन गया। और यह एक सप्ताह में हुआ जब xAI ने Grok 3 लॉन्च किया और Anthropic ने Claude Sonnet का अपना नवीनतम संस्करण जारी किया।

जब जॉर्जि गेरगानोव, ggwave के निर्माता, इस पर X पर पोस्ट कियाएआई और तकनीकी समुदायों ने वीडियो को फैलाना जारी रखा जिसमें दो मॉडल मानव भाषण और ध्वनि के बीच स्विच करते हैं। बड़े नाम वाले प्रभावशाली लोग और प्रमुख तकनीकी प्रकाशन, फोर्ब्स सहित, कहानी पर कूद गया।

ल्यूक हैरिस ने एलेवनलैब्स से इसे सबसे अच्छा संक्षेपित किया एक्स पोस्ट. "अगर एक एआई एजेंट फोन कॉल करता है, तो क्या होगा अगर उसे एहसास होता है कि दूसरी व्यक्ति भी एक एआई एजेंट है?" इलेवनलैब्स लंदन हैकाथन में, बोरिस स्टारकोव और एंटन पिडकुइको ने एक कस्टम प्रोटोकॉल पेश किया जिसे एआई एजेंट त्रुटि-मुक्त संचार के लिए 80% अधिक कुशलता से स्विच कर सकते हैं। यह दिमाग को झकझोर देने वाला है।

यह क्यों महत्वपूर्ण है

गिबरलिंक यह एक दिलचस्प दृष्टिकोण है कि कैसे एआई भविष्य में संचार कर सकता है, विशेष रूप से जब हम एक ऐसी स्थिति में प्रवेश कर रहे हैं जहां इनबाउंड और आउटबाउंड कॉल दोनों को वर्चुअल असिस्टेंट और एजेंट द्वारा प्रबंधित किया जा सकता है।

कल्पना एआई-संचालित ग्राहक सेवा बॉट्स, स्मार्ट सहायक, या यहां तक कि स्वायत्त प्रणाली जो तुरंत अपने समर्पित मोड में सहयोग कर रही हैं, फिर बस जिम्मेदार व्यक्ति को एक साधारण पाठ रिपोर्ट भेज रही हैं।

गिब्बरलिंक ओपन-सोर्स है और डेवलपर्स के लिए अन्वेषण के लिए उपलब्ध है Github. एलेवनलैब्स संवादात्मक एआई एजेंट उपलब्ध हैं और किसी भी आवश्यकता के अनुसार अनुकूलित करना आसान है, जिसमें कस्टम निर्देश शामिल हैं।

और जानें

टेक्स्ट-टू-स्पीच के साथ संवादात्मक AI चैटबॉट बनाने के सर्वोत्तम अभ्यास

आज के उपयोगकर्ता ऐसी संवादात्मक AI की अपेक्षा करते हैं जो स्वाभाविक लगे, संदर्भ को समझे, तथा मानव जैसी भाषा में प्रतिक्रिया दे

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

फ़्री शुरू करें

क्या आपके पास पहले से खाता है? लॉग इन करें