
अपने स्वयं के दस्तावेज़ों के लिए एक प्रभावी वॉयस एजेंट का निर्माण करना
80% से अधिक उपयोगकर्ता पूछताछ का सफलतापूर्वक समाधान
Eleven v3 अल्फा का परिचय
v3 आजमाएंलेटेंसी ही अच्छे कन्वर्सेशनल AI एप्लिकेशन्स को बेहतरीन बनाती है
अधिकांश एप्लिकेशन्स के लिए, लेटेंसी एक मामूली चिंता होती है। हालांकि, कन्वर्सेशनल AI के लिए, लेटेंसी अच्छे एप्लिकेशन्स को बेहतरीन से अलग करती है।
शुरुआत के लिए, कन्वर्सेशनल AI का लक्ष्य काफी प्रेरणादायक है—इंसानी बातचीत जैसा ही अनुभव, स्पर्श और आवाज़ प्रदान करना, जबकि बुद्धिमत्ता में इंसान से आगे बढ़ना। इसे हासिल करने के लिए, एप्लिकेशन को बिना लंबे मौन अंतराल के बातचीत करनी चाहिए। अन्यथा, वास्तविकता टूट जाती है।
कन्वर्सेशनल AI की लेटेंसी चुनौती इसकी टुकड़ों में बंटी प्रकृति से और जटिल हो जाती है। कन्वर्सेशनल AI कई मध्यवर्ती प्रक्रियाओं की श्रृंखला है, जो अपने-अपने क्षेत्रों में अत्याधुनिक मानी जाती हैं। इनमें से प्रत्येक प्रक्रिया अतिरिक्त लेटेंसी जोड़ती है।
एक जनरेटिव वॉइस कंपनी के रूप में, हमने कन्वर्सेशनल AI के लिए लेटेंसी को कम करने के तरीकों का अध्ययन करने में काफी समय बिताया है। आज, हम अपनी सीख साझा करना चाहते हैं, इस उम्मीद में कि यह कन्वर्सेशनल AI एप्लिकेशन्स बनाने में रुचि रखने वाले किसी भी व्यक्ति के लिए सहायक होगी।
हर कन्वर्सेशनल AI एप्लिकेशन में कम से कम चार चरण होते हैं: स्पीच टू टेक्स्ट, टर्न-टेकिंग, टेक्स्ट प्रोसेसिंग (जैसे LLMs), और टेक्स्ट टू स्पीच। जबकि ये चरण समानांतर में निष्पादित होते हैं, प्रत्येक चरण फिर भी कुछ लेटेंसी जोड़ता है।
विशेष रूप से, कन्वर्सेशनल AI की लेटेंसी समीकरण अद्वितीय है। कई प्रक्रिया लेटेंसी समस्याओं को एक ही बाधा तक सीमित किया जा सकता है। उदाहरण के लिए, जब एक वेबसाइट डेटाबेस अनुरोध करती है, तो वेब की नेटवर्क लेटेंसी कुल लेटेंसी को चलाती है, जिसमें बैकएंड की VPC लेटेंसी से केवल मामूली योगदान होता है। हालांकि, कन्वर्सेशनल AI की लेटेंसी घटक बहुत भिन्न नहीं होते। वे असमान होते हैं, लेकिन प्रत्येक घटक का लेटेंसी योगदान दूसरों के समान होता है। तदनुसार, लेटेंसी भागों के योग द्वारा संचालित होती है।
सिस्टम का “कान”
ऑटोमैटिक स्पीच रिकग्निशन (ASR)—कभी-कभी स्पीच टू टेक्स्ट (STT) के रूप में संदर्भित—बोली गई ऑडियो को लिखित टेक्स्ट में बदलने की प्रक्रिया है।
ASR की लेटेंसी वह समय नहीं है जो टेक्स्ट उत्पन्न करने में लगता है, क्योंकि स्पीच टू टेक्स्ट प्रक्रिया बैकग्राउंड में चलती है जबकि यूज़र बोलता है। इसके बजाय, लेटेंसी वह समय है जो स्पीच के अंत और टेक्स्ट जनरेशन के अंत के बीच होता है।
तदनुसार, छोटे और लंबे बोलने के अंतराल समान ASR लेटेंसी ला सकते हैं। ASR कार्यान्वयन के बीच लेटेंसी भिन्न हो सकती है (कुछ मामलों में, कोई नेटवर्क लेटेंसी नहीं होती क्योंकि मॉडल ब्राउज़र में एम्बेडेड होता है, जैसे Chrome/Chromium)। मानक ओपन सोर्स मॉडल, Whisper, 300ms + लेटेंसी जोड़ता है। हमारा कस्टम कार्यान्वयन <100ms जोड़ता है।
सिस्टम का “सहज ज्ञान”
टर्न-टेकिंग / इंटरप्शन (TTI) एक मध्यवर्ती प्रक्रिया है जो निर्धारित करती है कि यूज़र ने बोलना कब समाप्त किया है। अंतर्निहित मॉडल को वॉइस एक्टिविटी डिटेक्टर (या VAD) के रूप में जाना जाता है।
टर्न-टेकिंग में नियमों का एक जटिल सेट शामिल होता है। एक छोटा भाषण विस्फोट (जैसे “उह-हह”) टर्न को ट्रिगर नहीं करना चाहिए; अन्यथा, बातचीत बहुत स्टैकाटो महसूस होगी। इसके बजाय, इसे आकलन करना चाहिए कि जब यूज़र वास्तव में मॉडल का ध्यान आकर्षित करने की कोशिश कर रहा है। इसे यह भी निर्धारित करना चाहिए कि जब यूज़र अपने विचारों को व्यक्त करने में समाप्त हो गया है।
एक अच्छा VAD नहीं हर बार जब यह मौन का पता लगाता है, एक नया टर्न संकेतित करेगा। शब्दों (और वाक्यांशों) के बीच मौन होता है, और मॉडल को यह सुनिश्चित करने की आवश्यकता होती है कि यूज़र वास्तव में बोलना समाप्त कर चुका है। इसे विश्वसनीय रूप से पूरा करने के लिए, इसे मौन की एक सीमा (या अधिक विशेष रूप से, भाषण की कमी) की तलाश करनी होती है। यह प्रक्रिया एक देरी का परिचय देती है, जो यूज़र द्वारा अनुभव की गई कुल लेटेंसी में योगदान करती है।
तकनीकी रूप से कहें तो, यदि सभी अन्य कन्वर्सेशनल AI घटकों ने शून्य लेटेंसी उत्पन्न की, तो TTI के लिए जिम्मेदार लेटेंसी एक अच्छी बात होगी। मनुष्य भाषण का जवाब देने से पहले एक पल लेते हैं। एक मशीन का इसी तरह का विराम लेना बातचीत को वास्तविकता प्रदान करता है। हालांकि, चूंकि कन्वर्सेशनल AI के अन्य घटक पहले से ही लेटेंसी उत्पन्न करते हैं, न्यूनतम TTI लेटेंसी आदर्श है।
सिस्टम का मस्तिष्क
अगला, सिस्टम को एक प्रतिक्रिया उत्पन्न करने की आवश्यकता होती है। आज, यह आमतौर पर एक बड़े भाषा मॉडल (LLM) के साथ पूरा किया जाता है, जैसे GPT-4 या Gemini Flash 1.5।
भाषा मॉडल का चयन एक महत्वपूर्ण अंतर बनाता है। Gemini Flash 1.5 जैसे मॉडल अविश्वसनीय रूप से तेज़ हैं—350ms से कम समय में आउटपुट उत्पन्न करते हैं। अधिक मजबूत मॉडल जो अधिक जटिल प्रश्नों को संभाल सकते हैं—जैसे GPT-4 वेरिएंट और Claude—700ms से 1000ms के बीच ले सकते हैं।सही मॉडल का चयन करना आमतौर पर कन्वर्सेशनल AI प्रक्रिया को अनुकूलित करते समय लेटेंसी को लक्षित करने का सबसे आसान तरीका है।
हालांकि, LLM की लेटेंसी वह समय है जो शुरू करने में लगता है। ये टोकन तुरंत अगले टेक्स्ट टू स्पीच प्रक्रिया में स्ट्रीम किए जा सकते हैं। क्योंकि टेक्स्ट टू स्पीच मानव आवाज़ की प्राकृतिक गति से धीमा होता है, LLM इसे विश्वसनीय रूप से पीछे छोड़ देता है—सबसे महत्वपूर्ण बात पहले टोकन की लेटेंसी है (यानी, पहले बाइट का समय)।
मॉडल के चयन के अलावा LLM की लेटेंसी में अन्य योगदानकर्ता भी होते हैं। इनमें प्रॉम्प्ट की लंबाई और ज्ञान आधार का आकार शामिल है। इनमें से किसी का भी बड़ा होना, लेटेंसी को लंबा कर सकता है। यह एक सरल सिद्धांत पर आधारित है: जितना अधिक LLM को विचार करना होगा, उतना ही अधिक समय लगेगा। तदनुसार, कंपनियों को मॉडल को अधिक बोझिल किए बिना एक स्वस्थ मात्रा में संदर्भ के बीच संतुलन बनाना होगा।
सिस्टम का मुँह
कन्वर्सेशनल AI का अंतिम घटक टेक्स्ट टू स्पीच (TTS) है। टेक्स्ट टू स्पीच की नेट लेटेंसी वह समय है जो टेक्स्ट प्रोसेसिंग से इनपुट टोकन प्राप्त करने के बाद बोलना शुरू करने में लगता है। बस इतना ही—क्योंकि अतिरिक्त टोकन मानव भाषण की तुलना में तेज़ी से उपलब्ध कराए जाते हैं, टेक्स्ट टू स्पीच की लेटेंसी केवल पहले बाइट का समय है।
पहले, टेक्स्ट टू स्पीच विशेष रूप से धीमा था, भाषण उत्पन्न करने में 2-3 सेकंड तक का समय लगता था। हालांकि, अत्याधुनिक मॉडल जैसे हमारा टर्बो इंजन केवल 300ms की लेटेंसी के साथ भाषण उत्पन्न करने में सक्षम हैं और नया फ्लैश TTS इंजन और भी तेज़ है। फ्लैश का मॉडल समय 75ms है और यह e2e 135ms का समय पहले बाइट ऑडियो लेटेंसी प्राप्त कर सकता है, जो क्षेत्र में सबसे अच्छा स्कोर है (हमें थोड़ा गर्व करना पड़ता है!)।
चार घटकों के अलावा, कुछ अतिरिक्त योगदानकर्ता कन्वर्सेशनल AI की नेट लेटेंसी में योगदान करते हैं।
डेटा को एक स्थान से दूसरे स्थान पर भेजने के साथ हमेशा लेटेंसी जुड़ी होती है। कुछ कन्वर्सेशनल AI एप्लिकेशन्स के लिए, ASR, TTI, LLM, और TTS प्रक्रियाओं को आदर्श रूप से सह-स्थित होना चाहिए, ताकि स्पीकर और पूरे सिस्टम के बीच के रास्तों के अलावा कोई महत्वपूर्ण नेटवर्क लेटेंसी स्रोत न हो।यह हमें लेटेंसी पर एक लाभ देता है क्योंकि हमारे पास अपना TTS और एक आंतरिक ट्रांसक्रिप्शन समाधान है, जिससे हम दो सर्वर कॉल्स बचा सकते हैं।
कई कन्वर्सेशनल AI एप्लिकेशन्स का उद्देश्य फंक्शन्स को इनवोक करना होता है (जैसे टूल्स और सेवाओं के साथ इंटरफेस करना)। उदाहरण के लिए, मैं AI से मौखिक रूप से मौसम की जांच करने के लिए कह सकता हूँ। यह अतिरिक्त API कॉल्स की आवश्यकता होती है जो टेक्स्ट प्रोसेसिंग लेयर पर इनवोक की जाती हैं, जो आवश्यकताओं के आधार पर काफी अधिक लेटेंसी ला सकती हैं।
उदाहरण के लिए, यदि मुझे मौखिक रूप से पिज्जा ऑर्डर करना है, तो कई API कॉल्स आवश्यक हो सकती हैं, जिनमें से कुछ में अत्यधिक विलंब हो सकता है (जैसे क्रेडिट कार्ड प्रोसेसिंग)।
हालांकि, एक कन्वर्सेशनल AI सिस्टम फंक्शन कॉलिंग से जुड़े विलंबों का मुकाबला कर सकता है, LLM को यूज़र को प्रतिक्रिया देने के लिए प्रेरित करके, इससे पहले कि फंक्शन कॉल समाप्त हो (जैसे “मैं आपके लिए मौसम की जांच करता हूँ”)। यह एक वास्तविक जीवन की बातचीत को मॉडल करता है और यूज़र को बिना जुड़ाव के नहीं रखता।
ये असिंक पैटर्न आमतौर पर लंबे समय तक चलने वाले अनुरोधों से बचने के लिए वेबहुक्स का उपयोग करके पूरा किए जाते हैं।
कन्वर्सेशनल AI प्लेटफॉर्म्स के लिए एक और सामान्य विशेषता यह है कि यूज़र को फोन के माध्यम से डायल-इन करने की अनुमति देना (या, कुछ मामलों में, यूज़र की ओर से फोन कॉल करना)। टेलीफोनी अतिरिक्त लेटेंसी उत्पन्न करेगी—और यह लेटेंसी भौगोलिक रूप से काफी निर्भर हो सकती है।
आधार के रूप में, टेलीफोनी एक ही क्षेत्र में सीमित होने पर अतिरिक्त 200ms की लेटेंसी उत्पन्न करेगी। वैश्विक कॉल्स के लिए (जैसे एशिया → यूएसए), यात्रा का समय काफी बढ़ सकता है, लेटेंसी ~500ms तक पहुंच सकती है। यह पैटर्न आम हो सकता है यदि यूज़र्स के फोन नंबर उस क्षेत्र के बाहर हैं जिसमें वे स्थित हैं—उन्हें अपने मूल देश के फोन नेटवर्क्स पर हॉप करने के लिए मजबूर करना।
हमें उम्मीद है कि कन्वर्सेशनल AI की यह राउंड-ट्रिप खोज दिलचस्प रही होगी। संक्षेप में, एप्लिकेशन्स को एक सेकंड से कम लेटेंसी को लक्षित करना चाहिए। यह आमतौर पर कार्य के लिए सही LLM का चयन करके पूरा किया जा सकता है। उन्हें यूज़र के साथ इंटरफेस भी करना चाहिए जब अधिक जटिल प्रक्रियाएं बैकग्राउंड में चल रही हों ताकि लंबे विरामों से बचा जा सके।
दिन के अंत में, लक्ष्य वास्तविकता बनाना है। एक यूज़र को एक इंसान से बात करने की सहजता महसूस करनी चाहिए जबकि एक कंप्यूटर प्रोग्राम के लाभ प्राप्त करने चाहिए। उप-प्रक्रियाओं को कसकर, यह अब संभव है।
ElevenLabs में हम अपने अत्याधुनिक STT और TTS मॉडल्स के साथ कन्वर्सेशनल AI सिस्टम के हर हिस्से को अनुकूलित कर रहे हैं। प्रक्रिया के प्रत्येक भाग पर काम करके, हम निर्बाध बातचीत प्रवाह प्राप्त कर सकते हैं। यह शीर्ष-डाउन दृश्य हमें हर मोड़ पर थोड़ी लेटेंसी—यहां तक कि 1ms—कम करने की अनुमति देता है।
80% से अधिक उपयोगकर्ता पूछताछ का सफलतापूर्वक समाधान
हमारा ऑल इन वन प्लेटफॉर्म जो कस्टमाइज़ेबल, इंटरैक्टिव वॉइस एजेंट्स बनाने के लिए है