ब्लैक फ्राइडे

कन्वर्सेशनल AI के लिए लेटेंसी को कैसे ऑप्टिमाइज़ करें?

आखिरी अपडेट 16 अक्तू॰ 2025 • 12 मिनट पढ़ने का समय

लेटेंसी ही अच्छे कन्वर्सेशनल AI एप्लिकेशन्स को बेहतरीन बनाती है

Diagram showing the flow of speech processing from user input to output, including components like telephone network, ASR, VAD, LLM, TTS, and their latency and data flow connections.

Diagram of a speech processing system showing data flow from user input to output speech, including components like telephone network, ASR, VAD, LLM, TTS, and latency indicators.

अधिकांश एप्लिकेशन्स के लिए, लेटेंसी एक मामूली चिंता होती है। हालांकि, कन्वर्सेशनल AI के लिए, लेटेंसी अच्छे एप्लिकेशन्स को बेहतरीन से अलग करती है।

शुरुआत के लिए, कन्वर्सेशनल AI का लक्ष्य काफी प्रेरणादायक है—इंसानी बातचीत जैसा ही अनुभव, स्पर्श और आवाज़ प्रदान करना, जबकि बुद्धिमत्ता में इंसान से आगे बढ़ना। इसे हासिल करने के लिए, एप्लिकेशन को बिना लंबे मौन अंतराल के बातचीत करनी चाहिए। अन्यथा, वास्तविकता टूट जाती है।

कन्वर्सेशनल AI की लेटेंसी चुनौती इसकी टुकड़ों में बंटी प्रकृति से और जटिल हो जाती है। कन्वर्सेशनल AI कई मध्यवर्ती प्रक्रियाओं की श्रृंखला है, जो अपने-अपने क्षेत्रों में अत्याधुनिक मानी जाती हैं। इनमें से प्रत्येक प्रक्रिया अतिरिक्त लेटेंसी जोड़ती है।

एक जनरेटिव वॉइस कंपनी के रूप में, हमने कन्वर्सेशनल AI के लिए लेटेंसी को कम करने के तरीकों का अध्ययन करने में काफी समय बिताया है। आज, हम अपनी सीख साझा करना चाहते हैं, इस उम्मीद में कि यह कन्वर्सेशनल AI एप्लिकेशन्स बनाने में रुचि रखने वाले किसी भी व्यक्ति के लिए सहायक होगी।

चार मुख्य घटक

हर कन्वर्सेशनल AI एप्लिकेशन में कम से कम चार चरण होते हैं: स्पीच टू टेक्स्ट, टर्न-टेकिंग, टेक्स्ट प्रोसेसिंग (जैसे LLMs), और टेक्स्ट टू स्पीच। जबकि ये चरण समानांतर में निष्पादित होते हैं, प्रत्येक चरण फिर भी कुछ लेटेंसी जोड़ता है।

विशेष रूप से, कन्वर्सेशनल AI की लेटेंसी समीकरण अद्वितीय है। कई प्रक्रिया लेटेंसी समस्याओं को एक ही बाधा तक सीमित किया जा सकता है। उदाहरण के लिए, जब एक वेबसाइट डेटाबेस अनुरोध करती है, तो वेब की नेटवर्क लेटेंसी कुल लेटेंसी को चलाती है, जिसमें बैकएंड की VPC लेटेंसी से केवल मामूली योगदान होता है। हालांकि, कन्वर्सेशनल AI की लेटेंसी घटक बहुत भिन्न नहीं होते। वे असमान होते हैं, लेकिन प्रत्येक घटक का लेटेंसी योगदान दूसरों के समान होता है। तदनुसार, लेटेंसी भागों के योग द्वारा संचालित होती है।

ऑटोमैटिक स्पीच रिकग्निशन

सिस्टम का “कान”

ऑटोमैटिक स्पीच रिकग्निशन (ASR)—कभी-कभी स्पीच टू टेक्स्ट (STT) के रूप में संदर्भित—बोली गई ऑडियो को लिखित टेक्स्ट में बदलने की प्रक्रिया है।

ASR की लेटेंसी वह समय नहीं है जो टेक्स्ट उत्पन्न करने में लगता है, क्योंकि स्पीच टू टेक्स्ट प्रक्रिया बैकग्राउंड में चलती है जबकि यूज़र बोलता है। इसके बजाय, लेटेंसी वह समय है जो स्पीच के अंत और टेक्स्ट जनरेशन के अंत के बीच होता है।

Flowchart showing user input speech processed by ASR system.

तदनुसार, छोटे और लंबे बोलने के अंतराल समान ASR लेटेंसी ला सकते हैं। ASR कार्यान्वयन के बीच लेटेंसी भिन्न हो सकती है (कुछ मामलों में, कोई नेटवर्क लेटेंसी नहीं होती क्योंकि मॉडल ब्राउज़र में एम्बेडेड होता है, जैसे Chrome/Chromium)। मानक ओपन सोर्स मॉडल, Whisper, 300ms + लेटेंसी जोड़ता है। हमारा कस्टम कार्यान्वयन <100ms जोड़ता है।

टर्न-टेकिंग / इंटरप्शन

सिस्टम का “सहज ज्ञान”

टर्न-टेकिंग / इंटरप्शन (TTI) एक मध्यवर्ती प्रक्रिया है जो निर्धारित करती है कि यूज़र ने बोलना कब समाप्त किया है। अंतर्निहित मॉडल को वॉइस एक्टिविटी डिटेक्टर (या VAD) के रूप में जाना जाता है।

टर्न-टेकिंग में नियमों का एक जटिल सेट शामिल होता है। एक छोटा भाषण विस्फोट (जैसे “उह-हह”) टर्न को ट्रिगर नहीं करना चाहिए; अन्यथा, बातचीत बहुत स्टैकाटो महसूस होगी। इसके बजाय, इसे आकलन करना चाहिए कि जब यूज़र वास्तव में मॉडल का ध्यान आकर्षित करने की कोशिश कर रहा है। इसे यह भी निर्धारित करना चाहिए कि जब यूज़र अपने विचारों को व्यक्त करने में समाप्त हो गया है।

एक अच्छा VAD नहीं हर बार जब यह मौन का पता लगाता है, एक नया टर्न संकेतित करेगा। शब्दों (और वाक्यांशों) के बीच मौन होता है, और मॉडल को यह सुनिश्चित करने की आवश्यकता होती है कि यूज़र वास्तव में बोलना समाप्त कर चुका है। इसे विश्वसनीय रूप से पूरा करने के लिए, इसे मौन की एक सीमा (या अधिक विशेष रूप से, भाषण की कमी) की तलाश करनी होती है। यह प्रक्रिया एक देरी का परिचय देती है, जो यूज़र द्वारा अनुभव की गई कुल लेटेंसी में योगदान करती है।

Flowchart showing the process of speech recognition and language modeling, with steps including input speech, ASR, VAD, and LLM.

तकनीकी रूप से कहें तो, यदि सभी अन्य कन्वर्सेशनल AI घटकों ने शून्य लेटेंसी उत्पन्न की, तो TTI के लिए जिम्मेदार लेटेंसी एक अच्छी बात होगी। मनुष्य भाषण का जवाब देने से पहले एक पल लेते हैं। एक मशीन का इसी तरह का विराम लेना बातचीत को वास्तविकता प्रदान करता है। हालांकि, चूंकि कन्वर्सेशनल AI के अन्य घटक पहले से ही लेटेंसी उत्पन्न करते हैं, न्यूनतम TTI लेटेंसी आदर्श है।

टेक्स्ट प्रोसेसिंग

सिस्टम का मस्तिष्क

अगला, सिस्टम को एक प्रतिक्रिया उत्पन्न करने की आवश्यकता होती है। आज, यह आमतौर पर एक बड़े भाषा मॉडल (LLM) के साथ पूरा किया जाता है, जैसे GPT-4 या Gemini Flash 1.5।

भाषा मॉडल का चयन एक महत्वपूर्ण अंतर बनाता है। Gemini Flash 1.5 जैसे मॉडल अविश्वसनीय रूप से तेज़ हैं—350ms से कम समय में आउटपुट उत्पन्न करते हैं। अधिक मजबूत मॉडल जो अधिक जटिल प्रश्नों को संभाल सकते हैं—जैसे GPT-4 वेरिएंट और Claude—700ms से 1000ms के बीच ले सकते हैं।सही मॉडल का चयन करना आमतौर पर कन्वर्सेशनल AI प्रक्रिया को अनुकूलित करते समय लेटेंसी को लक्षित करने का सबसे आसान तरीका है।

हालांकि, LLM की लेटेंसी वह समय है जो शुरू करने में लगता है। ये टोकन तुरंत अगले टेक्स्ट टू स्पीच प्रक्रिया में स्ट्रीम किए जा सकते हैं। क्योंकि टेक्स्ट टू स्पीच मानव आवाज़ की प्राकृतिक गति से धीमा होता है, LLM इसे विश्वसनीय रूप से पीछे छोड़ देता है—सबसे महत्वपूर्ण बात पहले टोकन की लेटेंसी है (यानी, पहले बाइट का समय)।

Flowchart of speech processing system showing input speech, ASR, VAD, LLM, and TTS components with data flow and latency indicated.

मॉडल के चयन के अलावा LLM की लेटेंसी में अन्य योगदानकर्ता भी होते हैं। इनमें प्रॉम्प्ट की लंबाई और ज्ञान आधार का आकार शामिल है। इनमें से किसी का भी बड़ा होना, लेटेंसी को लंबा कर सकता है। यह एक सरल सिद्धांत पर आधारित है: जितना अधिक LLM को विचार करना होगा, उतना ही अधिक समय लगेगा। तदनुसार, कंपनियों को मॉडल को अधिक बोझिल किए बिना एक स्वस्थ मात्रा में संदर्भ के बीच संतुलन बनाना होगा।

Text to Speech

सिस्टम का मुँह

कन्वर्सेशनल AI का अंतिम घटक टेक्स्ट टू स्पीच (TTS) है। टेक्स्ट टू स्पीच की नेट लेटेंसी वह समय है जो टेक्स्ट प्रोसेसिंग से इनपुट टोकन प्राप्त करने के बाद बोलना शुरू करने में लगता है। बस इतना ही—क्योंकि अतिरिक्त टोकन मानव भाषण की तुलना में तेज़ी से उपलब्ध कराए जाते हैं, टेक्स्ट टू स्पीच की लेटेंसी केवल पहले बाइट का समय है।

Diagram of a speech processing system showing input speech, ASR, VAD, LLM, TTS, and output speech with data flow and latency indicators.

पहले, टेक्स्ट टू स्पीच विशेष रूप से धीमा था, भाषण उत्पन्न करने में 2-3 सेकंड तक का समय लगता था। हालांकि, अत्याधुनिक मॉडल जैसे हमारा टर्बो इंजन केवल 300ms की लेटेंसी के साथ भाषण उत्पन्न करने में सक्षम हैं और नया फ्लैश TTS इंजन और भी तेज़ है। फ्लैश का मॉडल समय 75ms है और यह e2e 135ms का समय पहले बाइट ऑडियो लेटेंसी प्राप्त कर सकता है, जो क्षेत्र में सबसे अच्छा स्कोर है (हमें थोड़ा गर्व करना पड़ता है!)।

अतिरिक्त योगदानकर्ता

चार घटकों के अलावा, कुछ अतिरिक्त योगदानकर्ता कन्वर्सेशनल AI की नेट लेटेंसी में योगदान करते हैं।

नेटवर्क लेटेंसी

डेटा को एक स्थान से दूसरे स्थान पर भेजने के साथ हमेशा लेटेंसी जुड़ी होती है। कुछ कन्वर्सेशनल AI एप्लिकेशन्स के लिए, ASR, TTI, LLM, और TTS प्रक्रियाओं को आदर्श रूप से सह-स्थित होना चाहिए, ताकि स्पीकर और पूरे सिस्टम के बीच के रास्तों के अलावा कोई महत्वपूर्ण नेटवर्क लेटेंसी स्रोत न हो।यह हमें लेटेंसी पर एक लाभ देता है क्योंकि हमारे पास अपना TTS और एक आंतरिक ट्रांसक्रिप्शन समाधान है, जिससे हम दो सर्वर कॉल्स बचा सकते हैं।

Diagram of a speech processing system showing input speech, ASR, VAD, LLM, TTS, and output speech with latency and network latency indicators.

फंक्शन कॉलिंग

कई कन्वर्सेशनल AI एप्लिकेशन्स का उद्देश्य फंक्शन्स को इनवोक करना होता है (जैसे टूल्स और सेवाओं के साथ इंटरफेस करना)। उदाहरण के लिए, मैं AI से मौखिक रूप से मौसम की जांच करने के लिए कह सकता हूँ। यह अतिरिक्त API कॉल्स की आवश्यकता होती है जो टेक्स्ट प्रोसेसिंग लेयर पर इनवोक की जाती हैं, जो आवश्यकताओं के आधार पर काफी अधिक लेटेंसी ला सकती हैं।

उदाहरण के लिए, यदि मुझे मौखिक रूप से पिज्जा ऑर्डर करना है, तो कई API कॉल्स आवश्यक हो सकती हैं, जिनमें से कुछ में अत्यधिक विलंब हो सकता है (जैसे क्रेडिट कार्ड प्रोसेसिंग)।

Diagram of a speech processing system showing input speech, ASR, VAD, LLM/function calling, TTS, and output speech with data flow and latency indicated.

हालांकि, एक कन्वर्सेशनल AI सिस्टम फंक्शन कॉलिंग से जुड़े विलंबों का मुकाबला कर सकता है, LLM को यूज़र को प्रतिक्रिया देने के लिए प्रेरित करके, इससे पहले कि फंक्शन कॉल समाप्त हो (जैसे “मैं आपके लिए मौसम की जांच करता हूँ”)। यह एक वास्तविक जीवन की बातचीत को मॉडल करता है और यूज़र को बिना जुड़ाव के नहीं रखता।

Flowchart of a speech synthesis system showing user input, system processing, and output speech, with components like ASR, VAD, TTS, and LLM.

ये असिंक पैटर्न आमतौर पर लंबे समय तक चलने वाले अनुरोधों से बचने के लिए वेबहुक्स का उपयोग करके पूरा किए जाते हैं।

टेलीफोनी

एक और सामान्य विशेषता

Diagram of a speech processing system showing data flow and latency between components.

आधार के रूप में, टेलीफोनी एक ही क्षेत्र में सीमित होने पर अतिरिक्त 200ms की लेटेंसी उत्पन्न करेगी। वैश्विक कॉल्स के लिए (जैसे एशिया → यूएसए), यात्रा का समय काफी बढ़ सकता है, लेटेंसी ~500ms तक पहुंच सकती है। यह पैटर्न आम हो सकता है यदि यूज़र्स के फोन नंबर उस क्षेत्र के बाहर हैं जिसमें वे स्थित हैं—उन्हें अपने मूल देश के फोन नेटवर्क्स पर हॉप करने के लिए मजबूर करना।

अंतिम विचार

हमें उम्मीद है कि कन्वर्सेशनल

दिन के अंत में, लक्ष्य वास्तविकता बनाना है। एक यूज़र को एक इंसान से बात करने की सहजता महसूस करनी चाहिए जबकि एक कंप्यूटर प्रोग्राम के लाभ प्राप्त करने चाहिए। उप-प्रक्रियाओं को कसकर, यह अब संभव है।

ElevenLabs में हम कन्वर्सेशनल AI वॉइस एजेंट्स सिस्टम के हर हिस्से को हमारे अत्याधुनिक STT और