वे कैसे ढेर हो गए
भावना और उच्चारण को समझना
जब हमारा संवादात्मक AI भाषण को पाठ में परिवर्तित करता है, तो कुछ जानकारी खो जाती है, जिसमें भाषण की भावना, स्वर और उच्चारण शामिल हैं। चूंकि ओपनएआई का रियलटाइम एपीआई सीधे भाषण से भाषण तक जाता है, इसलिए कोई संदर्भ नहीं खोता है। यह इसे कुछ उपयोग मामलों के लिए अधिक उपयुक्त बनाता है, जैसे किसी नई भाषा को सीखते समय किसी के उच्चारण को सही करना या चिकित्सा में भावनाओं की पहचान करना और उन पर प्रतिक्रिया करना।
FLEXIBILITY
रियलटाइम एपीआई का उपयोग करते समय, आप पूर्ण वार्तालाप अनुभव के लिए ओपनएआई के बुनियादी ढांचे का उपयोग कर रहे हैं। किसी अन्य कंपनी के एलएलएम को एकीकृत करना या अपना स्वयं का एलएलएम लाना संभव नहीं है, क्योंकि रियलटाइम एपीआई केवल ऑडियो को इनपुट के रूप में लेता है और ऑडियो को आउटपुट के रूप में लौटाता है।
हमारे संवादात्मक AI प्लेटफ़ॉर्म के साथ, आप किसी भी समय अपने मॉडल को संचालित करने वाले LLM को बदल सकते हैं (OpenAI के मॉडल का उपयोग करने सहित)। चूंकि एंथ्रोपिक, ओपनएआई, गूगल, एनवीआईडीआईए और अन्य कंपनियां सर्वाधिक प्रदर्शन करने वाले एलएलएम की दौड़ में एक-दूसरे से आगे चल रही हैं, इसलिए आप किसी भी समय अपडेट कर सकते हैं, ताकि आप हमेशा अत्याधुनिक तकनीक का उपयोग कर सकें।
और जिन कंपनियों ने प्रदर्शन या गोपनीयता कारणों से अपने स्वयं के इन-हाउस फाइन-ट्यून्ड एलएलएम का निर्माण किया है, उनके लिए इसे इलेवनलैब के कन्वर्सेशनल एआई प्लेटफॉर्म के साथ एकीकृत करना संभव है, लेकिन ओपनएआई के रियलटाइम एपीआई के साथ नहीं।
विलंब
विलंबता के लिए किसी भी मॉडल का मूल्यांकन करते समय, दो महत्वपूर्ण कारकों पर विचार करना होता है
(1) क्या औसत विलंबता निर्बाध उपयोगकर्ता अनुभव बनाने के लिए पर्याप्त कम है?
(2) विलंबता में कितना उतार-चढ़ाव होता है और P90 और P99 विलंबता के लिए उपयोगकर्ता अनुभव कैसा दिखता है?
ओपनएआई रियलटाइम एपीआई का एक संभावित लाभ यह है कि चूंकि यह भाषण को पाठ में बदलने के मध्यवर्ती चरण को समाप्त कर देता है, इसलिए इसकी कुल विलंबता कम होने की संभावना है।
हालांकि, एक संभावित नकारात्मक पहलू वह लचीलापन है जिसकी चर्चा हमने पहले की थी। पिछले कुछ सप्ताहों में हमारे परीक्षण में, 40-मिनी शुरू में हमारे कन्वर्सेशनल एआई प्लेटफॉर्म के साथ जोड़ी बनाने वाला सबसे कम विलंबता वाला एलएलएम था। इस सप्ताह, इसकी विलंबता दोगुनी से भी अधिक हो गई, जिसके कारण हमारे उपयोगकर्ताओं ने जेमिनी फ्लैश 1.5 पर स्विच कर लिया। रियलटाइम एपीआई के साथ, अधिक तीव्र LLM पर पहुंचना संभव नहीं है।
यह भी ध्यान रखें कि आपके कन्वर्सेशनल AI एप्लिकेशन के लिए अंत से अंत तक विलंबता न केवल आपके प्रदाता पर निर्भर करेगी, बल्कि आपके एजेंट के ज्ञान आधार के आकार और आपकी नेटवर्क स्थितियों पर भी निर्भर करेगी।
आवाज़ विकल्प
ओपनएआई के रियलटाइम एपीआई में वर्तमान में 6 वॉयस विकल्प हैं। हमारी वॉयस लाइब्रेरी में 3,000 से अधिक आवाज़ें हैं। आप हमारे प्लेटफॉर्म पर अपनी स्वयं की कस्टम आवाज का उपयोग करने के लिए प्रोफेशनल वॉयस क्लोनिंग का भी उपयोग कर सकते हैं। इसका मतलब यह है कि रियलटाइम एपीआई आपको अपने ब्रांड या सामग्री के लिए अद्वितीय आवाज़ चुनने की अनुमति नहीं देगा।
कीमत
रियलटाइम एपीआई में, ऑडियो इनपुट की कीमत 100 डॉलर प्रति 1M टोकन है और आउटपुट की कीमत 200 डॉलर प्रति 1M टोकन है। यह ऑडियो इनपुट के लिए लगभग 0.06 डॉलर प्रति मिनट और ऑडियो आउटपुट के लिए 0.24 डॉलर प्रति मिनट के बराबर है।
इलेवनलैब्स कन्वर्सेशनल एआई की लागत 1 हजार क्रेडिट प्रति मिनट (+ एलएलएम लागत) है, जो हमारी व्यावसायिक योजना पर 10 सेंट प्रति मिनट (+ एलएलएम लागत) है और उच्च कॉल वॉल्यूम वाले एंटरप्राइज़ ग्राहकों के लिए कुछ सेंट प्रति मिनट जितनी कम है।
अतिरिक्त प्लेटफ़ॉर्म सुविधाएँ
प्रत्येक कॉल के अंत में, रियलटाइम एपीआई JSON-स्वरूपित ईवेंट भेजता है जिसमें कॉल की प्रतिलिपि और रिकॉर्डिंग और किए गए किसी भी कार्यात्मक कॉल सहित पाठ और ऑडियो खंड शामिल होते हैं। यह आप पर निर्भर है कि आप उस जानकारी को पढ़ें, उसका प्रसंस्करण करें, उस पर रिपोर्ट करें और उसे इस प्रकार प्रदर्शित करें कि वह आपकी टीम के लिए उपयोगी हो।
हमारे प्लेटफॉर्म में कॉल की सफलता का मूल्यांकन करने, संरचना डेटा निकालने, तथा आपकी टीम द्वारा समीक्षा के लिए हमारे डैशबोर्ड में ट्रांसक्रिप्ट, सारांश और रिकॉर्डिंग के साथ उसे प्रदर्शित करने की अंतर्निहित कार्यक्षमता है।