
Safety framework for AI voice agents
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
लुट्ज़ फिंगर एक डेटा विज्ञान और उत्पाद प्रबंधन विशेषज्ञ हैं, जिनका करियर लिंक्डइन, गूगल और स्नैपचैट में विस्तृत है। अब कॉर्नेल विश्वविद्यालय में एक संकाय सदस्य के रूप में, उन्होंने एक ऐसा संगठन बनाने का लक्ष्य रखा है जो ऑनलाइन प्रमाणपत्र कार्यक्रम शिक्षार्थियों को त्वरित इंजीनियरिंग, मशीन लर्निंग और डेटा हैंडलिंग में कौशल प्राप्त करते हुए एआई-संचालित उत्पादों और समाधानों का प्रोटोटाइप और निर्माण करना सिखाना।
प्रमाण पत्र, एआई समाधानों का डिजाइन और निर्माण- इसमें बैक प्रोपेगेशन और न्यूरल नेटवर्क जैसे कुछ विषय शामिल हैं - जो अविश्वसनीय रूप से तकनीकी हो सकते हैं। छात्रों को संलग्न रखने और विषय-वस्तु को अधिक सुपाच्य बनाने के लिए, लुट्ज़ ने एक एआई सह-व्याख्याता को बुलाया, जिसकी आवाज एलेवनलैब्स ने दी।
लुट्ज़ के पाठ्यक्रमों में 100 घंटे से अधिक एआई सामग्री शामिल है और इसके प्रमुख अंतरों में से एक एसएआई नामक एआई एजेंट का अभिनव उपयोग है (संवेदनशील ए.आई.)
एसएआई एक एआई शिक्षण सहायक है, जो लुट्ज़ के साथ बातचीत करता है और संभावित रूप से शुष्क विषय-वस्तु को यादगार बातचीत में बदल देता है। उदाहरण के लिए, एक बातचीत में, SAI कहता है, "मुझे लगता है", जिस पर लुट्ज़ चुटकी लेते हुए कहते हैं, "मुझे नहीं लगता कि आप सोचते हैं, मुझे लगता है कि आपके पास बस भार है" - यह AI मॉडल की आंतरिक कार्यप्रणाली के प्रति एक मजाकिया इशारा है।
एसएआई बनाते समय लुट्ज़ केनेथ कुकीर की आवाज का उपयोग करना चाहते थे। केनेथ एक अग्रणी तकनीकी लेखक हैं, जिनकी आवाज आत्मविश्वास से भरी और मधुर है, तथा लुट्ज़ उन्हें व्यक्तिगत रूप से जानते हैं। यह एकदम सही जोड़ी थी।
परियोजना से उत्साहित होकर, केनेथ ने केवल 1 डॉलर का भुगतान करने का प्रस्ताव रखा - लेकिन हमेशा की तरह एक प्रौद्योगिकीविद्, लुट्ज़ ने उन्हें 404 डॉलर (प्रसिद्ध "नॉट फाउंड" HTTP त्रुटि कोड के लिए एक संकेत) देने का निर्णय लिया।
केनेथ का समय बचाने के लिए, लुट्ज़ ने आवाज़ निकालने का प्रयास किया क्लोन केनेथ की ओर से, केवल हमारे द्वारा अवरुद्ध किया जाना वॉइसCAPTCHA सुरक्षा तंत्र. जब उन्हें केनेथ के साथ हमारी साइट पर उनकी सहमति की पुष्टि करने का समय मिला तो वे सामग्री बनाना शुरू करने के लिए तैयार थे।
ईकॉर्नेल की टीम ने उच्चारण को सही करने के लिए बड़े पैमाने पर काम किया। प्रारंभ में, लुट्ज़ ने स्क्रिप्ट तैयार की और स्टूडियो में रिकॉर्ड किया, जो वास्तविक समय में इलेवनलैब्स की पीढ़ियों के अनुरूप था। बाद में पोस्ट-प्रोडक्शन में आवाज को परिष्कृत किया गया।
परिणाम की जांच करने के लिए, लुट्ज़ ने केनेथ की पत्नी को SAI की रिकॉर्डिंग भेजी और पूछा कि क्या यह वही है। उसने जवाब दिया कि वह जानती थी कि ऐसा नहीं है, लेकिन आवाज के कारण नहीं। एकमात्र 'बताओ'? उन्होंने ऐसे वाक्यांशों का प्रयोग किया जो वे सामान्यतः कभी नहीं कहते थे।
लुट्ज़ के पाठ्यक्रम की सफलता दर्शाती है कि कैसे एआई ऑडियो शैक्षिक सामग्री को बढ़ा सकता है और शिक्षार्थियों के लिए बेहतर परिणाम प्रदान कर सकता है। एसएआई ने पाठ्यक्रमों में एक मजेदार मोड़ जोड़ा है। छात्र केवल यह नहीं सीखते कि एआई सिद्धांत रूप में कैसे काम करता है - वे इसे क्रियान्वित होते हुए भी देखते हैं। एसएआई विषय-वस्तु को उनकी आंखों के सामने जीवंत कर देता है।
हम यह देखकर रोमांचित हैं कि शैक्षणिक सामग्री को और अधिक सुलभ बनाने के लिए AI ऑडियो का उपयोग किया जा रहा है। किसी भी भाषा और आवाज़ में सामग्री उपलब्ध कराकर, शिक्षक अधिक छात्रों तक पहुंच सकते हैं और उन्हें संलग्न रख सकते हैं।
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
Tips from latency-sensitive RAG systems in production
ElevenLabs द्वारा संचालित कन्वर्सेशनल AI