Eleven Music से मिलें। किसी भी पल के लिए परफेक्ट गाना बनाएं।

और जानें

कन्वर्सेशनल AI एजेंट्स का परीक्षण

मजबूत मूल्यांकन मानदंड और बातचीत सिमुलेशन का उपयोग करके कन्वर्सेशनल AI एजेंट्स का प्रभावी परीक्षण और सुधार कैसे करें, जानें।

Abstract

जब कन्वर्सेशनल एजेंट लाइव होते हैं, तो आप उन्हें बड़े पैमाने पर कैसे मॉनिटर करते हैं? जब वे अपेक्षित तरीके से व्यवहार नहीं कर रहे हों, तो आप कैसे पकड़ते हैं? और एक बार जब आपने बदलाव कर दिए, तो आप उन्हें कैसे टेस्ट करते हैं?

इन सवालों ने हमारे काम को आकार दिया El, हमारा डॉक्यूमेंटेशन असिस्टेंट जो Conversational AI. जैसे-जैसे El विकसित हुआ, हमने निगरानी के लिए एक सिस्टम बनाया, मूल्यांकन, और टेस्टिंग एजेंट्स के लिए, जो मूल्यांकन मानदंड और बातचीत सिमुलेशन पर आधारित है।

नींव रखना: विश्वसनीय मूल्यांकन मानदंड

किसी भी एजेंट को सुधारने की शुरुआत उसके व्यवहार को समझने से होती है। इसके लिए हमें अपने मूल्यांकन मानदंडों को परिष्कृत करना पड़ा और यह सुनिश्चित करना पड़ा कि वे एजेंट के प्रदर्शन की निगरानी के लिए पर्याप्त सटीक और विश्वसनीय हों। हम असफल बातचीत को उस स्थिति के रूप में परिभाषित करते हैं जहां एजेंट या तो गलत जानकारी देता है या यूज़र को उनके लक्ष्य तक पहुंचने में मदद नहीं करता।

Flow chart

हमने निम्नलिखित मूल्यांकन मानदंड विकसित किए:

  • इंटरैक्शन: क्या यह एक वैध बातचीत है, क्या उपयोगकर्ता ने प्रासंगिक प्रश्न पूछे, क्या बातचीत समझ में आई?
  • सकारात्मक इंटरैक्शन: क्या उपयोगकर्ता संतुष्ट होकर गया, या वे भ्रमित या निराश थे?
  • मूल कारण को समझना: क्या एजेंट ने उपयोगकर्ता की मूल समस्या को सही ढंग से पहचाना?
  • उपयोगकर्ता की पूछताछ को हल करना: क्या एजेंट ने उपयोगकर्ता की समस्या हल की या वैकल्पिक समर्थन विधि प्रदान की?
  • भ्रम: क्या एजेंट ने जानकारी का भ्रम पैदा किया जो ज्ञान आधार में नहीं है?

यदि इंटरैक्शन विफल होता है, तो बातचीत स्वयं वैध नहीं है। यदि कोई अन्य मानदंड विफल होता है, तो हम आगे जांच करते हैं। जांच यह मार्गदर्शन करती है कि हम एजेंट को कैसे सुधारें। कभी-कभी यह टूल के उपयोग या समय को परिष्कृत करने के बारे में होता है। अन्य समय में, यह असमर्थित कार्यों को रोकने के लिए गार्डरेल जोड़ने के बारे में होता है।

आत्मविश्वास के साथ पुनरावृत्ति: कन्वर्सेशन सिमुलेशन API

एक बार जब हमने सुधार के लिए क्या करना है पहचान लिया, अगला कदम परीक्षण है। यहीं पर हमारा कन्वर्सेशन सिमुलेशन API इसमें आता है। यह वास्तविक यूज़र परिदृश्यों का अनुकरण करता है - दोनों संपूर्ण और लक्षित खंडों में - और उत्पादन में लागू किए गए समान मानदंडों का उपयोग करके परिणामों का स्वचालित रूप से मूल्यांकन करता है। यह टूल मॉकिंग और कस्टम मूल्यांकन का समर्थन करता है, जिससे यह विशिष्ट व्यवहारों का परीक्षण करने के लिए पर्याप्त लचीला बनता है।

हम दो दृष्टिकोणों का उपयोग करते हैं:

  • पूर्ण सिमुलेशन: शुरू से अंत तक पूरी बातचीत का परीक्षण करें।
  • आंशिक सिमुलेशन: निर्णय बिंदुओं या उप-प्रवाहों को मान्य करने के लिए मध्य बातचीत से शुरू करें। यह यूनिट परीक्षण के लिए हमारी पसंदीदा विधि है, जो तेज़ पुनरावृत्ति और लक्षित डिबगिंग को सक्षम बनाती है।

स्पष्ट, केंद्रित परिदृश्य हमें नियंत्रित करने देते हैं कि LLM का परीक्षण किस पर किया जा रहा है, यह सुनिश्चित करते हुए कि किनारे के मामलों, टूल उपयोग और फॉलबैक लॉजिक के लिए कवरेज हो।

स्केल के लिए स्वचालन: CI/CD में टेस्ट एम्बेड करना

अंतिम हिस्सा है स्वचालन. हमने अपने GitHub DevOps फ्लो के साथ जुड़ने के लिए ElevenLabs की ओपन APIs का उपयोग किया, मूल्यांकन और सिमुलेशन को हमारे CI/CD पाइपलाइन में एम्बेड करके। हर अपडेट को तैनाती से पहले स्वचालित रूप से परीक्षण किया जाता है। यह प्रतिगमन को रोकता है और हमें वास्तविक दुनिया के प्रदर्शन पर तेज़ प्रतिक्रिया देता है।

परिणाम: एक मजबूत, स्मार्ट El

इस प्रक्रिया ने El को बनाने और बनाए रखने के तरीके को बदल दिया। हमने एक फीडबैक लूप बनाया है जो वास्तविक उपयोग को संरचित मूल्यांकन, लक्षित परीक्षण, और स्वचालित सत्यापन से जोड़ता है, जिससे हम सुधारों को तेजी से और अधिक आत्मविश्वास के साथ जारी कर सकते हैं।

और यह एक ढांचा है जिसे हम अब किसी भी एजेंट पर लागू कर सकते हैं जिसे हम बनाते हैं।

ElevenLabs टीम के लेखों को देखें

Impact
Sarah Ezekiel, a woman using eye gaze technology to operate a tablet displaying Smartbox Grid communication software

ElevenLabs Impact Program Innovates in Assistive Technology

By integrating ElevenLabs voice technology into Smartbox, a leading provider of tablet-based communication devices, people facing voice loss can speak in a way that feels natural - even in their own voice rebuilt from past recordings - on a device they already use and trust. Our Impact Program ensures those with MND/ALS can access this technology at no cost. For artist and MND advocate Sarah Ezekiel, this meant hearing her authentic voice again after decades.

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें