Eleven v3 अल्फा का परिचय

v3 आजमाएं

कन्वर्सेशनल AI एजेंट्स का परीक्षण

मजबूत मूल्यांकन मानदंड और बातचीत सिमुलेशन का उपयोग करके कन्वर्सेशनल AI एजेंट्स का प्रभावी परीक्षण और सुधार कैसे करें, जानें।

Abstract

जब कन्वर्सेशनल एजेंट लाइव होते हैं, तो आप उन्हें बड़े पैमाने पर कैसे मॉनिटर करते हैं? जब वे अपेक्षित तरीके से व्यवहार नहीं कर रहे हों, तो आप कैसे पकड़ते हैं? और एक बार जब आपने बदलाव कर दिए, तो आप उन्हें कैसे टेस्ट करते हैं?

इन सवालों ने हमारे काम को आकार दिया Alexis — हमारा डॉक्यूमेंटेशन असिस्टेंट जो संचालित है Conversational AI. जैसे-जैसे Alexis विकसित हुआ, हमने मॉनिटरिंग के लिए एक सिस्टम बनाया, मूल्यांकन, और टेस्टिंग एजेंट्स के लिए, जो मूल्यांकन मानदंड और बातचीत सिमुलेशन पर आधारित है।

नींव रखना: विश्वसनीय मूल्यांकन मानदंड

किसी भी एजेंट को सुधारना शुरू होता है यह समझने से कि वह वास्तविक दुनिया में कैसे व्यवहार करता है। इसका मतलब था हमारे मूल्यांकन मानदंड को परिष्कृत करना — यह सुनिश्चित करना कि वे एजेंट के प्रदर्शन को मॉनिटर करने के लिए सटीक और विश्वसनीय हैं। हम एक असफल बातचीत को उस स्थिति के रूप में परिभाषित करते हैं जहां एजेंट या तो गलत जानकारी देता है या उपयोगकर्ता को उनके लक्ष्य तक पहुंचने में मदद नहीं करता।

Flow chart

हमने निम्नलिखित मूल्यांकन मानदंड विकसित किए:

  • इंटरैक्शन: क्या यह एक वैध बातचीत है, क्या उपयोगकर्ता ने प्रासंगिक प्रश्न पूछे, क्या बातचीत समझ में आई?
  • सकारात्मक इंटरैक्शन: क्या उपयोगकर्ता संतुष्ट होकर गया, या वे भ्रमित या निराश थे?
  • मूल कारण को समझना: क्या एजेंट ने उपयोगकर्ता की मूल समस्या को सही ढंग से पहचाना?
  • उपयोगकर्ता की पूछताछ को हल करना: क्या एजेंट ने उपयोगकर्ता की समस्या हल की या वैकल्पिक समर्थन विधि प्रदान की?
  • भ्रम: क्या एजेंट ने जानकारी का भ्रम पैदा किया जो ज्ञान आधार में नहीं है?

यदि इंटरैक्शन विफल होता है, तो बातचीत स्वयं वैध नहीं है। यदि कोई अन्य मानदंड विफल होता है, तो हम आगे जांच करते हैं। जांच यह मार्गदर्शन करती है कि हम एजेंट को कैसे सुधारें। कभी-कभी यह टूल के उपयोग या समय को परिष्कृत करने के बारे में होता है। अन्य समय में, यह असमर्थित कार्यों को रोकने के लिए गार्डरेल जोड़ने के बारे में होता है।

आत्मविश्वास के साथ पुनरावृत्ति: कन्वर्सेशन सिमुलेशन API

एक बार जब हमने सुधार के लिए क्या करना है पहचान लिया, अगला कदम परीक्षण है। यहीं पर हमारा कन्वर्सेशन सिमुलेशन API आता है। यह वास्तविक उपयोगकर्ता परिदृश्यों का सिमुलेशन करता है—पूरे और लक्षित खंडों में — और उत्पादन में लागू किए गए समान मानदंडों का उपयोग करके परिणामों का स्वचालित रूप से मूल्यांकन करता है। यह टूल मॉकिंग और कस्टम मूल्यांकन का समर्थन करता है, जिससे यह विशिष्ट व्यवहारों का परीक्षण करने के लिए लचीला बनता है।

हम दो दृष्टिकोणों का उपयोग करते हैं:

  • पूर्ण सिमुलेशन — शुरू से अंत तक पूरी बातचीत का परीक्षण करें।
  • आंशिक सिमुलेशन — निर्णय बिंदुओं या उप-प्रवाहों को मान्य करने के लिए मध्य बातचीत से शुरू करें। यह हमारी यूनिट टेस्टिंग के लिए पसंदीदा विधि है, जो तेजी से पुनरावृत्ति और लक्षित डिबगिंग को सक्षम बनाती है।

स्पष्ट, केंद्रित परिदृश्य हमें नियंत्रित करने देते हैं कि LLM का परीक्षण किस पर हो रहा है—यह सुनिश्चित करते हुए कि किनारे के मामलों, टूल उपयोग, और फॉलबैक लॉजिक के लिए कवरेज हो।

स्केल के लिए स्वचालन: CI/CD में टेस्ट एम्बेड करना

अंतिम हिस्सा है स्वचालन. हमने ElevenLabs की ओपन APIs का उपयोग करके हमारे GitHub DevOps फ्लो से कनेक्ट किया — हमारे CI/CD पाइपलाइन में मूल्यांकन और सिमुलेशन को एम्बेड किया। हर अपडेट को तैनाती से पहले स्वचालित रूप से परीक्षण किया जाता है। यह प्रतिगमन को रोकता है और हमें वास्तविक दुनिया के प्रदर्शन पर तेज़ प्रतिक्रिया देता है।

परिणाम: एक मजबूत, स्मार्ट Alexis

इस प्रक्रिया ने Alexis को बनाने और बनाए रखने के तरीके को बदल दिया। हमने एक फीडबैक लूप बनाया है जो वास्तविक उपयोग को संरचित मूल्यांकन, लक्षित परीक्षण, और स्वचालित मान्यता के साथ जोड़ता है — जिससे हम सुधारों को तेज़ी से और अधिक आत्मविश्वास के साथ शिप कर सकते हैं।

और यह एक ढांचा है जिसे हम अब किसी भी एजेंट पर लागू कर सकते हैं जिसे हम बनाते हैं।

और जानें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें