कन्वर्सेशनल AI एजेंट्स का परीक्षण

मजबूत मूल्यांकन मानदंड और बातचीत सिमुलेशन का उपयोग करके कन्वर्सेशनल AI एजेंट्स का प्रभावी परीक्षण और सुधार कैसे करें, जानें।

Abstract

जब कन्वर्सेशनल एजेंट लाइव होते हैं, तो आप उन्हें बड़े पैमाने पर कैसे मॉनिटर करते हैं? जब वे अपेक्षित तरीके से व्यवहार नहीं कर रहे हों, तो आप कैसे पकड़ते हैं? और एक बार जब आपने बदलाव कर दिए, तो आप उन्हें कैसे टेस्ट करते हैं?

इन सवालों ने हमारे काम को आकार दिया El, हमारा डॉक्यूमेंटेशन असिस्टेंट जो Conversational AI. जैसे-जैसे El विकसित हुआ, हमने निगरानी के लिए एक सिस्टम बनाया, मूल्यांकन, और टेस्टिंग एजेंट्स के लिए, जो मूल्यांकन मानदंड और बातचीत सिमुलेशन पर आधारित है।

नींव रखना: विश्वसनीय मूल्यांकन मानदंड

किसी भी एजेंट को सुधारने की शुरुआत उसके व्यवहार को समझने से होती है। इसके लिए हमें अपने मूल्यांकन मानदंडों को परिष्कृत करना पड़ा और यह सुनिश्चित करना पड़ा कि वे एजेंट के प्रदर्शन की निगरानी के लिए पर्याप्त सटीक और विश्वसनीय हों। हम असफल बातचीत को उस स्थिति के रूप में परिभाषित करते हैं जहां एजेंट या तो गलत जानकारी देता है या यूज़र को उनके लक्ष्य तक पहुंचने में मदद नहीं करता।

Flow chart

हमने निम्नलिखित मूल्यांकन मानदंड विकसित किए:

  • इंटरैक्शन: क्या यह एक वैध बातचीत है, क्या उपयोगकर्ता ने प्रासंगिक प्रश्न पूछे, क्या बातचीत समझ में आई?
  • सकारात्मक इंटरैक्शन: क्या उपयोगकर्ता संतुष्ट होकर गया, या वे भ्रमित या निराश थे?
  • मूल कारण को समझना: क्या एजेंट ने उपयोगकर्ता की मूल समस्या को सही ढंग से पहचाना?
  • उपयोगकर्ता की पूछताछ को हल करना: क्या एजेंट ने उपयोगकर्ता की समस्या हल की या वैकल्पिक समर्थन विधि प्रदान की?
  • भ्रम: क्या एजेंट ने जानकारी का भ्रम पैदा किया जो ज्ञान आधार में नहीं है?

यदि इंटरैक्शन विफल होता है, तो बातचीत स्वयं वैध नहीं है। यदि कोई अन्य मानदंड विफल होता है, तो हम आगे जांच करते हैं। जांच यह मार्गदर्शन करती है कि हम एजेंट को कैसे सुधारें। कभी-कभी यह टूल के उपयोग या समय को परिष्कृत करने के बारे में होता है। अन्य समय में, यह असमर्थित कार्यों को रोकने के लिए गार्डरेल जोड़ने के बारे में होता है।

आत्मविश्वास के साथ पुनरावृत्ति: कन्वर्सेशन सिमुलेशन API

एक बार जब हमने सुधार के लिए क्या करना है पहचान लिया, अगला कदम परीक्षण है। यहीं पर हमारा कन्वर्सेशन सिमुलेशन API इसमें आता है। यह वास्तविक यूज़र परिदृश्यों का अनुकरण करता है - दोनों संपूर्ण और लक्षित खंडों में - और उत्पादन में लागू किए गए समान मानदंडों का उपयोग करके परिणामों का स्वचालित रूप से मूल्यांकन करता है। यह टूल मॉकिंग और कस्टम मूल्यांकन का समर्थन करता है, जिससे यह विशिष्ट व्यवहारों का परीक्षण करने के लिए पर्याप्त लचीला बनता है।

हम दो दृष्टिकोणों का उपयोग करते हैं:

  • पूर्ण सिमुलेशन: शुरू से अंत तक पूरी बातचीत का परीक्षण करें।
  • आंशिक सिमुलेशन: निर्णय बिंदुओं या उप-प्रवाहों को मान्य करने के लिए मध्य बातचीत से शुरू करें। यह यूनिट परीक्षण के लिए हमारी पसंदीदा विधि है, जो तेज़ पुनरावृत्ति और लक्षित डिबगिंग को सक्षम बनाती है।

स्पष्ट, केंद्रित परिदृश्य हमें नियंत्रित करने देते हैं कि LLM का परीक्षण किस पर किया जा रहा है, यह सुनिश्चित करते हुए कि किनारे के मामलों, टूल उपयोग और फॉलबैक लॉजिक के लिए कवरेज हो।

स्केल के लिए स्वचालन: CI/CD में टेस्ट एम्बेड करना

अंतिम हिस्सा है स्वचालन. हमने अपने GitHub DevOps फ्लो के साथ जुड़ने के लिए ElevenLabs की ओपन APIs का उपयोग किया, मूल्यांकन और सिमुलेशन को हमारे CI/CD पाइपलाइन में एम्बेड करके। हर अपडेट को तैनाती से पहले स्वचालित रूप से परीक्षण किया जाता है। यह प्रतिगमन को रोकता है और हमें वास्तविक दुनिया के प्रदर्शन पर तेज़ प्रतिक्रिया देता है।

परिणाम: एक मजबूत, स्मार्ट El

इस प्रक्रिया ने El को बनाने और बनाए रखने के तरीके को बदल दिया। हमने एक फीडबैक लूप बनाया है जो वास्तविक उपयोग को संरचित मूल्यांकन, लक्षित परीक्षण, और स्वचालित सत्यापन से जोड़ता है, जिससे हम सुधारों को तेजी से और अधिक आत्मविश्वास के साथ जारी कर सकते हैं।

और यह एक ढांचा है जिसे हम अब किसी भी एजेंट पर लागू कर सकते हैं जिसे हम बनाते हैं।

ElevenLabs टीम के लेखों को देखें

Customer stories
burda-verlag

Burda - Strategic Partnership for Audio AI and Voice Agent Solutions

BurdaVerlag is partnering with ElevenLabs to integrate its advanced AI audio and voice agent technology into the AISSIST platform. This will provide powerful tools for text-to-speech, transcription, and more, streamlining workflows for media and publishing professionals.

Product
ElevenLabs Agent Testing

Introducing Tests for ElevenLabs Agents

Ensure reliability and compliance with ElevenLabs Agents Testing. Run structured simulations for tool calls, human transfers, workflows, and guardrails. Integrate into CI/CD and ship agents with confidence.

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें