Master LLM Evaluations: The Step-by-Step Playlist for 2026 | New Playlist | CampusX

CampusX

5 chapters7 takeaways15 key terms5 questions

Overview

यह वीडियो एआई इंजीनियर जॉब रोल के लिए एक नई प्लेलिस्ट की शुरुआत करता है, जो एलएलएम इवैल्यूएशंस पर केंद्रित है। यह बताता है कि एलएलएम-आधारित एप्लिकेशन बनाने के बाद उनका मूल्यांकन करना क्यों महत्वपूर्ण है, खासकर प्रोडक्शन में लॉन्च करने से पहले। वीडियो वाइप टेस्टिंग की सीमाओं को उजागर करता है और एयर कनाडा, शेवरले और एक कोलंबियन एयरलाइन से संबंधित केस स्टडीज के माध्यम से गलत मूल्यांकन के खतरों को दर्शाता है। यह पारंपरिक सॉफ्टवेयर परीक्षण और एलएलएम-आधारित सिस्टम के बीच प्रमुख अंतरों की भी व्याख्या करता है, जिसमें नियतात्मक बनाम संभाव्य व्यवहार और बहुआयामी मूल्यांकन की आवश्यकता शामिल है। अंत में, यह प्लेलिस्ट के लिए एक विस्तृत रोडमैप प्रस्तुत करता है, जिसमें एलएलएम मूल्यांकन की मूल बातें, विभिन्न मूल्यांकन तकनीकें, बेंचमार्क, एक कस्टम मूल्यांकन पाइपलाइन का निर्माण, और विशिष्ट अनुप्रयोगों जैसे रैग और एजेंटों के लिए मूल्यांकन शामिल है।

How was this?

Save this permanently with flashcards, quizzes, and AI chat

Chapters

एआई इंजीनियर फाउंडेशन मॉडल (जैसे एलएलएम) का उपयोग करके एप्लिकेशन बनाते हैं।
कैंपस एक्स एआई इंजीनियरिंग जॉब रोल पर ध्यान केंद्रित कर रहा है, जिसमें लैंगचेन, रैग, एजेंट्स और प्रॉम्प्ट इंजीनियरिंग जैसे विषय शामिल हैं।
नई प्लेलिस्ट एलएलएम इवैल्यूएशंस पर केंद्रित है, जो एप्लिकेशन बनाने के बाद उनका मूल्यांकन करने के महत्व पर जोर देती है।
एलएलएम इवैल्यूएशंस को समझना प्रतिस्पर्धियों पर बढ़त देता है और एक स्केलेबल माइंडसेट विकसित करता है।

यह समझना महत्वपूर्ण है कि एलएलएम-आधारित एप्लिकेशन बनाने के बाद उनका मूल्यांकन क्यों किया जाना चाहिए, ताकि उन्हें प्रोडक्शन में सफलतापूर्वक और सुरक्षित रूप से लॉन्च किया जा सके।

यह प्लेलिस्ट एलएलएम इवैल्यूएशंस पर केंद्रित है, जो आपको यह सिखाएगी कि अपने बनाए हुए एलएलएम एप्लिकेशन को कैसे इवैल्यूएट करें और यह तय करें कि उसे प्रोडक्शन में लॉन्च करना चाहिए या नहीं।

अधिकांश लोग एलएलएम एप्लिकेशन बनाने के बाद उन्हें ठीक से इवैल्यूएट नहीं करते हैं, केवल कुछ प्रश्नों के साथ 'वाइप टेस्टिंग' करते हैं।
वाइप टेस्टिंग अनौपचारिक, व्यक्तिपरक और दोहराने योग्य नहीं है, जो केवल व्यक्तिगत परियोजनाओं के लिए उपयुक्त है।
प्रोडक्शन-ग्रेड प्रोजेक्ट्स के लिए वाइप टेस्टिंग अपर्याप्त है और इसके गंभीर परिणाम हो सकते हैं।

वाइप टेस्टिंग जैसी अनौपचारिक विधियों पर भरोसा करने से गंभीर गलतियाँ हो सकती हैं, जैसा कि वास्तविक दुनिया की केस स्टडीज में देखा गया है, जो उत्पादन में एप्लिकेशन लॉन्च करने से पहले कठोर मूल्यांकन की आवश्यकता को रेखांकित करता है।

एयर कनाडा के चैटबॉट ने एक यात्री को गलत जानकारी दी, जिससे एयरलाइन को कानूनी कार्रवाई और वित्तीय नुकसान हुआ क्योंकि चैटबॉट का ठीक से मूल्यांकन नहीं किया गया था।

एयर कनाडा केस स्टडी: एक चैटबॉट ने गलत पॉलिसी जानकारी दी, जिससे ग्राहक को नुकसान हुआ और एयरलाइन पर मुकदमा हुआ।
शेवरले डीलरशिप केस स्टडी: एक डीलर के चैटबॉट को जेलब्रेक किया गया, जिससे कार को $1 में बेचने का झूठा प्रस्ताव मिला, जिससे नकारात्मक प्रचार हुआ।
कोलंबियन एयरलाइन केस स्टडी: एक वकील ने ChatGPT द्वारा उत्पन्न झूठे केस स्टडीज को कोर्ट में पेश किया, जिससे वकील पर जुर्माना लगा।

ये केस स्टडीज दर्शाती हैं कि एलएलएम-आधारित सिस्टम का ठीक से मूल्यांकन किए बिना उन्हें डिप्लॉय करने से प्रतिष्ठा को नुकसान, वित्तीय नुकसान और कानूनी समस्याएं हो सकती हैं।

एक कोलंबियन एयरलाइन के मामले में, एक वकील ने ChatGPT द्वारा बनाए गए काल्पनिक मामलों को सबूत के तौर पर इस्तेमाल करने की कोशिश की, जिसके परिणामस्वरूप वकील पर जुर्माना लगा और केस हार गया।

पारंपरिक सॉफ़्टवेयर नियतात्मक होते हैं: एक ही इनपुट के लिए हमेशा एक ही आउटपुट मिलता है।
एलएलएम-आधारित एप्लिकेशन संभाव्य होते हैं: एक ही इनपुट के लिए विभिन्न आउटपुट मिल सकते हैं।
सॉफ़्टवेयर परीक्षण केवल शुद्धता पर ध्यान केंद्रित करता है, जबकि एलएलएम मूल्यांकन में तथ्यात्मकता, पूर्णता, टोनैलिटी, ग्राउंडेडनेस, लेटेंसी और लागत जैसे कई आयाम शामिल होते हैं।
एलएलएम-आधारित एप्लिकेशन का मूल्यांकन करना सॉफ़्टवेयर की तुलना में अधिक जटिल और बहुआयामी है।

एलएलएम-आधारित सिस्टम की संभाव्य प्रकृति और मूल्यांकन के लिए आवश्यक बहुआयामी दृष्टिकोण को समझने से यह स्पष्ट होता है कि पारंपरिक सॉफ़्टवेयर परीक्षण विधियाँ पर्याप्त क्यों नहीं हैं और एलएलएम-विशिष्ट मूल्यांकन तकनीकों की आवश्यकता क्यों है।

कैलकुलेटर (नियतात्मक) के विपरीत, ChatGPT से मशीन लर्निंग में ओवरफिटिंग के बारे में पूछने पर अलग-अलग समय पर अलग-अलग उत्तर मिल सकते हैं, जिनमें से कोई भी गलत नहीं हो सकता है।

पहला वीडियो एलएलएम इवैल्यूएशंस के महत्व और अवधारणा को समझाएगा।
अगले वीडियो एलएलएम इवैल्यूएशंस के लैंडस्केप, तकनीकों और उपकरणों का अवलोकन प्रदान करेंगे।
प्लेलिस्ट एलएलएम और एलएलएम-आधारित एप्लिकेशन दोनों के मूल्यांकन को कवर करेगी, जिसमें बेंचमार्क और एक कस्टम मूल्यांकन पाइपलाइन का निर्माण शामिल है।
विशिष्ट अनुप्रयोगों जैसे रैग (RAG), एजेंट, सुरक्षा और ऑपरेशनल मूल्यांकन के लिए समर्पित अनुभाग होंगे।

यह विस्तृत रोडमैप सीखने की एक स्पष्ट दिशा प्रदान करता है, जिससे शिक्षार्थी समझ सकते हैं कि प्लेलिस्ट के दौरान कौन से विषय कवर किए जाएंगे और वे एलएलएम मूल्यांकन की अपनी समझ को कैसे व्यवस्थित कर सकते हैं।

प्लेलिस्ट में एक कस्टम इवैल्यूएशन पाइपलाइन बनाने का एक सेक्शन शामिल होगा, जहां आप अपना गोल्डन डेटासेट क्यूरेट करना, रूब्रिक्स परिभाषित करना और इसे अपने एप्लिकेशन पर चलाना सीखेंगे।

Key takeaways

1एआई इंजीनियर एलएलएम का उपयोग करके एप्लिकेशन बनाते हैं, और इन अनुप्रयोगों का मूल्यांकन करना महत्वपूर्ण है।
2वाइप टेस्टिंग एक अनौपचारिक विधि है जो केवल व्यक्तिगत परियोजनाओं के लिए उपयुक्त है और प्रोडक्शन के लिए अपर्याप्त है।
3एलएलएम-आधारित सिस्टम का ठीक से मूल्यांकन न करने से एयर कनाडा और शेवरले जैसी कंपनियों के लिए गंभीर नकारात्मक परिणाम हो सकते हैं।
4एलएलएम-आधारित एप्लिकेशन पारंपरिक सॉफ़्टवेयर की तुलना में अधिक जटिल होते हैं क्योंकि वे संभाव्य होते हैं और उनके मूल्यांकन के लिए कई आयामों की आवश्यकता होती है।
5एलएलएम इवैल्यूएशंस में तथ्यात्मकता, पूर्णता, टोनैलिटी, ग्राउंडेडनेस, लेटेंसी और लागत जैसे कारकों का मूल्यांकन शामिल है।
6इस प्लेलिस्ट का उद्देश्य एलएलएम मूल्यांकन में विशेषज्ञता प्रदान करना है, जिससे शिक्षार्थियों को एआई इंजीनियरिंग में प्रतिस्पर्धात्मक लाभ मिले।
7एलएलएम मूल्यांकन की समझ व्यक्तिगत परियोजनाओं से आगे बढ़कर करोड़ों उपयोगकर्ताओं की सेवा करने वाले स्केलेबल सिस्टम के बारे में सोचने में मदद करती है।

Key terms

AI EngineerFoundation ModelsLLMsLLM EvaluationsLangchainRAG (Retrieval-Augmented Generation)AgentsPrompt EngineeringWipe TestingDeterministicProbabilisticBenchmarkingGolden DatasetRubricsOperational Evaluations

Test your understanding

1एलएलएम-आधारित एप्लिकेशन बनाने के बाद उनका मूल्यांकन करना क्यों महत्वपूर्ण है, खासकर प्रोडक्शन में लॉन्च करने से पहले?
2वाइप टेस्टिंग क्या है और यह प्रोडक्शन-ग्रेड एलएलएम एप्लिकेशन के मूल्यांकन के लिए क्यों अपर्याप्त है?
3एयर कनाडा या शेवरले जैसी केस स्टडीज से एलएलएम मूल्यांकन के बारे में क्या सीखा जा सकता है?
4पारंपरिक सॉफ़्टवेयर परीक्षण और एलएलएम-आधारित एप्लिकेशन के मूल्यांकन के बीच मुख्य अंतर क्या हैं?
5एलएलएम-आधारित एप्लिकेशन का मूल्यांकन करते समय किन विभिन्न आयामों पर विचार किया जाना चाहिए?