
Handling Missing Data | Part 1 | Complete Case Analysis
CampusX
Overview
यह वीडियो मिसिंग डेटा को संभालने के तरीके पर एक परिचय है, विशेष रूप से कंप्लीट केस एनालिसिस (CCA) नामक एक विधि पर ध्यान केंद्रित करते हुए। यह बताता है कि मशीन लर्निंग मॉडल मिसिंग डेटा को अच्छी तरह से हैंडल नहीं कर पाते हैं, इसलिए डेटा साइंटिस्ट को इसे हटाने या भरने की आवश्यकता होती है। वीडियो CCA की अवधारणा, इसके फायदे और नुकसान, और इसे कब लागू किया जाना चाहिए, इस पर चर्चा करता है। यह CCA को लागू करने के लिए एक कोड उदाहरण भी प्रदान करता है, जिसमें यह सुनिश्चित करने के लिए डेटा वितरण की जांच की जाती है कि डेटा को यादृच्छिक रूप से मिसिंग माना जा सकता है। अंत में, यह बताता है कि उत्पादन में CCA की सीमाओं के कारण, अगले वीडियो में इंप्यूटेशन तकनीकों पर ध्यान केंद्रित किया जाएगा।
Save this permanently with flashcards, quizzes, and AI chat
Chapters
- मशीन लर्निंग मॉडल मिसिंग डेटा को हैंडल नहीं कर सकते, इसलिए इसे प्रीप्रोसेसिंग के दौरान हटाना या भरना ज़रूरी है।
- मिसिंग डेटा को संभालने के दो मुख्य विकल्प हैं: पंक्तियों (rows) को हटाना या मिसिंग वैल्यूज को भरना (imputation)।
- यह वीडियो मुख्य रूप से पंक्तियों को हटाने की विधि, जिसे कंप्लीट केस एनालिसिस (CCA) कहा जाता है, पर केंद्रित है।
- इंप्यूटेशन के दो प्रकार हैं: यूनिवेरिएट (एक समय में एक कॉलम) और मल्टीवेरिएट (कई कॉलम एक साथ)।
- CCA का मतलब है उन पंक्तियों को हटाना जिनमें किसी भी कॉलम में मिसिंग वैल्यू हो।
- यह केवल उन अवलोकनों (observations) का विश्लेषण करता है जिनके सभी कॉलम में पूर्ण जानकारी होती है।
- CCA को तभी लागू किया जाना चाहिए जब डेटा 'मिसिंग कम्प्लीटली एट रैंडम' (MCAR) हो, जिसका अर्थ है कि मिसिंग होने का कोई पैटर्न नहीं है।
- CCA को लागू करना आसान है और यदि डेटा MCAR है तो डेटा वितरण को बनाए रख सकता है।
- फायदा: लागू करना बहुत आसान है और इसके लिए किसी जटिल डेटा हेरफेर की आवश्यकता नहीं होती है।
- फायदा: यदि डेटा MCAR है, तो यह मूल डेटा के वितरण को बनाए रख सकता है।
- नुकसान: यह मूल डेटा का एक बड़ा हिस्सा खो सकता है, खासकर यदि कई कॉलम में मिसिंग वैल्यू हों।
- नुकसान: यदि डेटा यादृच्छिक रूप से मिसिंग नहीं है, तो यह डेटा के वितरण को विकृत कर सकता है।
- नुकसान: उत्पादन (production) में उपयोग किए जाने वाले मॉडल मिसिंग डेटा को संभालना नहीं सीख पाते हैं, जिससे समस्याएँ उत्पन्न हो सकती हैं।
- आवश्यकता 1: डेटा 'मिसिंग कम्प्लीटली एट रैंडम' (MCAR) होना चाहिए।
- सामान्य दिशानिर्देश: यदि किसी कॉलम में 5% से कम डेटा मिसिंग है, तो CCA पर विचार किया जा सकता है।
- यदि किसी कॉलम में बहुत अधिक डेटा (जैसे 98%) मिसिंग है, तो उस कॉलम को हटाना एक बेहतर विकल्प हो सकता है।
- CCA लागू करने से पहले, यह सुनिश्चित करने के लिए डेटा वितरण की जाँच करें कि यह MCAR है।
- एक वास्तविक दुनिया के डेटासेट का उपयोग करके CCA को लागू करने का प्रदर्शन किया गया।
- उन कॉलम की पहचान की गई जिनमें 5% से कम मिसिंग डेटा था, जिन पर CCA लागू किया जा सकता है।
- CCA लागू करने से पहले और बाद में संख्यात्मक (numerical) कॉलम के हिस्टोग्राम और घनत्व प्लॉट (density plots) की तुलना की गई।
- यह सुनिश्चित करने के लिए कि डेटा वितरण समान रहे, श्रेणीबद्ध (categorical) कॉलम के लिए श्रेणियों के अनुपात (ratios) की जाँच की गई।
Key takeaways
- मशीन लर्निंग में मिसिंग डेटा एक आम समस्या है जिसे मॉडल को प्रशिक्षित करने से पहले संबोधित किया जाना चाहिए।
- कंप्लीट केस एनालिसिस (CCA) मिसिंग वैल्यू वाली पंक्तियों को हटाकर डेटा को साफ करने का एक सीधा तरीका है।
- CCA का उपयोग केवल तभी किया जाना चाहिए जब यह माना जा सके कि डेटा 'मिसिंग कम्प्लीटली एट रैंडम' (MCAR) है।
- CCA लागू करने से पहले, डेटा हानि और संभावित पूर्वाग्रहों को समझने के लिए डेटा वितरण की सावधानीपूर्वक जाँच की जानी चाहिए।
- उत्पादन में, CCA का उपयोग करने वाले मॉडल मिसिंग डेटा को संभालने में असमर्थ हो सकते हैं, जिससे इंप्यूटेशन जैसी अन्य तकनीकों की आवश्यकता होती है।
- संख्यात्मक कॉलम के लिए हिस्टोग्राम और श्रेणीबद्ध कॉलम के लिए अनुपात की तुलना CCA की प्रभावशीलता का आकलन करने के लिए महत्वपूर्ण है।
Key terms
Test your understanding
- मशीन लर्निंग मॉडल के लिए मिसिंग डेटा एक समस्या क्यों है और इसे संभालने के लिए दो मुख्य तरीके क्या हैं?
- कंप्लीट केस एनालिसिस (CCA) क्या है और यह कैसे काम करता है?
- किन परिस्थितियों में CCA को लागू करना उचित है और किन परिस्थितियों में इससे बचना चाहिए?
- CCA लागू करने के क्या फायदे और नुकसान हैं, खासकर उत्पादन वातावरण के संदर्भ में?
- CCA लागू करने से पहले डेटा की यादृच्छिकता (randomness) को सत्यापित करने के लिए आप किन तकनीकों का उपयोग करेंगे?