Handling Missing Data | Part 1 | Complete Case Analysis

CampusX

5 chapters6 takeaways11 key terms5 questions

Overview

यह वीडियो मिसिंग डेटा को संभालने के तरीके पर एक परिचय है, विशेष रूप से कंप्लीट केस एनालिसिस (CCA) नामक एक विधि पर ध्यान केंद्रित करते हुए। यह बताता है कि मशीन लर्निंग मॉडल मिसिंग डेटा को अच्छी तरह से हैंडल नहीं कर पाते हैं, इसलिए डेटा साइंटिस्ट को इसे हटाने या भरने की आवश्यकता होती है। वीडियो CCA की अवधारणा, इसके फायदे और नुकसान, और इसे कब लागू किया जाना चाहिए, इस पर चर्चा करता है। यह CCA को लागू करने के लिए एक कोड उदाहरण भी प्रदान करता है, जिसमें यह सुनिश्चित करने के लिए डेटा वितरण की जांच की जाती है कि डेटा को यादृच्छिक रूप से मिसिंग माना जा सकता है। अंत में, यह बताता है कि उत्पादन में CCA की सीमाओं के कारण, अगले वीडियो में इंप्यूटेशन तकनीकों पर ध्यान केंद्रित किया जाएगा।

How was this?

Save this permanently with flashcards, quizzes, and AI chat

Chapters

मशीन लर्निंग मॉडल मिसिंग डेटा को हैंडल नहीं कर सकते, इसलिए इसे प्रीप्रोसेसिंग के दौरान हटाना या भरना ज़रूरी है।
मिसिंग डेटा को संभालने के दो मुख्य विकल्प हैं: पंक्तियों (rows) को हटाना या मिसिंग वैल्यूज को भरना (imputation)।
यह वीडियो मुख्य रूप से पंक्तियों को हटाने की विधि, जिसे कंप्लीट केस एनालिसिस (CCA) कहा जाता है, पर केंद्रित है।
इंप्यूटेशन के दो प्रकार हैं: यूनिवेरिएट (एक समय में एक कॉलम) और मल्टीवेरिएट (कई कॉलम एक साथ)।

यह समझना महत्वपूर्ण है कि मिसिंग डेटा मशीन लर्निंग मॉडल के प्रदर्शन को कैसे प्रभावित कर सकता है और इसे संभालने के लिए उपलब्ध बुनियादी दृष्टिकोण क्या हैं।

यदि किसी डेटासेट में 5 पंक्तियाँ और 4 कॉलम हैं, और तीसरी पंक्ति के पहले कॉलम में एक मान गायब है, तो CCA में उस पूरी तीसरी पंक्ति को हटा दिया जाएगा।

CCA का मतलब है उन पंक्तियों को हटाना जिनमें किसी भी कॉलम में मिसिंग वैल्यू हो।
यह केवल उन अवलोकनों (observations) का विश्लेषण करता है जिनके सभी कॉलम में पूर्ण जानकारी होती है।
CCA को तभी लागू किया जाना चाहिए जब डेटा 'मिसिंग कम्प्लीटली एट रैंडम' (MCAR) हो, जिसका अर्थ है कि मिसिंग होने का कोई पैटर्न नहीं है।
CCA को लागू करना आसान है और यदि डेटा MCAR है तो डेटा वितरण को बनाए रख सकता है।

CCA एक सरल तरीका है, लेकिन यह तभी प्रभावी होता है जब डेटा यादृच्छिक रूप से मिसिंग हो; अन्यथा, यह महत्वपूर्ण जानकारी खो सकता है या पूर्वाग्रह (bias) पैदा कर सकता है।

यदि किसी डेटासेट में 1000 पंक्तियाँ हैं और एक कॉलम में 50 मान गायब हैं, तो CCA लागू करने पर 950 पंक्तियों का डेटासेट रह जाएगा।

फायदा: लागू करना बहुत आसान है और इसके लिए किसी जटिल डेटा हेरफेर की आवश्यकता नहीं होती है।
फायदा: यदि डेटा MCAR है, तो यह मूल डेटा के वितरण को बनाए रख सकता है।
नुकसान: यह मूल डेटा का एक बड़ा हिस्सा खो सकता है, खासकर यदि कई कॉलम में मिसिंग वैल्यू हों।
नुकसान: यदि डेटा यादृच्छिक रूप से मिसिंग नहीं है, तो यह डेटा के वितरण को विकृत कर सकता है।
नुकसान: उत्पादन (production) में उपयोग किए जाने वाले मॉडल मिसिंग डेटा को संभालना नहीं सीख पाते हैं, जिससे समस्याएँ उत्पन्न हो सकती हैं।

CCA के लाभों को इसके महत्वपूर्ण नुकसानों के विरुद्ध तौलना महत्वपूर्ण है, विशेष रूप से उत्पादन वातावरण में मॉडल की तैनाती के संबंध में।

यदि किसी मॉडल को CCA का उपयोग करके प्रशिक्षित किया गया है, तो उत्पादन में आने वाले नए डेटा में मिसिंग वैल्यू होने पर वह अप्रत्याशित व्यवहार कर सकता है क्योंकि उसने ऐसे डेटा को कभी नहीं देखा है।

आवश्यकता 1: डेटा 'मिसिंग कम्प्लीटली एट रैंडम' (MCAR) होना चाहिए।
सामान्य दिशानिर्देश: यदि किसी कॉलम में 5% से कम डेटा मिसिंग है, तो CCA पर विचार किया जा सकता है।
यदि किसी कॉलम में बहुत अधिक डेटा (जैसे 98%) मिसिंग है, तो उस कॉलम को हटाना एक बेहतर विकल्प हो सकता है।
CCA लागू करने से पहले, यह सुनिश्चित करने के लिए डेटा वितरण की जाँच करें कि यह MCAR है।

सही समय पर CCA का उपयोग करने से डेटा हानि कम होती है और यह सुनिश्चित होता है कि विश्लेषण विश्वसनीय है, जबकि गलत उपयोग से गलत निष्कर्ष निकल सकते हैं।

यदि किसी कॉलम में केवल 2% मान मिसिंग हैं और वे यादृच्छिक रूप से वितरित हैं, तो CCA लागू करना उचित हो सकता है। यदि 90% मान मिसिंग हैं, तो कॉलम को हटाना बेहतर है।

एक वास्तविक दुनिया के डेटासेट का उपयोग करके CCA को लागू करने का प्रदर्शन किया गया।
उन कॉलम की पहचान की गई जिनमें 5% से कम मिसिंग डेटा था, जिन पर CCA लागू किया जा सकता है।
CCA लागू करने से पहले और बाद में संख्यात्मक (numerical) कॉलम के हिस्टोग्राम और घनत्व प्लॉट (density plots) की तुलना की गई।
यह सुनिश्चित करने के लिए कि डेटा वितरण समान रहे, श्रेणीबद्ध (categorical) कॉलम के लिए श्रेणियों के अनुपात (ratios) की जाँच की गई।

यह व्यावहारिक उदाहरण दिखाता है कि CCA को कैसे लागू किया जाए और यह सत्यापित करने के लिए कि यह डेटा के अंतर्निहित वितरण को महत्वपूर्ण रूप से नहीं बदलता है, महत्वपूर्ण जाँच कैसे की जाए।

ट्रेनिंग आवर्स (numerical) और एनरोल्ड यूनिवर्सिटी (categorical) जैसे कॉलम के लिए CCA लागू करने से पहले और बाद के वितरण प्लॉट की तुलना की गई ताकि यह पुष्टि हो सके कि डेटा यादृच्छिक रूप से मिसिंग था।

Key takeaways

1मशीन लर्निंग में मिसिंग डेटा एक आम समस्या है जिसे मॉडल को प्रशिक्षित करने से पहले संबोधित किया जाना चाहिए।
2कंप्लीट केस एनालिसिस (CCA) मिसिंग वैल्यू वाली पंक्तियों को हटाकर डेटा को साफ करने का एक सीधा तरीका है।
3CCA का उपयोग केवल तभी किया जाना चाहिए जब यह माना जा सके कि डेटा 'मिसिंग कम्प्लीटली एट रैंडम' (MCAR) है।
4CCA लागू करने से पहले, डेटा हानि और संभावित पूर्वाग्रहों को समझने के लिए डेटा वितरण की सावधानीपूर्वक जाँच की जानी चाहिए।
5उत्पादन में, CCA का उपयोग करने वाले मॉडल मिसिंग डेटा को संभालने में असमर्थ हो सकते हैं, जिससे इंप्यूटेशन जैसी अन्य तकनीकों की आवश्यकता होती है।
6संख्यात्मक कॉलम के लिए हिस्टोग्राम और श्रेणीबद्ध कॉलम के लिए अनुपात की तुलना CCA की प्रभावशीलता का आकलन करने के लिए महत्वपूर्ण है।

Key terms

Missing DataFeature EngineeringMachine Learning AlgorithmsComplete Case Analysis (CCA)ImputationUnivariate ImputationMultivariate ImputationMissing Completely At Random (MCAR)Data DistributionNumerical DataCategorical Data

Test your understanding

1मशीन लर्निंग मॉडल के लिए मिसिंग डेटा एक समस्या क्यों है और इसे संभालने के लिए दो मुख्य तरीके क्या हैं?
2कंप्लीट केस एनालिसिस (CCA) क्या है और यह कैसे काम करता है?
3किन परिस्थितियों में CCA को लागू करना उचित है और किन परिस्थितियों में इससे बचना चाहिए?
4CCA लागू करने के क्या फायदे और नुकसान हैं, खासकर उत्पादन वातावरण के संदर्भ में?
5CCA लागू करने से पहले डेटा की यादृच्छिकता (randomness) को सत्यापित करने के लिए आप किन तकनीकों का उपयोग करेंगे?