Handling Missing Data | Part 1 | Complete Case Analysis
24:54

Handling Missing Data | Part 1 | Complete Case Analysis

CampusX

5 chapters6 takeaways11 key terms5 questions

Overview

यह वीडियो मिसिंग डेटा को संभालने के तरीके पर एक परिचय है, विशेष रूप से कंप्लीट केस एनालिसिस (CCA) नामक एक विधि पर ध्यान केंद्रित करते हुए। यह बताता है कि मशीन लर्निंग मॉडल मिसिंग डेटा को अच्छी तरह से हैंडल नहीं कर पाते हैं, इसलिए डेटा साइंटिस्ट को इसे हटाने या भरने की आवश्यकता होती है। वीडियो CCA की अवधारणा, इसके फायदे और नुकसान, और इसे कब लागू किया जाना चाहिए, इस पर चर्चा करता है। यह CCA को लागू करने के लिए एक कोड उदाहरण भी प्रदान करता है, जिसमें यह सुनिश्चित करने के लिए डेटा वितरण की जांच की जाती है कि डेटा को यादृच्छिक रूप से मिसिंग माना जा सकता है। अंत में, यह बताता है कि उत्पादन में CCA की सीमाओं के कारण, अगले वीडियो में इंप्यूटेशन तकनीकों पर ध्यान केंद्रित किया जाएगा।

How was this?

Save this permanently with flashcards, quizzes, and AI chat

Chapters

  • मशीन लर्निंग मॉडल मिसिंग डेटा को हैंडल नहीं कर सकते, इसलिए इसे प्रीप्रोसेसिंग के दौरान हटाना या भरना ज़रूरी है।
  • मिसिंग डेटा को संभालने के दो मुख्य विकल्प हैं: पंक्तियों (rows) को हटाना या मिसिंग वैल्यूज को भरना (imputation)।
  • यह वीडियो मुख्य रूप से पंक्तियों को हटाने की विधि, जिसे कंप्लीट केस एनालिसिस (CCA) कहा जाता है, पर केंद्रित है।
  • इंप्यूटेशन के दो प्रकार हैं: यूनिवेरिएट (एक समय में एक कॉलम) और मल्टीवेरिएट (कई कॉलम एक साथ)।
यह समझना महत्वपूर्ण है कि मिसिंग डेटा मशीन लर्निंग मॉडल के प्रदर्शन को कैसे प्रभावित कर सकता है और इसे संभालने के लिए उपलब्ध बुनियादी दृष्टिकोण क्या हैं।
यदि किसी डेटासेट में 5 पंक्तियाँ और 4 कॉलम हैं, और तीसरी पंक्ति के पहले कॉलम में एक मान गायब है, तो CCA में उस पूरी तीसरी पंक्ति को हटा दिया जाएगा।
  • CCA का मतलब है उन पंक्तियों को हटाना जिनमें किसी भी कॉलम में मिसिंग वैल्यू हो।
  • यह केवल उन अवलोकनों (observations) का विश्लेषण करता है जिनके सभी कॉलम में पूर्ण जानकारी होती है।
  • CCA को तभी लागू किया जाना चाहिए जब डेटा 'मिसिंग कम्प्लीटली एट रैंडम' (MCAR) हो, जिसका अर्थ है कि मिसिंग होने का कोई पैटर्न नहीं है।
  • CCA को लागू करना आसान है और यदि डेटा MCAR है तो डेटा वितरण को बनाए रख सकता है।
CCA एक सरल तरीका है, लेकिन यह तभी प्रभावी होता है जब डेटा यादृच्छिक रूप से मिसिंग हो; अन्यथा, यह महत्वपूर्ण जानकारी खो सकता है या पूर्वाग्रह (bias) पैदा कर सकता है।
यदि किसी डेटासेट में 1000 पंक्तियाँ हैं और एक कॉलम में 50 मान गायब हैं, तो CCA लागू करने पर 950 पंक्तियों का डेटासेट रह जाएगा।
  • फायदा: लागू करना बहुत आसान है और इसके लिए किसी जटिल डेटा हेरफेर की आवश्यकता नहीं होती है।
  • फायदा: यदि डेटा MCAR है, तो यह मूल डेटा के वितरण को बनाए रख सकता है।
  • नुकसान: यह मूल डेटा का एक बड़ा हिस्सा खो सकता है, खासकर यदि कई कॉलम में मिसिंग वैल्यू हों।
  • नुकसान: यदि डेटा यादृच्छिक रूप से मिसिंग नहीं है, तो यह डेटा के वितरण को विकृत कर सकता है।
  • नुकसान: उत्पादन (production) में उपयोग किए जाने वाले मॉडल मिसिंग डेटा को संभालना नहीं सीख पाते हैं, जिससे समस्याएँ उत्पन्न हो सकती हैं।
CCA के लाभों को इसके महत्वपूर्ण नुकसानों के विरुद्ध तौलना महत्वपूर्ण है, विशेष रूप से उत्पादन वातावरण में मॉडल की तैनाती के संबंध में।
यदि किसी मॉडल को CCA का उपयोग करके प्रशिक्षित किया गया है, तो उत्पादन में आने वाले नए डेटा में मिसिंग वैल्यू होने पर वह अप्रत्याशित व्यवहार कर सकता है क्योंकि उसने ऐसे डेटा को कभी नहीं देखा है।
  • आवश्यकता 1: डेटा 'मिसिंग कम्प्लीटली एट रैंडम' (MCAR) होना चाहिए।
  • सामान्य दिशानिर्देश: यदि किसी कॉलम में 5% से कम डेटा मिसिंग है, तो CCA पर विचार किया जा सकता है।
  • यदि किसी कॉलम में बहुत अधिक डेटा (जैसे 98%) मिसिंग है, तो उस कॉलम को हटाना एक बेहतर विकल्प हो सकता है।
  • CCA लागू करने से पहले, यह सुनिश्चित करने के लिए डेटा वितरण की जाँच करें कि यह MCAR है।
सही समय पर CCA का उपयोग करने से डेटा हानि कम होती है और यह सुनिश्चित होता है कि विश्लेषण विश्वसनीय है, जबकि गलत उपयोग से गलत निष्कर्ष निकल सकते हैं।
यदि किसी कॉलम में केवल 2% मान मिसिंग हैं और वे यादृच्छिक रूप से वितरित हैं, तो CCA लागू करना उचित हो सकता है। यदि 90% मान मिसिंग हैं, तो कॉलम को हटाना बेहतर है।
  • एक वास्तविक दुनिया के डेटासेट का उपयोग करके CCA को लागू करने का प्रदर्शन किया गया।
  • उन कॉलम की पहचान की गई जिनमें 5% से कम मिसिंग डेटा था, जिन पर CCA लागू किया जा सकता है।
  • CCA लागू करने से पहले और बाद में संख्यात्मक (numerical) कॉलम के हिस्टोग्राम और घनत्व प्लॉट (density plots) की तुलना की गई।
  • यह सुनिश्चित करने के लिए कि डेटा वितरण समान रहे, श्रेणीबद्ध (categorical) कॉलम के लिए श्रेणियों के अनुपात (ratios) की जाँच की गई।
यह व्यावहारिक उदाहरण दिखाता है कि CCA को कैसे लागू किया जाए और यह सत्यापित करने के लिए कि यह डेटा के अंतर्निहित वितरण को महत्वपूर्ण रूप से नहीं बदलता है, महत्वपूर्ण जाँच कैसे की जाए।
ट्रेनिंग आवर्स (numerical) और एनरोल्ड यूनिवर्सिटी (categorical) जैसे कॉलम के लिए CCA लागू करने से पहले और बाद के वितरण प्लॉट की तुलना की गई ताकि यह पुष्टि हो सके कि डेटा यादृच्छिक रूप से मिसिंग था।

Key takeaways

  1. 1मशीन लर्निंग में मिसिंग डेटा एक आम समस्या है जिसे मॉडल को प्रशिक्षित करने से पहले संबोधित किया जाना चाहिए।
  2. 2कंप्लीट केस एनालिसिस (CCA) मिसिंग वैल्यू वाली पंक्तियों को हटाकर डेटा को साफ करने का एक सीधा तरीका है।
  3. 3CCA का उपयोग केवल तभी किया जाना चाहिए जब यह माना जा सके कि डेटा 'मिसिंग कम्प्लीटली एट रैंडम' (MCAR) है।
  4. 4CCA लागू करने से पहले, डेटा हानि और संभावित पूर्वाग्रहों को समझने के लिए डेटा वितरण की सावधानीपूर्वक जाँच की जानी चाहिए।
  5. 5उत्पादन में, CCA का उपयोग करने वाले मॉडल मिसिंग डेटा को संभालने में असमर्थ हो सकते हैं, जिससे इंप्यूटेशन जैसी अन्य तकनीकों की आवश्यकता होती है।
  6. 6संख्यात्मक कॉलम के लिए हिस्टोग्राम और श्रेणीबद्ध कॉलम के लिए अनुपात की तुलना CCA की प्रभावशीलता का आकलन करने के लिए महत्वपूर्ण है।

Key terms

Missing DataFeature EngineeringMachine Learning AlgorithmsComplete Case Analysis (CCA)ImputationUnivariate ImputationMultivariate ImputationMissing Completely At Random (MCAR)Data DistributionNumerical DataCategorical Data

Test your understanding

  1. 1मशीन लर्निंग मॉडल के लिए मिसिंग डेटा एक समस्या क्यों है और इसे संभालने के लिए दो मुख्य तरीके क्या हैं?
  2. 2कंप्लीट केस एनालिसिस (CCA) क्या है और यह कैसे काम करता है?
  3. 3किन परिस्थितियों में CCA को लागू करना उचित है और किन परिस्थितियों में इससे बचना चाहिए?
  4. 4CCA लागू करने के क्या फायदे और नुकसान हैं, खासकर उत्पादन वातावरण के संदर्भ में?
  5. 5CCA लागू करने से पहले डेटा की यादृच्छिकता (randomness) को सत्यापित करने के लिए आप किन तकनीकों का उपयोग करेंगे?

Turn any lecture into study material

Paste a YouTube URL, PDF, or article. Get flashcards, quizzes, summaries, and AI chat — in seconds.

No credit card required