Building a simple machine learning model using sklearn

AKAdemy

5 chapters6 takeaways11 key terms5 questions

Overview

यह वीडियो साइकिट-लर्न (sklearn) का उपयोग करके एक साधारण मशीन लर्निंग क्लासिफिकेशन मॉडल बनाने की प्रक्रिया को दर्शाता है। यह आईरिस डेटासेट का उपयोग करता है, डेटा को इनपुट फीचर्स (X) और टारगेट लेबल्स (y) में अलग करता है, और फिर K-नियरेस्ट नेबर (KNN) एल्गोरिथम को लागू करता है। वीडियो मॉडल को प्रशिक्षित करने (फिट करने) और नए, अनदेखे डेटा के लिए भविष्यवाणियां (प्रेडिक्शन) करने के चरणों को स्पष्ट करता है, अंत में संख्यात्मक भविष्यवाणियों को वास्तविक क्लास नामों में मैप करता है।

How was this?

Save this permanently with flashcards, quizzes, and AI chat

Chapters

आईरिस डेटासेट को साइकिट-लर्न से लोड किया जाता है, जिसमें फूलों की विशेषताओं और उनकी प्रजातियों की जानकारी होती है।
डेटा को दो भागों में बांटा गया है: 'X' जिसमें चार संख्यात्मक फीचर्स (जैसे सेपल की लंबाई और चौड़ाई) होते हैं, और 'y' जिसमें प्रत्येक फूल के लिए संख्यात्मक लेबल (0, 1, या 2) होते हैं।
डेटा की 'शेप' (आकार) की जांच की जाती है, जो 150 उदाहरणों और 4 फीचर्स को दर्शाती है।

मॉडल बनाने से पहले डेटा को समझना और उसे सही फॉर्मेट में लाना आवश्यक है, ताकि मॉडल प्रभावी ढंग से सीख सके।

डेटा को X (फीचर्स) और y (लेबल्स) में अलग करना, जैसे कि X में सेपल और पेटल की मापें और y में 0, 1, या 2 के रूप में प्रजाति का कोड।

क्लासिफिकेशन के लिए K-नियरेस्ट नेबर (KNN) एल्गोरिथम को साइकिट-लर्न से इम्पोर्ट किया जाता है।
KNN क्लासिफायर का एक ऑब्जेक्ट (इंस्टेंस) बनाया जाता है।
KNN एक सुपरवाइज्ड लर्निंग एल्गोरिथम है, जिसका अर्थ है कि इसे ट्रेनिंग के लिए इनपुट डेटा (X) और उसके सही आउटपुट (y) दोनों की आवश्यकता होती है।

सही एल्गोरिथम का चयन करना और उसे इम्पोर्ट करना मशीन लर्निंग मॉडल बनाने का पहला महत्वपूर्ण कदम है।

`from sklearn.neighbors import KNeighborsClassifier` का उपयोग करके KNN एल्गोरिथम को इम्पोर्ट करना।

KNN क्लासिफायर ऑब्जेक्ट के `.fit()` मेथड को कॉल करके मॉडल को ट्रेन किया जाता है।
`.fit()` मेथड में इनपुट फीचर्स (X) और उनके संबंधित लेबल्स (y) पास किए जाते हैं।
ट्रेनिंग के बाद, मॉडल डेटा में पैटर्न सीख लेता है और भविष्यवाणियां करने के लिए तैयार हो जाता है।

मॉडल को डेटा पर 'फिट' करना वह प्रक्रिया है जहाँ वह इनपुट और आउटपुट के बीच संबंध सीखता है।

`knn.fit(X, y)` कमांड का उपयोग करके मॉडल को आईरिस डेटा पर ट्रेन करना।

ट्रेन किए गए मॉडल का उपयोग करके नए डेटा पॉइंट्स के लिए प्रेडिक्शन करने के लिए `.predict()` मेथड का उपयोग किया जाता है।
`.predict()` मेथड में नए इनपुट फीचर्स (X_new) पास किए जाते हैं, जिनकी डायमेंशन ट्रेनिंग डेटा के समान होनी चाहिए।
मॉडल संख्यात्मक आउटपुट (0, 1, या 2) के रूप में प्रेडिक्शन देता है, जो डेटासेट के लेबल्स के अनुरूप होते हैं।

मॉडल की उपयोगिता उसकी नए, अनदेखे डेटा पर सटीक भविष्यवाणियां करने की क्षमता में निहित है।

एक नए फूल की चार विशेषताओं (जैसे `[5.1, 3.5, 1.4, 0.2]`) को `.predict()` मेथड में पास करके उसकी प्रजाति का संख्यात्मक लेबल प्राप्त करना।

मॉडल द्वारा दी गई संख्यात्मक प्रेडिक्शन (0, 1, 2) को समझने योग्य क्लास नामों (जैसे 'setosa', 'versicolor', 'virginica') में बदलना आवश्यक है।
यह डेटासेट के 'target_names' एट्रिब्यूट का उपयोग करके किया जाता है, जो प्रत्येक संख्यात्मक लेबल के लिए संबंधित नाम प्रदान करता है।
संख्यात्मक प्रेडिक्शन को 'target_names' के साथ मैप करके फूल का वास्तविक नाम पता लगाया जाता है।

मॉडल की आउटपुट को मानव-पठनीय प्रारूप में प्रस्तुत करना परिणामों की व्याख्या और समझ के लिए महत्वपूर्ण है।

यदि मॉडल प्रेडिक्शन '0' देता है, तो `iris.target_names[0]` का उपयोग करके उसे 'setosa' के रूप में पहचानना।

Key takeaways

1साइकिट-लर्न मशीन लर्निंग मॉडल बनाने की प्रक्रिया को सरल बनाता है।
2किसी भी सुपरवाइज्ड लर्निंग मॉडल के लिए डेटा को फीचर्स (X) और लेबल्स (y) में विभाजित करना एक बुनियादी कदम है।
3KNN जैसे क्लासिफायर को ट्रेन करने के लिए `.fit(X, y)` का उपयोग किया जाता है।
4नए डेटा पर प्रेडिक्शन करने के लिए `.predict(X_new)` मेथड का उपयोग होता है।
5मॉडल की संख्यात्मक आउटपुट को समझने के लिए उसे वास्तविक क्लास नामों से मैप करना महत्वपूर्ण है।
6मॉडल की ट्रेनिंग के दौरान उपयोग किए गए डिफ़ॉल्ट पैरामीटर्स (जैसे K का मान) उसके प्रदर्शन को प्रभावित कर सकते हैं।

Key terms

Scikit-learn (sklearn)Machine Learning ModelClassification TaskIris DatasetFeatures (X)Labels (y)K-Nearest Neighbors (KNN)Supervised LearningModel Fitting (.fit())Prediction (.predict())Target Names

Test your understanding

1KNN क्लासिफायर को ट्रेन करने के लिए `.fit()` मेथड में कौन से दो मुख्य आर्गुमेंट्स पास किए जाते हैं?
2मॉडल द्वारा की गई संख्यात्मक प्रेडिक्शन को वास्तविक क्लास नामों में बदलने के लिए आप किस डेटासेट एट्रिब्यूट का उपयोग करेंगे?
3एक नया, अनदेखा फूल का क्लासिफाई करने के लिए आप ट्रेन किए गए KNN मॉडल के किस मेथड का उपयोग करेंगे?
4KNN एक सुपरवाइज्ड लर्निंग एल्गोरिथम क्यों है, और इसके लिए क्या आवश्यक है?
5आईरिस डेटासेट में 'X' और 'y' का क्या मतलब है और वे मॉडल ट्रेनिंग में कैसे योगदान करते हैं?