
10:22
Building a simple machine learning model using sklearn
AKAdemy
Overview
यह वीडियो साइकिट-लर्न (sklearn) का उपयोग करके एक साधारण मशीन लर्निंग क्लासिफिकेशन मॉडल बनाने की प्रक्रिया को दर्शाता है। यह आईरिस डेटासेट का उपयोग करता है, डेटा को इनपुट फीचर्स (X) और टारगेट लेबल्स (y) में अलग करता है, और फिर K-नियरेस्ट नेबर (KNN) एल्गोरिथम को लागू करता है। वीडियो मॉडल को प्रशिक्षित करने (फिट करने) और नए, अनदेखे डेटा के लिए भविष्यवाणियां (प्रेडिक्शन) करने के चरणों को स्पष्ट करता है, अंत में संख्यात्मक भविष्यवाणियों को वास्तविक क्लास नामों में मैप करता है।
How was this?
Save this permanently with flashcards, quizzes, and AI chat
Chapters
- आईरिस डेटासेट को साइकिट-लर्न से लोड किया जाता है, जिसमें फूलों की विशेषताओं और उनकी प्रजातियों की जानकारी होती है।
- डेटा को दो भागों में बांटा गया है: 'X' जिसमें चार संख्यात्मक फीचर्स (जैसे सेपल की लंबाई और चौड़ाई) होते हैं, और 'y' जिसमें प्रत्येक फूल के लिए संख्यात्मक लेबल (0, 1, या 2) होते हैं।
- डेटा की 'शेप' (आकार) की जांच की जाती है, जो 150 उदाहरणों और 4 फीचर्स को दर्शाती है।
मॉडल बनाने से पहले डेटा को समझना और उसे सही फॉर्मेट में लाना आवश्यक है, ताकि मॉडल प्रभावी ढंग से सीख सके।
डेटा को X (फीचर्स) और y (लेबल्स) में अलग करना, जैसे कि X में सेपल और पेटल की मापें और y में 0, 1, या 2 के रूप में प्रजाति का कोड।
- क्लासिफिकेशन के लिए K-नियरेस्ट नेबर (KNN) एल्गोरिथम को साइकिट-लर्न से इम्पोर्ट किया जाता है।
- KNN क्लासिफायर का एक ऑब्जेक्ट (इंस्टेंस) बनाया जाता है।
- KNN एक सुपरवाइज्ड लर्निंग एल्गोरिथम है, जिसका अर्थ है कि इसे ट्रेनिंग के लिए इनपुट डेटा (X) और उसके सही आउटपुट (y) दोनों की आवश्यकता होती है।
सही एल्गोरिथम का चयन करना और उसे इम्पोर्ट करना मशीन लर्निंग मॉडल बनाने का पहला महत्वपूर्ण कदम है।
`from sklearn.neighbors import KNeighborsClassifier` का उपयोग करके KNN एल्गोरिथम को इम्पोर्ट करना।
- KNN क्लासिफायर ऑब्जेक्ट के `.fit()` मेथड को कॉल करके मॉडल को ट्रेन किया जाता है।
- `.fit()` मेथड में इनपुट फीचर्स (X) और उनके संबंधित लेबल्स (y) पास किए जाते हैं।
- ट्रेनिंग के बाद, मॉडल डेटा में पैटर्न सीख लेता है और भविष्यवाणियां करने के लिए तैयार हो जाता है।
मॉडल को डेटा पर 'फिट' करना वह प्रक्रिया है जहाँ वह इनपुट और आउटपुट के बीच संबंध सीखता है।
`knn.fit(X, y)` कमांड का उपयोग करके मॉडल को आईरिस डेटा पर ट्रेन करना।
- ट्रेन किए गए मॉडल का उपयोग करके नए डेटा पॉइंट्स के लिए प्रेडिक्शन करने के लिए `.predict()` मेथड का उपयोग किया जाता है।
- `.predict()` मेथड में नए इनपुट फीचर्स (X_new) पास किए जाते हैं, जिनकी डायमेंशन ट्रेनिंग डेटा के समान होनी चाहिए।
- मॉडल संख्यात्मक आउटपुट (0, 1, या 2) के रूप में प्रेडिक्शन देता है, जो डेटासेट के लेबल्स के अनुरूप होते हैं।
मॉडल की उपयोगिता उसकी नए, अनदेखे डेटा पर सटीक भविष्यवाणियां करने की क्षमता में निहित है।
एक नए फूल की चार विशेषताओं (जैसे `[5.1, 3.5, 1.4, 0.2]`) को `.predict()` मेथड में पास करके उसकी प्रजाति का संख्यात्मक लेबल प्राप्त करना।
- मॉडल द्वारा दी गई संख्यात्मक प्रेडिक्शन (0, 1, 2) को समझने योग्य क्लास नामों (जैसे 'setosa', 'versicolor', 'virginica') में बदलना आवश्यक है।
- यह डेटासेट के 'target_names' एट्रिब्यूट का उपयोग करके किया जाता है, जो प्रत्येक संख्यात्मक लेबल के लिए संबंधित नाम प्रदान करता है।
- संख्यात्मक प्रेडिक्शन को 'target_names' के साथ मैप करके फूल का वास्तविक नाम पता लगाया जाता है।
मॉडल की आउटपुट को मानव-पठनीय प्रारूप में प्रस्तुत करना परिणामों की व्याख्या और समझ के लिए महत्वपूर्ण है।
यदि मॉडल प्रेडिक्शन '0' देता है, तो `iris.target_names[0]` का उपयोग करके उसे 'setosa' के रूप में पहचानना।
Key takeaways
- साइकिट-लर्न मशीन लर्निंग मॉडल बनाने की प्रक्रिया को सरल बनाता है।
- किसी भी सुपरवाइज्ड लर्निंग मॉडल के लिए डेटा को फीचर्स (X) और लेबल्स (y) में विभाजित करना एक बुनियादी कदम है।
- KNN जैसे क्लासिफायर को ट्रेन करने के लिए `.fit(X, y)` का उपयोग किया जाता है।
- नए डेटा पर प्रेडिक्शन करने के लिए `.predict(X_new)` मेथड का उपयोग होता है।
- मॉडल की संख्यात्मक आउटपुट को समझने के लिए उसे वास्तविक क्लास नामों से मैप करना महत्वपूर्ण है।
- मॉडल की ट्रेनिंग के दौरान उपयोग किए गए डिफ़ॉल्ट पैरामीटर्स (जैसे K का मान) उसके प्रदर्शन को प्रभावित कर सकते हैं।
Key terms
Scikit-learn (sklearn)Machine Learning ModelClassification TaskIris DatasetFeatures (X)Labels (y)K-Nearest Neighbors (KNN)Supervised LearningModel Fitting (.fit())Prediction (.predict())Target Names
Test your understanding
- KNN क्लासिफायर को ट्रेन करने के लिए `.fit()` मेथड में कौन से दो मुख्य आर्गुमेंट्स पास किए जाते हैं?
- मॉडल द्वारा की गई संख्यात्मक प्रेडिक्शन को वास्तविक क्लास नामों में बदलने के लिए आप किस डेटासेट एट्रिब्यूट का उपयोग करेंगे?
- एक नया, अनदेखा फूल का क्लासिफाई करने के लिए आप ट्रेन किए गए KNN मॉडल के किस मेथड का उपयोग करेंगे?
- KNN एक सुपरवाइज्ड लर्निंग एल्गोरिथम क्यों है, और इसके लिए क्या आवश्यक है?
- आईरिस डेटासेट में 'X' और 'y' का क्या मतलब है और वे मॉडल ट्रेनिंग में कैसे योगदान करते हैं?