Building AI Agent for Webpage Support

Piyush Garg

6 chapters7 takeaways11 key terms5 questions

Overview

यह वीडियो एक AI चैटबॉट बनाने की प्रक्रिया को समझाता है जो किसी वेबसाइट के बारे में जानकारी रखता है और सपोर्ट एजेंट के रूप में काम कर सकता है। इसमें वेबसाइट को स्क्रैप करना, डेटा को वेक्टर एंबेडिंग में बदलना, और क्रोमा डीबी जैसे वेक्टर स्टोर का उपयोग करके चैटबॉट को पावर देना शामिल है। यह प्रक्रिया को बिगिनर-फ्रेंडली तरीके से प्रस्तुत करता है और ऑप्टिमाइजेशन के लिए सुझाव भी देता है।

How was this?

Save this permanently with flashcards, quizzes, and AI chat

Chapters

लक्ष्य एक AI चैटबॉट बनाना है जो वेबसाइट के कंटेंट को समझकर सपोर्ट एजेंट की तरह काम करे।
इसमें वेबसाइट को स्क्रैप करना, डेटा को वेक्टर में बदलना और वेक्टर डेटाबेस का उपयोग करना शामिल है।
यह प्रक्रिया को आसान और बिगिनर-फ्रेंडली तरीके से समझाया जाएगा।

यह समझना महत्वपूर्ण है कि हम क्या बनाने जा रहे हैं और इसका अंतिम लक्ष्य क्या है, ताकि पूरी प्रक्रिया के दौरान फोकस बना रहे।

वेबसाइट पर दिखने वाला एक सामान्य चैट आइकन, जिसे AI द्वारा संचालित किया जाएगा।

वेबसाइट को स्क्रैप करके डेटा निकालना पहला कदम है।
अनस्ट्रक्चर्ड HTML डेटा को नंबर्स (वेक्टर) में बदलना होगा जिसे AI समझ सके।
रिकर्सिव स्क्रैपिंग का उपयोग करके वेबसाइट के सभी संबंधित पेजों को कवर किया जाएगा।
Axios और Cheerio जैसे टूल्स का उपयोग करके वेब पेज को लोड और पार्स किया जा सकता है।

डेटा को सही फॉर्मेट में लाना AI मॉडल के लिए आवश्यक है ताकि वह जानकारी को प्रोसेस और समझ सके।

वेब पेज के हेड और बॉडी टैग से टेक्स्ट निकालना, और सभी ए टैग्स से इंटरनल और एक्सटर्नल लिंक्स को खोजना।

वेक्टर एंबेडिंग टेक्स्ट को न्यूमेरिकल रिप्रेजेंटेशन में बदलती है।
OpenAI API का उपयोग करके टेक्स्ट से वेक्टर एंबेडिंग जनरेट की जाती है।
बड़े टेक्स्ट को छोटे चंक्स में तोड़ना पड़ता है क्योंकि एंबेडिंग मॉडल की एक टोकन लिमिट होती है।
क्रोमा डीबी (ChromaDB) को वेक्टर डेटाबेस के रूप में उपयोग किया जाएगा, जिसे डॉकर के माध्यम से चलाया जा सकता है।

वेक्टर एंबेडिंग AI को सिमेंटिक रूप से समान टेक्स्ट को समझने में मदद करती है, और क्रोमा डीबी इन एंबेडिंग को कुशलतापूर्वक स्टोर और क्वेरी करने की अनुमति देता है।

एक वेब पेज के टेक्स्ट (जैसे हेड या बॉडी चंक्स) को OpenAI API में पास करके उसकी वेक्टर एंबेडिंग प्राप्त करना और उसे क्रोमा डीबी में स्टोर करना।

एक 'इंजेस्ट' फंक्शन बनाया गया है जो URL लेता है, उसे स्क्रैप करता है, एंबेडिंग बनाता है और क्रोमा डीबी में स्टोर करता है।
रिकर्सिवली इंटरनल लिंक्स को फॉलो करके वेबसाइट के अन्य पेजों को भी इंजेस्ट किया जाता है।
डुप्लिकेट लिंक्स को हैंडल करने के लिए सेट का उपयोग किया जाता है।
404 एरर जैसी समस्याओं को हैंडल करने के लिए ट्राई-कैच ब्लॉक का उपयोग किया गया है।

यह सुनिश्चित करता है कि वेबसाइट की पूरी जानकारी को व्यवस्थित तरीके से वेक्टर डेटाबेस में शामिल किया जाए, जिससे चैटबॉट व्यापक जानकारी प्रदान कर सके।

वेबसाइट के '/about' और '/cohort' जैसे पेजों को इंजेस्ट करने के लिए इंजेस्ट फंक्शन को कॉल करना।

यूजर के प्रश्न की भी वेक्टर एंबेडिंग जनरेट की जाती है।
इस प्रश्न एंबेडिंग का उपयोग करके क्रोमा डीबी से सबसे रिलेवेंट कॉन्टेक्स्ट (डेटा चंक्स) को रिट्रीव किया जाता है।
रिट्रीव किए गए कॉन्टेक्स्ट, प्रश्न और वेबसाइट URL को मिलाकर OpenAI के चैट कंप्लीशन API को भेजा जाता है।
AI मॉडल इस जानकारी के आधार पर यूजर के प्रश्न का उत्तर देता है।

यह वह कोर लॉजिक है जो AI को यूजर के प्रश्न को समझने और प्रासंगिक जानकारी के आधार पर सटीक उत्तर देने में सक्षम बनाता है।

जब यूजर पूछता है 'What is the cohort?', तो सिस्टम कोहोर्ट पेज से संबंधित जानकारी को रिट्रीव करता है और OpenAI मॉडल का उपयोग करके उत्तर देता है।

यह समाधान अभी प्रोडक्शन-रेडी नहीं है और इसमें ऑप्टिमाइजेशन की आवश्यकता है।
टेक्स्ट चंकिंग को अधिक स्मार्ट तरीके से (जैसे सेक्शन-बाय-सेक्शन) किया जाना चाहिए।
वेक्टर डेटाबेस से रिट्रीव किए गए कॉन्टेक्स्ट को अधिक प्रभावी ढंग से उपयोग करने की आवश्यकता है।
वेबसाइट स्क्रैप करते समय अनुमति का ध्यान रखना महत्वपूर्ण है; केवल अपनी या अनुमति प्राप्त वेबसाइटों पर ही इसका उपयोग करें।

प्रोडक्शन में उपयोग करने से पहले प्रदर्शन, सुरक्षा और सटीकता में सुधार के लिए ऑप्टिमाइजेशन महत्वपूर्ण हैं।

बड़े वेब पेजों को सीधे एंबेड करने के बजाय, उन्हें सिमेंटिक सेक्शन में तोड़कर स्टोर करना।

Key takeaways

1वेबसाइट डेटा को AI के समझने योग्य फॉर्मेट (वेक्टर एंबेडिंग) में बदलना एक महत्वपूर्ण प्रक्रिया है।
2क्रोमा डीबी जैसे वेक्टर डेटाबेस AI-संचालित एप्लिकेशन के लिए सिमेंटिक सर्च और रिट्रीवल को सक्षम करते हैं।
3OpenAI API का उपयोग करके टेक्स्ट से वेक्टर एंबेडिंग जनरेट करना अपेक्षाकृत सरल है।
4बड़े टेक्स्ट डेटा को मैनेज करने के लिए चंकिंग (Chunking) एक आवश्यक तकनीक है।
5रिकर्सिव स्क्रैपिंग वेबसाइट की पूरी जानकारी को कैप्चर करने में मदद करती है।
6AI चैटबॉट बनाने के लिए, यूजर के प्रश्न को एंबेड करना और सबसे प्रासंगिक कॉन्टेक्स्ट को रिट्रीव करना महत्वपूर्ण है।
7प्रोडक्शन-ग्रेड AI एप्लिकेशन बनाने के लिए अतिरिक्त ऑप्टिमाइजेशन और टेस्टिंग की आवश्यकता होती है।

Key terms

AI ChatbotWeb ScrapingVector EmbeddingsChromaDBOpenAI APICheerioAxiosDockerRecursive ScrapingChunkingContext Retrieval

Test your understanding

1वेबसाइट के अनस्ट्रक्चर्ड डेटा को AI के लिए उपयोगी बनाने के लिए कौन से मुख्य चरण आवश्यक हैं?
2वेक्टर एंबेडिंग क्या है और यह AI चैटबॉट को वेबसाइट के बारे में जानकारी को समझने में कैसे मदद करती है?
3क्रोमा डीबी का उपयोग क्यों किया जाता है और यह डेटा इंजेस्टशन प्रक्रिया में कैसे फिट बैठता है?
4रिकर्सिव स्क्रैपिंग का क्या मतलब है और यह चैटबॉट के लिए क्यों महत्वपूर्ण है?
5यूजर के प्रश्न के आधार पर AI चैटबॉट प्रासंगिक उत्तर कैसे उत्पन्न करता है?