What is RAG ? | Completely Explained in 15 Minutes

Apna College

7 chapters7 takeaways16 key terms5 questions

Overview

यह वीडियो रिट्रीवल ऑगमेंटेड जनरेशन (RAG) की अवधारणा को विस्तार से समझाता है, जो AI मॉडल की प्रतिक्रियाओं की सटीकता और प्रासंगिकता को बेहतर बनाने की एक तकनीक है। यह बताता है कि RAG कैसे काम करता है, इसके क्या फायदे हैं, और विभिन्न प्रकार के RAG आर्किटेक्चर और उनके उपयोग के मामले क्या हैं। वीडियो में एक सामान्य LLM और RAG-आधारित सिस्टम के बीच अंतर को स्पष्ट करने के लिए छात्रों के परीक्षा के उदाहरण का उपयोग किया गया है। यह डेटा इंजेक्शन और रिट्रीवल पाइपलाइन की प्रक्रिया को भी कवर करता है, जिसमें डेटा को चंक्स में विभाजित करना, उन्हें एम्बेडिंग में बदलना और उन्हें वेक्टर डेटाबेस में स्टोर करना शामिल है। अंत में, यह स्टैंडर्ड RAG, हाइब्रिड RAG, मेमोरी के साथ RAG, ग्राफ RAG, एजेंटिक RAG, मल्टीमॉडल RAG और सेल्फ-रिफ्लेक्टिव RAG जैसे विभिन्न RAG आर्किटेक्चर पर चर्चा करता है।

How was this?

Save this permanently with flashcards, quizzes, and AI chat

Chapters

RAG (रिट्रीवल ऑगमेंटेड जनरेशन) AI मॉडल की प्रतिक्रियाओं की सटीकता और गुणवत्ता को बेहतर बनाने की एक तकनीक है।
यह LLMs (जैसे ChatGPT, Gemini) की सीमाओं को दूर करता है, जैसे कि सीमित या पुरानी जानकारी तक पहुंच।
RAG मॉडल को रियल-टाइम और अप-टू-डेट डेटाबेस तक पहुंचने की अनुमति देता है, जिससे अधिक सटीक और प्रासंगिक प्रतिक्रियाएं मिलती हैं।
यह कस्टमर सपोर्ट, मेडिकल, लीगल और फाइनेंस जैसे विभिन्न डोमेन में रियल-वर्ल्ड एप्लीकेशंस के लिए बहुत लोकप्रिय है।

यह समझना महत्वपूर्ण है क्योंकि RAG AI की क्षमताओं को बढ़ाता है, जिससे यह अधिक विश्वसनीय और उपयोगी बनता है, खासकर उन अनुप्रयोगों में जहां सटीक और नवीनतम जानकारी आवश्यक है।

ब्लड टेस्ट रिपोर्ट के लिए AI-जनरेटेड समरी, FAQ और व्यक्तिगत सुझाव प्रदान करने वाला एप्लिकेशन, जो सामान्य LLMs की तुलना में अधिक विशिष्ट है क्योंकि यह व्यक्तिगत डेटा तक पहुंच सकता है।

सामान्य LLMs (जैसे GPT, Gemini) बड़े डेटासेट पर प्रशिक्षित होते हैं और अपनी ट्रेनिंग के आधार पर प्रतिक्रियाएं उत्पन्न करते हैं।
RAG-आधारित सिस्टम एक 'ओपन बुक एग्जाम' की तरह काम करते हैं, जहां मॉडल वास्तविक समय में बाहरी डेटाबेस से जानकारी प्राप्त कर सकता है।
यह वास्तविक समय में जानकारी को सत्यापित करने और अपडेटेड डेटा का उपयोग करने की क्षमता प्रदान करता है।
RAG मॉडल को अधिक प्रासंगिक और संदर्भ-जागरूक उत्तर देने में सक्षम बनाता है।

यह तुलना स्पष्ट करती है कि RAG कैसे सामान्य LLMs की तुलना में बेहतर प्रदर्शन प्रदान करता है, खासकर उन परिदृश्यों में जहां नवीनतम या विशिष्ट जानकारी की आवश्यकता होती है।

एक छात्र के लिए परीक्षा का उदाहरण: सामान्य LLM 'बुक लर्निंग' की तरह है, जबकि RAG 'ओपन बुक एग्जाम' की तरह है जहां छात्र वास्तविक समय में जानकारी देख सकता है।

हेलुसिनेशन (गलत जानकारी गढ़ना) को कम करता है क्योंकि प्रतिक्रियाएं वास्तविक डेटा पर आधारित होती हैं।
ज्ञान को अप-टू-डेट रखता है, LLMs के नॉलेज कट-ऑफ डेट की सीमा को पार करता है।
कॉस्ट-इफेक्टिव है क्योंकि यह मॉडल को फिर से प्रशिक्षित या फाइन-ट्यून करने की आवश्यकता को समाप्त करता है।
डेटा प्राइवेसी बनाए रखता है, खासकर एंटरप्राइज-लेवल एप्लीकेशन्स के लिए, क्योंकि मॉडल केवल क्वेरी से संबंधित डेटा के विशिष्ट हिस्सों तक पहुंचता है।

ये लाभ बताते हैं कि क्यों RAG विभिन्न उद्योगों में एक शक्तिशाली और व्यावहारिक AI समाधान बन गया है, जो विश्वसनीयता, लागत-प्रभावशीलता और सुरक्षा प्रदान करता है।

एक एयरलाइन ग्राहक सहायता चैटबॉट जो उड़ान में देरी के बारे में विशिष्ट जानकारी प्रदान कर सकता है क्योंकि यह उपयोगकर्ता के बुकिंग विवरण (प्रासंगिक डेटा) तक पहुंच सकता है, जबकि सामान्य चैटबॉट केवल सामान्य प्रतिक्रिया दे सकता है।

डेटा इंजेक्शन पाइपलाइन में डेटा को निकालना, उसे छोटे 'चंक्स' में विभाजित करना, और फिर उन्हें संख्यात्मक 'एंबेडिंग' (वेक्टर) में परिवर्तित करना शामिल है।
ये एंबेडिंग एक विशेष 'वेक्टर डेटाबेस' में स्टोर की जाती हैं जो सिमेंटिक (अर्थ-आधारित) खोज की अनुमति देता है।
रिट्रीवल पाइपलाइन में उपयोगकर्ता की क्वेरी को एंबेडिंग में बदलना शामिल है।
फिर वेक्टर डेटाबेस में क्वेरी एंबेडिंग का उपयोग करके प्रासंगिक चंक्स (कॉन्टेक्स्ट) को पुनः प्राप्त किया जाता है।

यह प्रक्रिया RAG सिस्टम की नींव है, जो यह सुनिश्चित करती है कि मॉडल प्रासंगिक जानकारी को कुशलतापूर्वक ढूंढ और उपयोग कर सके।

पीडीएफ, डॉक्यूमेंट्स या एक्सेल फाइलों से डेटा निकालना, उन्हें पैराग्राफ या वाक्यों में विभाजित करना, और फिर उन्हें संख्यात्मक वेक्टर में बदलना जिन्हें वेक्टर डेटाबेस में संग्रहीत किया जाता है।

ऑग्मेंटेशन चरण में, मूल उपयोगकर्ता क्वेरी को पुनः प्राप्त कॉन्टेक्स्ट के साथ जोड़ा जाता है ताकि एक विस्तृत 'प्रॉम्प्ट' बनाया जा सके।
यह ऑग्मेंटेड प्रॉम्प्ट फिर LLM को भेजा जाता है।
LLM इस प्रॉम्प्ट का उपयोग करके अंतिम प्रतिक्रिया या सामग्री उत्पन्न करता है।
इसलिए इसे 'रिट्रीवल ऑग्मेंटेड जनरेशन' कहा जाता है: पहले रिट्रीवल, फिर ऑग्मेंटेशन, और अंत में जनरेशन।

यह अंतिम चरण बताता है कि कैसे RAG सिस्टम केवल जानकारी पुनः प्राप्त करने से आगे बढ़कर, उस जानकारी का उपयोग करके सुसंगत और प्रासंगिक प्रतिक्रियाएं उत्पन्न करता है।

एक फ्लाइट डिले की क्वेरी के लिए, सिस्टम पहले बुकिंग डेटा (रिट्रीवल) से प्रासंगिक जानकारी प्राप्त करता है, फिर क्वेरी और उस जानकारी को मिलाकर एक प्रॉम्प्ट बनाता है, और अंत में LLM उस प्रॉम्प्ट का उपयोग करके एक विशिष्ट उत्तर (जनरेशन) उत्पन्न करता है।

चंकिंग रणनीतियों में फिक्स्ड साइज, हायरार्किकल और सिमेंटिक चंकिंग शामिल हैं, प्रत्येक के अपने फायदे और नुकसान हैं।
एंबेडिंग मॉडल (जैसे OpenAI के टेक्स्ट एंबेडिंग 3, Gemini) टेक्स्ट को संख्यात्मक वैक्टर में परिवर्तित करते हैं।
वेक्टर डेटाबेस (जैसे ChromaDB, Pinecone, Elasticsearch) इन वैक्टर को कुशलतापूर्वक स्टोर और क्वेरी करने के लिए डिज़ाइन किए गए हैं, जो सिमेंटिक खोज को सक्षम करते हैं।

ये तकनीकी घटक RAG सिस्टम की प्रभावशीलता और दक्षता के लिए महत्वपूर्ण हैं, जो यह निर्धारित करते हैं कि डेटा को कितनी अच्छी तरह संसाधित और पुनः प्राप्त किया जाता है।

लैंगचेन या लामा इंडेक्स जैसी लाइब्रेरी का उपयोग करके टेक्स्ट को 500 टोकन के फिक्स्ड साइज चंक्स में विभाजित करना, फिर उन्हें OpenAI के एंबेडिंग मॉडल का उपयोग करके वैक्टर में बदलना और उन्हें पाइन कोन जैसे वेक्टर डेटाबेस में स्टोर करना।

स्टैंडर्ड RAG: सबसे सरल, FAQ और सरल चैटबॉट्स के लिए उपयुक्त।
हाइब्रिड RAG: वेक्टर और कीवर्ड खोज को जोड़ता है, एंटरप्राइज और ई-कॉमर्स सर्च के लिए बेहतर।
मेमोरी के साथ RAG: बातचीत के इतिहास को बनाए रखता है, सपोर्ट असिस्टेंट्स के लिए उपयोगी।
ग्राफ RAG: एंटिटीज़ के बीच संबंधों को मॉडल करने के लिए नॉलेज ग्राफ का उपयोग करता है, जटिल, इंटरकनेक्टेड डेटा के लिए उपयुक्त।
एजेंटिक RAG: जटिल क्वेरी को हल करने के लिए मल्टी-स्टेप रिट्रीवल और टूल्स का उपयोग करता है।
मल्टीमॉडल RAG: टेक्स्ट, इमेज, वीडियो और ऑडियो जैसे विभिन्न डेटा प्रकारों को प्रोसेस करता है।
सेल्फ-रिफ्लेक्टिव RAG: प्रतिक्रियाओं को अंतिम रूप देने से पहले उनका विश्लेषण और सुधार करता है।

विभिन्न RAG आर्किटेक्चर की समझ विभिन्न उपयोग के मामलों और जटिलताओं के लिए सही समाधान चुनने में मदद करती है।

एक ई-कॉमर्स वेबसाइट के लिए हाइब्रिड RAG का उपयोग करना जो उत्पाद आईडी (कीवर्ड) और उत्पाद विवरण (वेक्टर) दोनों के आधार पर खोज को संभाल सकता है।

Key takeaways

1RAG AI मॉडल की सटीकता और प्रासंगिकता को बढ़ाने के लिए एक शक्तिशाली तकनीक है, जो LLMs की सीमाओं को दूर करती है।
2यह मॉडल को वास्तविक समय और बाहरी डेटा स्रोतों तक पहुंचने की अनुमति देकर काम करता है, जिससे 'ओपन बुक' क्षमता मिलती है।
3RAG के मुख्य लाभों में हेलुसिनेशन में कमी, अप-टू-डेट ज्ञान, लागत-प्रभावशीलता और बेहतर डेटा प्राइवेसी शामिल हैं।
4RAG पाइपलाइन में डेटा इंजेक्शन (डेटा तैयार करना) और रिट्रीवल (जानकारी खोजना) शामिल है, जिसके बाद ऑग्मेंटेशन और जनरेशन होता है।
5वेक्टर डेटाबेस सिमेंटिक खोज के लिए महत्वपूर्ण हैं, जो अर्थ के आधार पर जानकारी को पुनः प्राप्त करने में सक्षम बनाते हैं।
6विभिन्न RAG आर्किटेक्चर (जैसे हाइब्रिड, ग्राफ, एजेंटिक) विशिष्ट आवश्यकताओं और जटिलताओं को पूरा करने के लिए डिज़ाइन किए गए हैं।
7सही चंकिंग रणनीति, एंबेडिंग मॉडल और वेक्टर डेटाबेस का चुनाव RAG सिस्टम के प्रदर्शन के लिए महत्वपूर्ण है।

Key terms

Retrieval Augmented Generation (RAG)Large Language Models (LLMs)HallucinationKnowledge Cut-off DateData Ingestion PipelineRetrieval PipelineChunksEmbeddingsVector DatabaseSemantic SearchAugmentationPromptHybrid RAGGraph RAGAgentic RAGMultimodal RAG

Test your understanding

1RAG सामान्य LLMs की तुलना में हेलुसिनेशन को कैसे कम करता है?
2RAG पाइपलाइन में डेटा इंजेक्शन प्रक्रिया के मुख्य चरण क्या हैं?
3वेक्टर डेटाबेस सामान्य डेटाबेस से किस प्रकार भिन्न है और यह RAG के लिए क्यों महत्वपूर्ण है?
4हाइब्रिड RAG आर्किटेक्चर स्टैंडर्ड RAG से कैसे बेहतर है और किन उपयोग के मामलों के लिए यह उपयुक्त है?
5RAG सिस्टम में 'ऑग्मेंटेशन' चरण का क्या उद्देश्य है?