विषय-सूची
- 1. RAG क्या है—Retrieval-Augmented Generation
- 2. RAG क्यों आवश्यक है—LLM अकेले की 3 सीमाएँ
- 3. तंत्र—3 स्टेप में चलने वाला RAG
- 4. RAG के मुख्य घटक
- 5. वेक्टर डेटाबेस क्या है
- 6. प्रमुख उपयोग—RAG कहाँ उपयोग होता है
- 7. RAG vs फ़ाइन-ट्यूनिंग—कौन-सा चुनें
- 8. कार्यान्वयन—LangChain से RAG बनाना
- 9. RAG की चुनौतियाँ और उपाय
- 10. प्रमुख उपकरण और सेवाओं की सूची
- FAQ
"ChatGPT से कंपनी के नियम पढ़वाकर कर्मचारियों के सवालों का स्वचालित उत्तर देना है", "नवीनतम शोध-पत्र डेटाबेस से सर्च करके सारांश चाहिए"—ऐसी ज़रूरतें बढ़ती जा रही हैं। लेकिन ChatGPT का प्रशिक्षण डेटा अतीत के किसी समय पर रुक जाता है, और गोपनीय आंतरिक दस्तावेज़ों को सीधे AI में सीखने देना भी संभव नहीं।
इस समस्या का समाधान देने वाली तकनीक है RAG (Retrieval-Augmented Generation / सर्च-संवर्धित जनरेशन)। 2023 के बाद से कंपनियों के AI उपयोग में सबसे महत्वपूर्ण कीवर्ड में से एक बन गई है, और ChatGPT की "Custom GPTs", "Projects" सुविधाएँ भी आंतरिक रूप से RAG का ही उपयोग करती हैं।
इस लेख में, RAG के तंत्र को 3 स्टेप में चित्रात्मक रूप से समझाते हुए, वेक्टर डेटाबेस・LangChain कार्यान्वयन・फ़ाइन-ट्यूनिंग से उपयोग के अंतर तक, शुरुआती के लिए समझ में आने वाले स्तर पर, लेकिन तकनीकी रूप से भी सटीक विवरण देंगे।
1. RAG क्या है—Retrieval-Augmented Generation
RAG (Retrieval-Augmented Generation) का सीधा अनुवाद है "सर्च (Retrieval) से संवर्धित (Augmented) जनरेशन (Generation)"। हिंदी में इसे "सर्च-संवर्धित जनरेशन" कहा जाता है।
एक वाक्य में समझाएँ तो, "LLM (बड़े भाषा मॉडल) उत्तर बनाने से पहले, संबंधित जानकारी को बाहरी डेटाबेस से सर्च करता है, और उन सर्च परिणामों को संदर्भ बनाकर उत्तर तैयार करता है" यह तंत्र है।
खाना पकाने की उपमा
LLM अकेला है "केवल याददाश्त से खाना बनाने वाला शेफ़"। प्रतिभाशाली है, लेकिन अनजान रेसिपी नहीं बना सकता, और फ़्रिज में क्या रखा है यह भी नहीं जानता।
RAG उस शेफ़ को "रेसिपी की किताब देकर, फ़्रिज में क्या है यह बताकर खाना बनवाना" यह तंत्र है। शेफ़ अब रेसिपी की किताब देखते हुए, मौजूद सामग्री से उत्तम पकवान बना सकता है।
"Retrieval", "Augmented", "Generation" की भूमिकाएँ
| शब्द | अर्थ | RAG में भूमिका |
|---|---|---|
| Retrieval | सर्च・प्राप्ति | सवाल से संबंधित दस्तावेज़ों को डेटाबेस से निकालना |
| Augmented | संवर्धन・वृद्धि | निकाली गई जानकारी को प्रॉम्प्ट में जोड़कर LLM को देना |
| Generation | जनरेशन | LLM सर्च परिणामों का संदर्भ लेते हुए उत्तर तैयार करता है |
मुख्य बिंदु यह है कि LLM को दोबारा प्रशिक्षित नहीं किया जाता, बल्कि हर बार सवाल आने पर "आवश्यक ज्ञान" बाहर से दिया जाता है। यही आगे चलकर बताए जाने वाले फ़ाइन-ट्यूनिंग से निर्णायक अंतर है।
2. RAG क्यों आवश्यक है—LLM अकेले की 3 सीमाएँ
ChatGPT या Claude जैसे LLM अकेले से जो समस्याएँ हल नहीं हो सकतीं, वे 3 हैं।
सीमा 1: ज्ञान कटऑफ़ (जानकारी की ताज़गी)
LLM "किसी समय तक के डेटा" से प्रशिक्षित होते हैं, इसलिए प्रशिक्षण के बाद की नवीनतम जानकारी नहीं जानते। उदाहरण के लिए GPT-4 का प्रारंभिक संस्करण अप्रैल 2023 तक की ही जानकारी रखता था।
- "कल घोषित नए उत्पाद के बारे में बताओ" → उत्तर नहीं दे सकता
- "पिछले हफ्ते लागू हुए क़ानून संशोधन की सामग्री क्या है?" → उत्तर नहीं दे सकता
- "आज की मुद्रा विनिमय दर क्या है?" → उत्तर नहीं दे सकता
RAG का उपयोग करें तो नवीनतम समाचार, डेटाबेस, API से जानकारी निकालकर उत्तर दिया जा सकता है।
सीमा 2: हैलुसिनेशन (विश्वसनीय लगने वाला झूठ)
LLM से अनजान जानकारी पूछी जाए तो भी वह विश्वसनीय लगने वाला उत्तर बना देता है। इसे हैलुसिनेशन (मतिभ्रम) कहते हैं।
उदाहरण: "आपकी कंपनी के नियमों में सवेतन अवकाश कितने दिन हैं?" पूछा जाए तो LLM जानता न होते हुए भी "आम तौर पर 10–20 दिन होते हैं" कह देता है—इससे व्यवसाय में काम नहीं चलता।
RAG में वास्तविक नियमावली दस्तावेज़ सर्च करके संदर्भ दिलाया जाता है, इसलिए आधार पर टिका उत्तर मिलता है। साथ ही "किस दस्तावेज़ के किस पृष्ठ पर लिखा है" यह उद्धरण स्रोत भी जोड़ा जा सकता है।
सीमा 3: आंतरिक・निजी डेटा तक पहुँच असंभव
LLM के प्रशिक्षण डेटा में आपकी कंपनी की मैनुअल, अनुबंध, ग्राहक डेटा शामिल नहीं है। और गोपनीय जानकारी को सीधे LLM में सीखाना भी संभव नहीं (जानकारी रिसाव का जोखिम, लागत की समस्या)।
RAG से, आंतरिक दस्तावेज़ों को अपने वेक्टर DB में संग्रहीत करके, सवाल आने पर ही संबंधित भाग निकालकर LLM को दिया जाता है, इसलिए सुरक्षा बनाए रखते हुए आंतरिक डेटा का उपयोग किया जा सकता है।
3. तंत्र—3 स्टेप में चलने वाला RAG
RAG का संचालन मुख्यतः "पूर्व तैयारी (इंडेक्स निर्माण)" और "रनटाइम (प्रश्न-उत्तर)" इन 2 चरणों में बँटा है।
पूर्व तैयारी चरण—दस्तावेज़ों का वेक्टरीकरण और संग्रहण
- दस्तावेज़ संग्रह: PDF, Word, HTML, Markdown आदि उपयोग में लाने वाले दस्तावेज़ इकट्ठा करना
- चंक विभाजन: दस्तावेज़ों को उपयुक्त लंबाई (जैसे 500–1000 अक्षर) में बाँटना
- एम्बेडिंग (Embedding): प्रत्येक चंक को एम्बेडिंग मॉडल (जैसे OpenAI text-embedding-3-small) से गुज़ारकर 1536 आयाम जैसे वेक्टर (संख्याओं की सूची) में बदलना
- वेक्टर DB में संग्रहण: चंक और संबंधित वेक्टर को विशेष DB (Pinecone, Qdrant आदि) में संग्रहीत करना
यह कार्य दस्तावेज़ बढ़ने या अद्यतन होने पर किया जाता है।
रनटाइम चरण—सवाल का उत्तर देने के 3 स्टेप
उपयोगकर्ता से सवाल आने पर प्रक्रिया इस प्रकार है।
- Step 1: Retrieval (सर्च)
- सवाल को उसी एम्बेडिंग मॉडल से वेक्टरीकृत करना
- वेक्टर DB में "सवाल वेक्टर के सबसे निकट" चंक शीर्ष K (आम तौर पर 3–10) निकालना
- निकटता की गणना के लिए कोसाइन समानता आदि का उपयोग
- Step 2: Augmented (संवर्धन)
- निकाले गए चंक को "संदर्भ जानकारी" के रूप में प्रॉम्प्ट में जोड़ना
- "नीचे दी गई जानकारी का संदर्भ लेकर सवाल का उत्तर दीजिए: [सर्च परिणाम] सवाल: [उपयोगकर्ता का सवाल]" जैसा रूप
- Step 3: Generation (जनरेशन)
- LLM (GPT-4, Claude, Gemini आदि) संदर्भ जानकारी के आधार पर उत्तर तैयार करता है
- आवश्यकतानुसार "किस दस्तावेज़ का संदर्भ लिया" यह उद्धरण के रूप में जोड़ा जाता है
ठोस उदाहरण: ChatGPT से आंतरिक नियम पूछना
"सवेतन अवकाश कितने दिन हैं?" इस सवाल का प्रवाह:
- सवाल एम्बेडिंग मॉडल से वेक्टरीकृत → [0.12, -0.45, 0.78, ...]
- वेक्टर DB से "अवकाश", "सवेतन" से संबंधित 3 चंक प्राप्त
- प्राप्त चंक: "धारा 15 वार्षिक सवेतन अवकाश—नियुक्ति के 6 महीने पूरे होने पर 10 दिन प्रदान...", "सेवा अवधि के अनुसार अधिकतम 20 दिन तक..." आदि
- प्रॉम्प्ट निर्माण: "संदर्भ जानकारी: धारा 15... सवाल: सवेतन अवकाश कितने दिन हैं?"
- LLM का उत्तर: "नियुक्ति के 6 महीने पर 10 दिन, सेवा अवधि के अनुसार अधिकतम 20 दिन प्रदान किए जाते हैं (नियमावली धारा 15 देखें)"
4. RAG के मुख्य घटक
RAG को बनाने वाले 5 घटक देखते हैं।
1. एम्बेडिंग मॉडल (Embedding Model)
टेक्स्ट को संख्यात्मक वेक्टर में बदलने वाला AI मॉडल। "अर्थ की दृष्टि से समान टेक्स्ट, वेक्टर स्पेस में भी पास की स्थिति में होते हैं" इस तरह प्रशिक्षित किए जाते हैं।
| मॉडल | प्रदाता | विशेषता |
|---|---|---|
| text-embedding-3-small | OpenAI | सस्ता और उच्च प्रदर्शन, 1536 आयाम |
| text-embedding-3-large | OpenAI | अधिक उच्च परिशुद्धता, 3072 आयाम |
| voyage-3 | Voyage AI | Anthropic अनुशंसित, उच्च परिशुद्धता |
| Cohere Embed v3 | Cohere | बहुभाषी समर्थन, हिंदी में भी निपुण |
| multilingual-e5-large | Microsoft (OSS) | लोकल चलाया जा सकता है, मुफ़्त |
| BGE-M3 | BAAI (OSS) | 100 से अधिक भाषा समर्थन, OSS में सर्वश्रेष्ठ |
2. वेक्टर डेटाबेस
बड़ी मात्रा में वेक्टर संग्रहीत करके, "निकट वेक्टर" को तेज़ी से सर्च कर सकने वाला विशेष DB। विवरण अगले अध्याय में।
3. सर्च इंजन (Retriever)
वेक्टर सर्च के साथ-साथ, कीवर्ड सर्च (BM25 आदि) और हाइब्रिड सर्च का मिलान भी अक्सर किया जाता है।
4. LLM (जनरेशन वाला)
अंतिम उत्तर बनाने वाला बड़ा भाषा मॉडल। GPT-4, Claude, Gemini, Llama 3 आदि। वाणिज्यिक API से भी और OSS लोकल मॉडल से भी चलता है।
5. प्रॉम्प्ट टेम्पलेट
सर्च परिणाम और उपयोगकर्ता सवाल को मिलाकर LLM को देने के लिए टेम्पलेट। RAG की परिशुद्धता को निर्धारित करने वाला महत्वपूर्ण तत्व।
आप आंतरिक नियमों के विशेषज्ञ सहायक हैं।
केवल नीचे दी गई संदर्भ जानकारी के आधार पर सवाल का उत्तर दीजिए।
संदर्भ जानकारी में न हो तो "जानकारी उपलब्ध नहीं" उत्तर दें।
【संदर्भ जानकारी】
{retrieved_chunks}
【सवाल】
{user_question}
【उत्तर】
5. वेक्टर डेटाबेस क्या है
वेक्टर DB सामान्य RDB (MySQL आदि) से भिन्न होते हुए, "उच्च-आयामी वेक्टर स्पेस में निकटतम पड़ोसी (सबसे समान वेक्टर) को तेज़ी से सर्च करना" इसमें विशेषज्ञ हैं।
प्रमुख वेक्टर DB की तुलना
| DB | प्रकार | विशेषता | मूल्य |
|---|---|---|---|
| Pinecone | मैनेज्ड SaaS | उद्योग मानक, सेटअप अति सरल | मुफ़्त सीमा है, $70/माह से |
| Weaviate | OSS+क्लाउड | GraphQL API, हाइब्रिड सर्च | OSS मुफ़्त, SaaS $25 से |
| Qdrant | OSS+क्लाउड | Rust में बना, तेज़, फ़िल्टरिंग शक्तिशाली | OSS मुफ़्त, SaaS मुफ़्त सीमा |
| Chroma | OSS | हलका, Python में तुरंत उपयोग | मुफ़्त (सेल्फ-होस्ट) |
| pgvector | PostgreSQL एक्सटेंशन | मौजूदा PostgreSQL में उपयोग | मुफ़्त (OSS एक्सटेंशन) |
| Milvus | OSS+क्लाउड | बड़े पैमाने के लिए, अरबों वेक्टर संभव | OSS मुफ़्त, Zilliz Cloud |
| Elasticsearch | सर्च इंजन | वेक्टर सर्च समर्थन, मौजूदा संचालन के साथ एकीकरण | OSS मुफ़्त, मैनेज्ड भी |
| Vertex AI Vector Search | Google Cloud | GCP इकोसिस्टम के साथ एकीकरण | उपयोग-आधारित |
कौन-सा चुनें
- आज़माना है: Chroma (pip install से तुरंत चलता है)
- मौजूदा PostgreSQL का उपयोग: pgvector (DB एकीकृत रखा जा सकता है)
- प्रोडक्शन・संचालन बोझ कम: Pinecone (सेटिंग नहीं चाहिए)
- OSS में पूर्ण संचालन: Qdrant या Weaviate
- करोड़ों से अरबों रिकॉर्ड का बड़ा पैमाना: Milvus
वैसे, होस्टिंग के चुनाव के बारे में PaaS (Vercel आदि) और रेंटल・VPS・क्लाउड की तुलना भी संदर्भ के लिए उपयोगी है।
6. प्रमुख उपयोग—RAG कहाँ उपयोग होता है
RAG 2023 के बाद से कंपनियों के AI उपयोग में सबसे अधिक अपनाई गई तकनीकों में से एक है। प्रतिनिधि उपयोग प्रस्तुत हैं।
उपयोग 1: आंतरिक दस्तावेज़ QA (नॉलेज बेस)
नियमावली, व्यवसाय मैनुअल, तकनीकी विनिर्देश, मीटिंग नोट्स, बिक्री सामग्री आदि को RAG बनाकर, कर्मचारी ChatGPT की तरह सवाल कर सकें ऐसा वातावरण बनाना। Microsoft 365 Copilot भी SharePoint दस्तावेज़ों के लिए RAG उपयोग करता है।
उपयोग 2: ग्राहक सहायता का स्वचालन
FAQ और सहायता इतिहास को RAG बनाकर, चैटबॉट से प्रथम प्रतिक्रिया स्वचालित। मानव ऑपरेटर जटिल पूछताछ पर ध्यान केंद्रित कर सकते हैं।
उपयोग 3: क़ानूनी・चिकित्सा विशेषज्ञ ज्ञान Q&A
मामला डेटाबेस, चिकित्सा शोध-पत्र, उपचार दिशा-निर्देश आदि को RAG बनाना। वकील या डॉक्टर रोज़मर्रा के काम में संदर्भ ले सकें ऐसी प्रणाली। उद्धरण स्रोत स्पष्ट होने के कारण, आधार आवश्यक होने वाले विशेषज्ञ क्षेत्रों के साथ अच्छा मेल।
उपयोग 4: शोध-पत्र सर्च・सारांश
arXiv, PubMed, Google Scholar आदि शोध-पत्र DB को RAG बनाकर, "इस शोध विषय पर नवीनतम रुझान क्या है?", "XX तकनीक के समान शोध कौन-से हैं?" जैसे सवालों के उत्तर। Elicit और Perplexity प्रसिद्ध हैं।
उपयोग 5: EC साइट के उत्पाद सर्च・FAQ
उत्पाद मैनुअल, समीक्षाएँ, वापसी नीति आदि को एकीकृत करने वाला RAG। "क्या यह वैक्यूम क्लीनर पालतू जानवरों के बाल भी संभाल सकता है?" जैसी प्राकृतिक भाषा सर्च संभव।
उपयोग 6: डेवलपर के लिए दस्तावेज़ चैट
लाइब्रेरी के आधिकारिक दस्तावेज़ों को RAG बनाकर, "AWS Lambda में ऐसे लिखना है, सैंपल कोड क्या है?" जैसे सवालों के उत्तर। Stripe, Vercel, Supabase आदि अपनाते हैं।
उपयोग 7: आंतरिक कोडबेस का सर्च・व्याख्या
GitHub के कोड को RAG बनाकर, "इस फ़ंक्शन का उपयोग कैसे करें?", "समान प्रोसेसिंग लागू करने वाली फ़ाइलें कौन-सी हैं?" जैसे डेवलपर के लिए उपकरण। GitHub Copilot Chat और Cursor, Claude Code आदि डेवलपमेंट AI भी RAG जैसी तकनीकें आंतरिक रूप से उपयोग करते हैं।
उपयोग 8: llms.txt जैसी नई AI अनुकूलन
वेब पर मौजूद जानकारी को AI से सही तरीक़े से संदर्भ दिलवाने वाली llms.txt भी RAG से अच्छा मेल खाने वाली है, साइट संचालक AI को पढ़वाने योग्य जानकारी संरचित रूप में दे सकते हैं।
7. RAG vs फ़ाइन-ट्यूनिंग—कौन-सा चुनें
"LLM को स्वयं का ज्ञान देने" की विधि के रूप में RAG के साथ-साथ अक्सर चर्चा होती है फ़ाइन-ट्यूनिंग (Fine-tuning)। दोनों के दृष्टिकोण मूलतः भिन्न हैं।
मूलभूत अंतर
| दृष्टिकोण | RAG | फ़ाइन-ट्यूनिंग |
|---|---|---|
| तरीक़ा | रनटाइम पर बाहर से जानकारी देना | पहले से मॉडल को दोबारा प्रशिक्षित करना |
| ज्ञान अद्यतन | केवल DB अद्यतन (तत्काल) | दोबारा प्रशिक्षण आवश्यक (समय・लागत) |
| प्रारंभिक लागत | कम (केवल DB निर्माण) | अधिक (प्रशिक्षण डेटा तैयारी और कंप्यूट संसाधन) |
| संचालन लागत | सर्च + LLM API मूल्य | केवल इन्फ़रेंस (अपना मॉडल रखना) |
| हैलुसिनेशन | कम (संदर्भ स्रोत है) | मध्यम (सीखी बातें बोलता है) |
| उद्धरण स्रोत | संभव | कठिन |
| शैली・लहजे का सीखना | कमज़ोर | मज़बूत |
| गतिशील डेटा | मज़बूत (वास्तविक समय जानकारी भी) | कमज़ोर (दोबारा प्रशिक्षण ज़रूरी) |
| गोपनीय डेटा | ऑन-प्रेम पर पूरा संभव | वही (लेकिन भारी) |
RAG के लिए उपयुक्त परिस्थितियाँ
- ज्ञान बार-बार अद्यतन होता है (समाचार, आंतरिक दस्तावेज़, उत्पाद जानकारी)
- उत्तर का आधार स्पष्ट करना ज़रूरी हो (क़ानून, चिकित्सा, वित्त)
- दस्तावेज़ बहुत अधिक हैं (सब प्रशिक्षित कराना अव्यावहारिक)
- तुरंत शुरू करना है (विकास अवधि कम रखनी हो)
फ़ाइन-ट्यूनिंग के लिए उपयुक्त परिस्थितियाँ
- विशिष्ट शैली・टोन में उत्तर दिलवाना हो (कंपनी ब्रांड, चरित्र विशेषता)
- विशेषज्ञ क्षेत्र के भाषा पैटर्न सीखाना है (चिकित्सा शब्द, क़ानूनी शैली)
- इन्फ़रेंस लागत कम करनी है (प्रॉम्प्ट छोटा होने से)
- पहले से बहुत अधिक शिक्षक डेटा उपलब्ध है
दोनों मिलाकर सबसे शक्तिशाली
दरअसल RAG और फ़ाइन-ट्यूनिंग विरोधी तकनीकें नहीं, साथ-साथ उपयोग करने योग्य हैं। शैली फ़ाइन-ट्यूनिंग से सीखाएँ, नवीनतम ज्ञान RAG से दें—यह संरचना वास्तविक संचालन में बहुतायत से दिखती है।
फिर भी शुरुआती पहले RAG से आज़माना ही नियम है। फ़ाइन-ट्यूनिंग की तुलना में, निर्माण・संचालन कहीं अधिक आसान है।
8. कार्यान्वयन—LangChain से RAG बनाना
RAG कार्यान्वयन के प्रतिनिधि फ़्रेमवर्क प्रस्तुत करने के बाद, Python में न्यूनतम सैंपल कोड दिखाते हैं।
प्रमुख फ़्रेमवर्क
| फ़्रेमवर्क | भाषा | विशेषता |
|---|---|---|
| LangChain | Python / JS | उद्योग में सबसे प्रचलित, प्रचुर एकीकरण |
| LlamaIndex | Python | डेटा कनेक्शन और इंडेक्स में विशेषज्ञ |
| Haystack | Python | एंटरप्राइज़ के लिए, बारीक नियंत्रण |
| Semantic Kernel | C# / Python | Microsoft निर्मित, .NET एकीकरण में मज़बूत |
| DSPy | Python | प्रॉम्प्ट अनुकूलन का स्वचालन |
| अपना कार्यान्वयन | कोई भी | सरल RAG तो 100 लाइन में लिख सकते हैं |
LangChain से न्यूनतम RAG सैंपल
आंतरिक नियमावली PDF पर सवाल का उत्तर देने वाला RAG, LangChain से लगभग 30 लाइन में बनाते हैं।
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA
# 1. दस्तावेज़ पढ़ना
loader = PyPDFLoader("kisoku.pdf")
docs = loader.load()
# 2. चंक विभाजन
splitter = RecursiveCharacterTextSplitter(
chunk_size=500, chunk_overlap=50
)
chunks = splitter.split_documents(docs)
# 3. एम्बेडिंग + वेक्टर DB निर्माण
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_documents(chunks, embeddings)
# 4. RAG चेन निर्माण
llm = ChatOpenAI(model="gpt-4o-mini")
qa = RetrievalQA.from_chain_type(
llm=llm,
retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
return_source_documents=True,
)
# 5. सवाल
result = qa.invoke({"query": "सवेतन अवकाश कितने दिन हैं?"})
print(result["result"])
print("संदर्भ स्रोत:", [d.metadata for d in result["source_documents"]])
इस कोड को चलाने पर, नियमावली PDF से संबंधित भाग सर्च होकर, GPT-4o-mini उत्तर तैयार करता है। संदर्भ स्रोत के पृष्ठ नंबर भी प्राप्त होते हैं, इसलिए उपयोगकर्ता को "धारा 15 देखें" के साथ उद्धरण-सहित उत्तर देना भी संभव है।
अधिक प्रोडक्शन-स्तरीय कार्यान्वयन के लिए
- चंक विभाजन का अनुकूलन (सिमैंटिक विभाजन, हायरार्किकल चंक आदि)
- हाइब्रिड सर्च (वेक्टर + कीवर्ड BM25 का मिलान)
- री-रैंकिंग (Cohere Rerank, voyage-rerank आदि से सर्च परिणामों का पुनर्क्रम)
- क्वेरी पुनर्लेखन (HyDE, Multi-Query आदि से सर्च परिशुद्धता वृद्धि)
- मूल्यांकन पाइपलाइन (RAGAS से स्वचालित मूल्यांकन)
9. RAG की चुनौतियाँ और उपाय
RAG शक्तिशाली तकनीक है, लेकिन वास्तविक संचालन में निम्नलिखित चुनौतियों से सामना होता है।
चुनौती 1: चंक विभाजन की कठिनाई
दस्तावेज़ को कैसे विभाजित करें इससे सर्च परिशुद्धता बहुत बदल जाती है। बहुत छोटा हो तो संदर्भ खो जाता है, बहुत बड़ा हो तो सर्च परिशुद्धता गिरती है।
उपाय:
- सिमैंटिक विभाजन (अर्थपूर्ण समूह में बाँटना)
- ओवरलैप सेटिंग (पड़ोसी चंक के साथ कुछ ओवरलैप)
- हायरार्किकल चंक (मूल-शिशु संरचना में संग्रहण, सर्च शिशु・संदर्भ मूल)
चुनौती 2: Retrieval (सर्च) की परिशुद्धता
समान दिखने वाले परंतु भिन्न चंक उठा लेना, महत्वपूर्ण जानकारी छूट जाना आदि।
उपाय:
- हाइब्रिड सर्च (वेक्टर + BM25 कीवर्ड)
- री-रैंकिंग मॉडल से सर्च के बाद पुनर्क्रम
- एकाधिक क्वेरी जनरेशन (एक ही सवाल को भिन्न शब्दों में सर्च)
चुनौती 3: कॉन्टेक्स्ट लंबाई की सीमा
LLM को दिए जा सकने वाले टोकन की अधिकतम सीमा है, बड़ी मात्रा में चंक नहीं दिए जा सकते।
उपाय:
- K रिकॉर्ड सीमित (शीर्ष 3–5)
- पहले सारांश बनाकर देना
- लंबे कॉन्टेक्स्ट LLM (Claude 200K टोकन, Gemini 1M आदि) उपयोग
चुनौती 4: मूल्यांकन की कठिनाई
RAG की उत्तर गुणवत्ता को वस्तुनिष्ठ रूप से मापना कठिन। सही उत्तर डेटा कैसे बनाएँ यह चुनौती।
उपाय:
- RAGAS (RAG मूल्यांकन के लिए OSS फ़्रेमवर्क) उपयोग
- उत्तर की सटीकता, उत्तर की प्रासंगिकता, सर्च की निष्ठा आदि सूचकांक स्वचालित गणना
- LLM-as-a-Judge (अन्य LLM से अंक दिलवाना)
चुनौती 5: बहुभाषी・मल्टीमोडल
हिंदी और अंग्रेज़ी मिले हुए दस्तावेज़, छवि-युक्त PDF, तालिकाएँ-ग्राफ़ आदि की प्रोसेसिंग कठिन।
उपाय:
- बहुभाषी समर्थक एम्बेडिंग मॉडल (BGE-M3, Cohere Multilingual)
- छवि・तालिका को LLM से पहले टेक्स्ट करना (OCR + VLM)
- मल्टीमोडल एम्बेडिंग (CLIP, Nomic आदि)
10. प्रमुख उपकरण और सेवाओं की सूची
RAG निर्माण में उपयोगी प्रमुख उपकरण श्रेणी के अनुसार सूचीबद्ध हैं।
फ़्रेमवर्क・लाइब्रेरी
- LangChain—सबसे प्रचलित RAG फ़्रेमवर्क
- LlamaIndex—डेटा कनेक्शन में विशेषज्ञ
- Haystack—एंटरप्राइज़ के लिए
- DSPy—प्रॉम्प्ट स्वचालित अनुकूलन
वेक्टर DB (मैनेज्ड)
- Pinecone—उद्योग मानक
- Weaviate Cloud—GraphQL समर्थन
- Qdrant Cloud—उच्च प्रदर्शन
- Zilliz Cloud—Milvus का मैनेज्ड संस्करण
वेक्टर DB (OSS・सेल्फ-होस्ट)
- Chroma—हलका, Python में तुरंत उपयोग
- Qdrant—Rust में, तेज़
- Weaviate—OSS संस्करण
- Milvus—बड़े पैमाने के लिए
- pgvector—PostgreSQL एक्सटेंशन
एम्बेडिंग मॉडल
- OpenAI text-embedding-3—मानक, सस्ता
- Voyage AI—Anthropic अनुशंसित
- Cohere Embed v3—बहुभाषी समर्थन
- BGE-M3—OSS उच्च प्रदर्शन
नो-कोड・मैनेज्ड RAG सेवाएँ
- ChatGPT Projects / Custom GPTs—OpenAI की RAG सुविधा
- Claude Projects—Anthropic की RAG सुविधा
- Notion AI—Notion के दस्तावेज़ सर्च
- Microsoft Copilot (Microsoft 365)—SharePoint/Teams के दस्तावेज़ क्रॉस सर्च
- Dify—OSS नो-कोड AI निर्माण मंच
- Vertex AI Agent Builder—Google Cloud की RAG निर्माण सेवा
- Amazon Bedrock Knowledge Bases—AWS की मैनेज्ड RAG
मूल्यांकन उपकरण
- RAGAS—OSS RAG मूल्यांकन फ़्रेमवर्क
- TruLens—LLM ऐप मूल्यांकन सामान्य
- LangSmith—LangChain आधिकारिक ट्रेस・मूल्यांकन
FAQ
Q. क्या RAG ChatGPT में भी उपयोग किया जा सकता है?
हाँ। ChatGPT की "Projects" सुविधा या "Custom GPTs" में फ़ाइल अपलोड करने पर, आंतरिक रूप से RAG के रूप में काम करती है (OpenAI की भाषा में "File Search" सुविधा)। डेवलपर API के द्वारा RAG उपयोग करना चाहें तो, OpenAI Assistants API के "File Search" टूल का उपयोग, या LangChain आदि से अपना निर्माण की विधि है। इसी तरह Claude में भी "Projects" सुविधा से वही संभव है।
Q. RAG की संचालन लागत कितनी होती है?
पैमाने के अनुसार बहुत बदलती है। व्यक्तिगत—छोटे पैमाने (दस्तावेज़ 10,000 से कम, मासिक 1000 क्वेरी) पर Chroma + OpenAI API से मासिक कुछ दर्जन डॉलर में हो जाता है। मध्यम पैमाने (1 लाख रिकॉर्ड, मासिक 1 लाख क्वेरी) पर Pinecone + GPT-4o उपयोग करें तो मासिक कुछ सौ से कुछ हज़ार डॉलर। बड़ी कंपनियों के लिए मासिक कुछ दस हज़ार डॉलर से अधिक भी हो सकता है। मुख्य लागत तत्व "एम्बेडिंग API", "वेक्टर DB", "LLM API" इन 3 हैं।
Q. RAG ChatGPT आदि में फ़ाइल अपलोड करने से क्या भिन्न है?
मूलतः वही "सर्च-संवर्धित जनरेशन" तकनीक है। ChatGPT में फ़ाइल अपलोड करने की सुविधा आंतरिक रूप से RAG ही चला रही है कह सकते हैं। अंतर इस प्रकार: (1) ChatGPT 1—कुछ दर्जन फ़ाइल तक (Projects से बहुत वृद्धि), अपना RAG लाखों रिकॉर्ड भी संभव, (2) ChatGPT ब्लैक बॉक्स, अपना RAG सर्च एल्गोरिथम बारीकी से नियंत्रित, (3) ChatGPT OpenAI के सर्वर पर, अपना RAG ऑन-प्रेम पर भी संभव। कंपनियों के पूर्ण संचालन में अपना RAG बनाना सामान्य है।
Q. क्या RAG से हैलुसिनेशन पूरी तरह ख़त्म हो जाता है?
पूरी तरह ख़त्म नहीं होता। RAG में भी, (1) संबंधित दस्तावेज़ सर्च न हो पाना, (2) सर्च परिणाम तो हैं लेकिन LLM ने ग़लत समझा, (3) सर्च परिणामों में विरोधाभास—इन कारणों से ग़लत उत्तर हो सकते हैं। उपाय के रूप में "संदर्भ जानकारी में न हो तो 'जानकारी उपलब्ध नहीं' कहें" यह प्रॉम्प्ट प्रतिबंध, उद्धरण स्रोत स्पष्ट करना, RAGAS आदि से निरंतर मूल्यांकन महत्वपूर्ण है। फिर भी 100% परिशुद्धता नहीं मिलती, इसलिए चिकित्सा・क़ानून आदि महत्वपूर्ण उपयोग में मानव सत्यापन अनिवार्य रखें।
Q. हिंदी दस्तावेज़ों पर कैसे काम करवाएँ?
हिंदी समर्थन मुख्यतः 3 बिंदुओं पर: (1) एम्बेडिंग मॉडल में बहुभाषी मॉडल (OpenAI text-embedding-3, Cohere Multilingual, BGE-M3 आदि) उपयोग, (2) चंक विभाजन में हिंदी के विराम चिह्न और शब्द सीमाओं का ध्यान, (3) LLM भी हिंदी में निपुण मॉडल (GPT-4o, Claude, Gemini आदि) चुनना। OpenAI का text-embedding-3 हिंदी में भी पर्याप्त समर्थन देता है, लेकिन हिंदी में विशेष चाहिए तो BGE-M3 या Cohere अधिक उच्च परिशुद्धता देते हैं।
Q. RAG और एजेंट (AI Agent) का अंतर क्या है?
RAG "सर्च करके उत्तर बनाने" का स्थिर तंत्र। एजेंट "लक्ष्य के अनुसार स्वायत्त रूप से उपकरण चुनकर निष्पादित करने" का गतिशील तंत्र है। RAG को एजेंट जो उपकरण उपयोग कर सकता है उसमें एक उपकरण के रूप में अक्सर शामिल किया जाता है। उदाहरण के लिए "आंतरिक जानकारी सर्च (RAG)", "वेब सर्च", "गणना", "ईमेल भेजना" जैसे एकाधिक उपकरणों को परिस्थिति के अनुसार बदलकर उपयोग करना एजेंट है, और RAG उसका घटक है यह संबंध। Agentic RAG जैसा "सर्च रणनीति स्वयं LLM तय करने वाला RAG" भी सामने आ रहा है।
Q. क्या सुरक्षा ठीक है? गोपनीय जानकारी AI को नहीं दिखानी
कई उपाय हैं: (1) वेक्टर DB और एम्बेडिंग प्रोसेसिंग को ऑन-प्रेम या VPC में रखें (Qdrant, pgvector आदि सेल्फ-होस्ट), (2) LLM भी लोकल चलाने योग्य OSS मॉडल (Llama 3, Qwen आदि) उपयोग करें, (3) API उपयोग करें तो भी, OpenAI या Azure OpenAI के "डेटा प्रशिक्षण में नहीं उपयोग होगा" अनुबंध करें, (4) गोपनीयता स्तर के अनुसार चंक में पहुँच अधिकार मेटाडेटा जोड़कर, सर्च के समय फ़िल्टरिंग। पूर्ण ऑन-प्रेम RAG तकनीकी रूप से संभव है, और वित्तीय संस्थानों एवं चिकित्सा संस्थानों में भी अपनाया जा रहा है।
Q. RAG निर्माण कितने समय・कौशल में संभव?
प्रोटोटाइप तो Python शुरुआती से कुछ घंटे—1 दिन में बनाया जा सकता है (Chroma + OpenAI API से लगभग 30 लाइन)। प्रोडक्शन-स्तर तो, चंक विभाजन・हाइब्रिड सर्च・री-रैंकिंग・मूल्यांकन पाइपलाइन आदि के निर्माण में 1—3 महीने लगते हैं। आवश्यक कौशल "Python की मूल बातें", "LLM API का उपयोग", "बुनियादी DB ऑपरेशन"। उच्च मशीन लर्निंग ज्ञान अनावश्यक, AI इंजीनियर से ज़्यादा सॉफ़्टवेयर इंजीनियर के लिए संभालने योग्य क्षेत्र है।
यह लेख अप्रैल 2026 की जानकारी पर आधारित है। RAG से संबंधित उपकरण और मॉडल तेज़ी से बदल रहे हैं, इसलिए कार्यान्वयन के समय प्रत्येक सेवा के नवीनतम दस्तावेज़ देखें।