"ChatGPT से कंपनी के नियम पढ़वाकर कर्मचारियों के सवालों का स्वचालित उत्तर देना है", "नवीनतम शोध-पत्र डेटाबेस से सर्च करके सारांश चाहिए"—ऐसी ज़रूरतें बढ़ती जा रही हैं। लेकिन ChatGPT का प्रशिक्षण डेटा अतीत के किसी समय पर रुक जाता है, और गोपनीय आंतरिक दस्तावेज़ों को सीधे AI में सीखने देना भी संभव नहीं।

इस समस्या का समाधान देने वाली तकनीक है RAG (Retrieval-Augmented Generation / सर्च-संवर्धित जनरेशन)। 2023 के बाद से कंपनियों के AI उपयोग में सबसे महत्वपूर्ण कीवर्ड में से एक बन गई है, और ChatGPT की "Custom GPTs", "Projects" सुविधाएँ भी आंतरिक रूप से RAG का ही उपयोग करती हैं।

इस लेख में, RAG के तंत्र को 3 स्टेप में चित्रात्मक रूप से समझाते हुए, वेक्टर डेटाबेस・LangChain कार्यान्वयन・फ़ाइन-ट्यूनिंग से उपयोग के अंतर तक, शुरुआती के लिए समझ में आने वाले स्तर पर, लेकिन तकनीकी रूप से भी सटीक विवरण देंगे।

RAG का समग्र चित्र—सर्च-संवर्धित जनरेशन

1. RAG क्या है—Retrieval-Augmented Generation

RAG (Retrieval-Augmented Generation) का सीधा अनुवाद है "सर्च (Retrieval) से संवर्धित (Augmented) जनरेशन (Generation)"। हिंदी में इसे "सर्च-संवर्धित जनरेशन" कहा जाता है।

एक वाक्य में समझाएँ तो, "LLM (बड़े भाषा मॉडल) उत्तर बनाने से पहले, संबंधित जानकारी को बाहरी डेटाबेस से सर्च करता है, और उन सर्च परिणामों को संदर्भ बनाकर उत्तर तैयार करता है" यह तंत्र है।

खाना पकाने की उपमा

LLM अकेला है "केवल याददाश्त से खाना बनाने वाला शेफ़"। प्रतिभाशाली है, लेकिन अनजान रेसिपी नहीं बना सकता, और फ़्रिज में क्या रखा है यह भी नहीं जानता।

RAG उस शेफ़ को "रेसिपी की किताब देकर, फ़्रिज में क्या है यह बताकर खाना बनवाना" यह तंत्र है। शेफ़ अब रेसिपी की किताब देखते हुए, मौजूद सामग्री से उत्तम पकवान बना सकता है।

"Retrieval", "Augmented", "Generation" की भूमिकाएँ

शब्दअर्थRAG में भूमिका
Retrievalसर्च・प्राप्तिसवाल से संबंधित दस्तावेज़ों को डेटाबेस से निकालना
Augmentedसंवर्धन・वृद्धिनिकाली गई जानकारी को प्रॉम्प्ट में जोड़कर LLM को देना
GenerationजनरेशनLLM सर्च परिणामों का संदर्भ लेते हुए उत्तर तैयार करता है

मुख्य बिंदु यह है कि LLM को दोबारा प्रशिक्षित नहीं किया जाता, बल्कि हर बार सवाल आने पर "आवश्यक ज्ञान" बाहर से दिया जाता है। यही आगे चलकर बताए जाने वाले फ़ाइन-ट्यूनिंग से निर्णायक अंतर है।

2. RAG क्यों आवश्यक है—LLM अकेले की 3 सीमाएँ

ChatGPT या Claude जैसे LLM अकेले से जो समस्याएँ हल नहीं हो सकतीं, वे 3 हैं।

सीमा 1: ज्ञान कटऑफ़ (जानकारी की ताज़गी)

LLM "किसी समय तक के डेटा" से प्रशिक्षित होते हैं, इसलिए प्रशिक्षण के बाद की नवीनतम जानकारी नहीं जानते। उदाहरण के लिए GPT-4 का प्रारंभिक संस्करण अप्रैल 2023 तक की ही जानकारी रखता था।

  • "कल घोषित नए उत्पाद के बारे में बताओ" → उत्तर नहीं दे सकता
  • "पिछले हफ्ते लागू हुए क़ानून संशोधन की सामग्री क्या है?" → उत्तर नहीं दे सकता
  • "आज की मुद्रा विनिमय दर क्या है?" → उत्तर नहीं दे सकता

RAG का उपयोग करें तो नवीनतम समाचार, डेटाबेस, API से जानकारी निकालकर उत्तर दिया जा सकता है।

सीमा 2: हैलुसिनेशन (विश्वसनीय लगने वाला झूठ)

LLM से अनजान जानकारी पूछी जाए तो भी वह विश्वसनीय लगने वाला उत्तर बना देता है। इसे हैलुसिनेशन (मतिभ्रम) कहते हैं।

उदाहरण: "आपकी कंपनी के नियमों में सवेतन अवकाश कितने दिन हैं?" पूछा जाए तो LLM जानता न होते हुए भी "आम तौर पर 10–20 दिन होते हैं" कह देता है—इससे व्यवसाय में काम नहीं चलता।

RAG में वास्तविक नियमावली दस्तावेज़ सर्च करके संदर्भ दिलाया जाता है, इसलिए आधार पर टिका उत्तर मिलता है। साथ ही "किस दस्तावेज़ के किस पृष्ठ पर लिखा है" यह उद्धरण स्रोत भी जोड़ा जा सकता है।

सीमा 3: आंतरिक・निजी डेटा तक पहुँच असंभव

LLM के प्रशिक्षण डेटा में आपकी कंपनी की मैनुअल, अनुबंध, ग्राहक डेटा शामिल नहीं है। और गोपनीय जानकारी को सीधे LLM में सीखाना भी संभव नहीं (जानकारी रिसाव का जोखिम, लागत की समस्या)।

RAG से, आंतरिक दस्तावेज़ों को अपने वेक्टर DB में संग्रहीत करके, सवाल आने पर ही संबंधित भाग निकालकर LLM को दिया जाता है, इसलिए सुरक्षा बनाए रखते हुए आंतरिक डेटा का उपयोग किया जा सकता है

3. तंत्र—3 स्टेप में चलने वाला RAG

RAG का संचालन मुख्यतः "पूर्व तैयारी (इंडेक्स निर्माण)" और "रनटाइम (प्रश्न-उत्तर)" इन 2 चरणों में बँटा है।

RAG पाइपलाइन का समग्र चित्र

पूर्व तैयारी चरण—दस्तावेज़ों का वेक्टरीकरण और संग्रहण

  1. दस्तावेज़ संग्रह: PDF, Word, HTML, Markdown आदि उपयोग में लाने वाले दस्तावेज़ इकट्ठा करना
  2. चंक विभाजन: दस्तावेज़ों को उपयुक्त लंबाई (जैसे 500–1000 अक्षर) में बाँटना
  3. एम्बेडिंग (Embedding): प्रत्येक चंक को एम्बेडिंग मॉडल (जैसे OpenAI text-embedding-3-small) से गुज़ारकर 1536 आयाम जैसे वेक्टर (संख्याओं की सूची) में बदलना
  4. वेक्टर DB में संग्रहण: चंक और संबंधित वेक्टर को विशेष DB (Pinecone, Qdrant आदि) में संग्रहीत करना

यह कार्य दस्तावेज़ बढ़ने या अद्यतन होने पर किया जाता है।

रनटाइम चरण—सवाल का उत्तर देने के 3 स्टेप

उपयोगकर्ता से सवाल आने पर प्रक्रिया इस प्रकार है।

  1. Step 1: Retrieval (सर्च)
    • सवाल को उसी एम्बेडिंग मॉडल से वेक्टरीकृत करना
    • वेक्टर DB में "सवाल वेक्टर के सबसे निकट" चंक शीर्ष K (आम तौर पर 3–10) निकालना
    • निकटता की गणना के लिए कोसाइन समानता आदि का उपयोग
  2. Step 2: Augmented (संवर्धन)
    • निकाले गए चंक को "संदर्भ जानकारी" के रूप में प्रॉम्प्ट में जोड़ना
    • "नीचे दी गई जानकारी का संदर्भ लेकर सवाल का उत्तर दीजिए: [सर्च परिणाम] सवाल: [उपयोगकर्ता का सवाल]" जैसा रूप
  3. Step 3: Generation (जनरेशन)
    • LLM (GPT-4, Claude, Gemini आदि) संदर्भ जानकारी के आधार पर उत्तर तैयार करता है
    • आवश्यकतानुसार "किस दस्तावेज़ का संदर्भ लिया" यह उद्धरण के रूप में जोड़ा जाता है

ठोस उदाहरण: ChatGPT से आंतरिक नियम पूछना

"सवेतन अवकाश कितने दिन हैं?" इस सवाल का प्रवाह:

  1. सवाल एम्बेडिंग मॉडल से वेक्टरीकृत → [0.12, -0.45, 0.78, ...]
  2. वेक्टर DB से "अवकाश", "सवेतन" से संबंधित 3 चंक प्राप्त
  3. प्राप्त चंक: "धारा 15 वार्षिक सवेतन अवकाश—नियुक्ति के 6 महीने पूरे होने पर 10 दिन प्रदान...", "सेवा अवधि के अनुसार अधिकतम 20 दिन तक..." आदि
  4. प्रॉम्प्ट निर्माण: "संदर्भ जानकारी: धारा 15... सवाल: सवेतन अवकाश कितने दिन हैं?"
  5. LLM का उत्तर: "नियुक्ति के 6 महीने पर 10 दिन, सेवा अवधि के अनुसार अधिकतम 20 दिन प्रदान किए जाते हैं (नियमावली धारा 15 देखें)"

4. RAG के मुख्य घटक

RAG को बनाने वाले 5 घटक देखते हैं।

1. एम्बेडिंग मॉडल (Embedding Model)

टेक्स्ट को संख्यात्मक वेक्टर में बदलने वाला AI मॉडल। "अर्थ की दृष्टि से समान टेक्स्ट, वेक्टर स्पेस में भी पास की स्थिति में होते हैं" इस तरह प्रशिक्षित किए जाते हैं।

मॉडलप्रदाताविशेषता
text-embedding-3-smallOpenAIसस्ता और उच्च प्रदर्शन, 1536 आयाम
text-embedding-3-largeOpenAIअधिक उच्च परिशुद्धता, 3072 आयाम
voyage-3Voyage AIAnthropic अनुशंसित, उच्च परिशुद्धता
Cohere Embed v3Cohereबहुभाषी समर्थन, हिंदी में भी निपुण
multilingual-e5-largeMicrosoft (OSS)लोकल चलाया जा सकता है, मुफ़्त
BGE-M3BAAI (OSS)100 से अधिक भाषा समर्थन, OSS में सर्वश्रेष्ठ

2. वेक्टर डेटाबेस

बड़ी मात्रा में वेक्टर संग्रहीत करके, "निकट वेक्टर" को तेज़ी से सर्च कर सकने वाला विशेष DB। विवरण अगले अध्याय में।

3. सर्च इंजन (Retriever)

वेक्टर सर्च के साथ-साथ, कीवर्ड सर्च (BM25 आदि) और हाइब्रिड सर्च का मिलान भी अक्सर किया जाता है।

4. LLM (जनरेशन वाला)

अंतिम उत्तर बनाने वाला बड़ा भाषा मॉडल। GPT-4, Claude, Gemini, Llama 3 आदि। वाणिज्यिक API से भी और OSS लोकल मॉडल से भी चलता है।

5. प्रॉम्प्ट टेम्पलेट

सर्च परिणाम और उपयोगकर्ता सवाल को मिलाकर LLM को देने के लिए टेम्पलेट। RAG की परिशुद्धता को निर्धारित करने वाला महत्वपूर्ण तत्व।

आप आंतरिक नियमों के विशेषज्ञ सहायक हैं।
केवल नीचे दी गई संदर्भ जानकारी के आधार पर सवाल का उत्तर दीजिए।
संदर्भ जानकारी में न हो तो "जानकारी उपलब्ध नहीं" उत्तर दें।

【संदर्भ जानकारी】
{retrieved_chunks}

【सवाल】
{user_question}

【उत्तर】

5. वेक्टर डेटाबेस क्या है

वेक्टर DB सामान्य RDB (MySQL आदि) से भिन्न होते हुए, "उच्च-आयामी वेक्टर स्पेस में निकटतम पड़ोसी (सबसे समान वेक्टर) को तेज़ी से सर्च करना" इसमें विशेषज्ञ हैं।

प्रमुख वेक्टर DB की तुलना

DBप्रकारविशेषतामूल्य
Pineconeमैनेज्ड SaaSउद्योग मानक, सेटअप अति सरलमुफ़्त सीमा है, $70/माह से
WeaviateOSS+क्लाउडGraphQL API, हाइब्रिड सर्चOSS मुफ़्त, SaaS $25 से
QdrantOSS+क्लाउडRust में बना, तेज़, फ़िल्टरिंग शक्तिशालीOSS मुफ़्त, SaaS मुफ़्त सीमा
ChromaOSSहलका, Python में तुरंत उपयोगमुफ़्त (सेल्फ-होस्ट)
pgvectorPostgreSQL एक्सटेंशनमौजूदा PostgreSQL में उपयोगमुफ़्त (OSS एक्सटेंशन)
MilvusOSS+क्लाउडबड़े पैमाने के लिए, अरबों वेक्टर संभवOSS मुफ़्त, Zilliz Cloud
Elasticsearchसर्च इंजनवेक्टर सर्च समर्थन, मौजूदा संचालन के साथ एकीकरणOSS मुफ़्त, मैनेज्ड भी
Vertex AI Vector SearchGoogle CloudGCP इकोसिस्टम के साथ एकीकरणउपयोग-आधारित

कौन-सा चुनें

  • आज़माना है: Chroma (pip install से तुरंत चलता है)
  • मौजूदा PostgreSQL का उपयोग: pgvector (DB एकीकृत रखा जा सकता है)
  • प्रोडक्शन・संचालन बोझ कम: Pinecone (सेटिंग नहीं चाहिए)
  • OSS में पूर्ण संचालन: Qdrant या Weaviate
  • करोड़ों से अरबों रिकॉर्ड का बड़ा पैमाना: Milvus

वैसे, होस्टिंग के चुनाव के बारे में PaaS (Vercel आदि) और रेंटल・VPS・क्लाउड की तुलना भी संदर्भ के लिए उपयोगी है।

6. प्रमुख उपयोग—RAG कहाँ उपयोग होता है

RAG 2023 के बाद से कंपनियों के AI उपयोग में सबसे अधिक अपनाई गई तकनीकों में से एक है। प्रतिनिधि उपयोग प्रस्तुत हैं।

उपयोग 1: आंतरिक दस्तावेज़ QA (नॉलेज बेस)

नियमावली, व्यवसाय मैनुअल, तकनीकी विनिर्देश, मीटिंग नोट्स, बिक्री सामग्री आदि को RAG बनाकर, कर्मचारी ChatGPT की तरह सवाल कर सकें ऐसा वातावरण बनाना। Microsoft 365 Copilot भी SharePoint दस्तावेज़ों के लिए RAG उपयोग करता है।

उपयोग 2: ग्राहक सहायता का स्वचालन

FAQ और सहायता इतिहास को RAG बनाकर, चैटबॉट से प्रथम प्रतिक्रिया स्वचालित। मानव ऑपरेटर जटिल पूछताछ पर ध्यान केंद्रित कर सकते हैं।

उपयोग 3: क़ानूनी・चिकित्सा विशेषज्ञ ज्ञान Q&A

मामला डेटाबेस, चिकित्सा शोध-पत्र, उपचार दिशा-निर्देश आदि को RAG बनाना। वकील या डॉक्टर रोज़मर्रा के काम में संदर्भ ले सकें ऐसी प्रणाली। उद्धरण स्रोत स्पष्ट होने के कारण, आधार आवश्यक होने वाले विशेषज्ञ क्षेत्रों के साथ अच्छा मेल।

उपयोग 4: शोध-पत्र सर्च・सारांश

arXiv, PubMed, Google Scholar आदि शोध-पत्र DB को RAG बनाकर, "इस शोध विषय पर नवीनतम रुझान क्या है?", "XX तकनीक के समान शोध कौन-से हैं?" जैसे सवालों के उत्तर। Elicit और Perplexity प्रसिद्ध हैं।

उपयोग 5: EC साइट के उत्पाद सर्च・FAQ

उत्पाद मैनुअल, समीक्षाएँ, वापसी नीति आदि को एकीकृत करने वाला RAG। "क्या यह वैक्यूम क्लीनर पालतू जानवरों के बाल भी संभाल सकता है?" जैसी प्राकृतिक भाषा सर्च संभव।

उपयोग 6: डेवलपर के लिए दस्तावेज़ चैट

लाइब्रेरी के आधिकारिक दस्तावेज़ों को RAG बनाकर, "AWS Lambda में ऐसे लिखना है, सैंपल कोड क्या है?" जैसे सवालों के उत्तर। Stripe, Vercel, Supabase आदि अपनाते हैं।

उपयोग 7: आंतरिक कोडबेस का सर्च・व्याख्या

GitHub के कोड को RAG बनाकर, "इस फ़ंक्शन का उपयोग कैसे करें?", "समान प्रोसेसिंग लागू करने वाली फ़ाइलें कौन-सी हैं?" जैसे डेवलपर के लिए उपकरण। GitHub Copilot Chat और Cursor, Claude Code आदि डेवलपमेंट AI भी RAG जैसी तकनीकें आंतरिक रूप से उपयोग करते हैं।

उपयोग 8: llms.txt जैसी नई AI अनुकूलन

वेब पर मौजूद जानकारी को AI से सही तरीक़े से संदर्भ दिलवाने वाली llms.txt भी RAG से अच्छा मेल खाने वाली है, साइट संचालक AI को पढ़वाने योग्य जानकारी संरचित रूप में दे सकते हैं।

7. RAG vs फ़ाइन-ट्यूनिंग—कौन-सा चुनें

"LLM को स्वयं का ज्ञान देने" की विधि के रूप में RAG के साथ-साथ अक्सर चर्चा होती है फ़ाइन-ट्यूनिंग (Fine-tuning)। दोनों के दृष्टिकोण मूलतः भिन्न हैं।

RAG और फ़ाइन-ट्यूनिंग की तुलना

मूलभूत अंतर

दृष्टिकोणRAGफ़ाइन-ट्यूनिंग
तरीक़ारनटाइम पर बाहर से जानकारी देनापहले से मॉडल को दोबारा प्रशिक्षित करना
ज्ञान अद्यतनकेवल DB अद्यतन (तत्काल)दोबारा प्रशिक्षण आवश्यक (समय・लागत)
प्रारंभिक लागतकम (केवल DB निर्माण)अधिक (प्रशिक्षण डेटा तैयारी और कंप्यूट संसाधन)
संचालन लागतसर्च + LLM API मूल्यकेवल इन्फ़रेंस (अपना मॉडल रखना)
हैलुसिनेशनकम (संदर्भ स्रोत है)मध्यम (सीखी बातें बोलता है)
उद्धरण स्रोतसंभवकठिन
शैली・लहजे का सीखनाकमज़ोरमज़बूत
गतिशील डेटामज़बूत (वास्तविक समय जानकारी भी)कमज़ोर (दोबारा प्रशिक्षण ज़रूरी)
गोपनीय डेटाऑन-प्रेम पर पूरा संभववही (लेकिन भारी)

RAG के लिए उपयुक्त परिस्थितियाँ

  • ज्ञान बार-बार अद्यतन होता है (समाचार, आंतरिक दस्तावेज़, उत्पाद जानकारी)
  • उत्तर का आधार स्पष्ट करना ज़रूरी हो (क़ानून, चिकित्सा, वित्त)
  • दस्तावेज़ बहुत अधिक हैं (सब प्रशिक्षित कराना अव्यावहारिक)
  • तुरंत शुरू करना है (विकास अवधि कम रखनी हो)

फ़ाइन-ट्यूनिंग के लिए उपयुक्त परिस्थितियाँ

  • विशिष्ट शैली・टोन में उत्तर दिलवाना हो (कंपनी ब्रांड, चरित्र विशेषता)
  • विशेषज्ञ क्षेत्र के भाषा पैटर्न सीखाना है (चिकित्सा शब्द, क़ानूनी शैली)
  • इन्फ़रेंस लागत कम करनी है (प्रॉम्प्ट छोटा होने से)
  • पहले से बहुत अधिक शिक्षक डेटा उपलब्ध है

दोनों मिलाकर सबसे शक्तिशाली

दरअसल RAG और फ़ाइन-ट्यूनिंग विरोधी तकनीकें नहीं, साथ-साथ उपयोग करने योग्य हैं। शैली फ़ाइन-ट्यूनिंग से सीखाएँ, नवीनतम ज्ञान RAG से दें—यह संरचना वास्तविक संचालन में बहुतायत से दिखती है।

फिर भी शुरुआती पहले RAG से आज़माना ही नियम है। फ़ाइन-ट्यूनिंग की तुलना में, निर्माण・संचालन कहीं अधिक आसान है।

8. कार्यान्वयन—LangChain से RAG बनाना

RAG कार्यान्वयन के प्रतिनिधि फ़्रेमवर्क प्रस्तुत करने के बाद, Python में न्यूनतम सैंपल कोड दिखाते हैं।

प्रमुख फ़्रेमवर्क

फ़्रेमवर्कभाषाविशेषता
LangChainPython / JSउद्योग में सबसे प्रचलित, प्रचुर एकीकरण
LlamaIndexPythonडेटा कनेक्शन और इंडेक्स में विशेषज्ञ
HaystackPythonएंटरप्राइज़ के लिए, बारीक नियंत्रण
Semantic KernelC# / PythonMicrosoft निर्मित, .NET एकीकरण में मज़बूत
DSPyPythonप्रॉम्प्ट अनुकूलन का स्वचालन
अपना कार्यान्वयनकोई भीसरल RAG तो 100 लाइन में लिख सकते हैं

LangChain से न्यूनतम RAG सैंपल

आंतरिक नियमावली PDF पर सवाल का उत्तर देने वाला RAG, LangChain से लगभग 30 लाइन में बनाते हैं।

from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA

# 1. दस्तावेज़ पढ़ना
loader = PyPDFLoader("kisoku.pdf")
docs = loader.load()

# 2. चंक विभाजन
splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, chunk_overlap=50
)
chunks = splitter.split_documents(docs)

# 3. एम्बेडिंग + वेक्टर DB निर्माण
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_documents(chunks, embeddings)

# 4. RAG चेन निर्माण
llm = ChatOpenAI(model="gpt-4o-mini")
qa = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
    return_source_documents=True,
)

# 5. सवाल
result = qa.invoke({"query": "सवेतन अवकाश कितने दिन हैं?"})
print(result["result"])
print("संदर्भ स्रोत:", [d.metadata for d in result["source_documents"]])

इस कोड को चलाने पर, नियमावली PDF से संबंधित भाग सर्च होकर, GPT-4o-mini उत्तर तैयार करता है। संदर्भ स्रोत के पृष्ठ नंबर भी प्राप्त होते हैं, इसलिए उपयोगकर्ता को "धारा 15 देखें" के साथ उद्धरण-सहित उत्तर देना भी संभव है।

अधिक प्रोडक्शन-स्तरीय कार्यान्वयन के लिए

  • चंक विभाजन का अनुकूलन (सिमैंटिक विभाजन, हायरार्किकल चंक आदि)
  • हाइब्रिड सर्च (वेक्टर + कीवर्ड BM25 का मिलान)
  • री-रैंकिंग (Cohere Rerank, voyage-rerank आदि से सर्च परिणामों का पुनर्क्रम)
  • क्वेरी पुनर्लेखन (HyDE, Multi-Query आदि से सर्च परिशुद्धता वृद्धि)
  • मूल्यांकन पाइपलाइन (RAGAS से स्वचालित मूल्यांकन)

9. RAG की चुनौतियाँ और उपाय

RAG शक्तिशाली तकनीक है, लेकिन वास्तविक संचालन में निम्नलिखित चुनौतियों से सामना होता है।

चुनौती 1: चंक विभाजन की कठिनाई

दस्तावेज़ को कैसे विभाजित करें इससे सर्च परिशुद्धता बहुत बदल जाती है। बहुत छोटा हो तो संदर्भ खो जाता है, बहुत बड़ा हो तो सर्च परिशुद्धता गिरती है।

उपाय:

  • सिमैंटिक विभाजन (अर्थपूर्ण समूह में बाँटना)
  • ओवरलैप सेटिंग (पड़ोसी चंक के साथ कुछ ओवरलैप)
  • हायरार्किकल चंक (मूल-शिशु संरचना में संग्रहण, सर्च शिशु・संदर्भ मूल)

चुनौती 2: Retrieval (सर्च) की परिशुद्धता

समान दिखने वाले परंतु भिन्न चंक उठा लेना, महत्वपूर्ण जानकारी छूट जाना आदि।

उपाय:

  • हाइब्रिड सर्च (वेक्टर + BM25 कीवर्ड)
  • री-रैंकिंग मॉडल से सर्च के बाद पुनर्क्रम
  • एकाधिक क्वेरी जनरेशन (एक ही सवाल को भिन्न शब्दों में सर्च)

चुनौती 3: कॉन्टेक्स्ट लंबाई की सीमा

LLM को दिए जा सकने वाले टोकन की अधिकतम सीमा है, बड़ी मात्रा में चंक नहीं दिए जा सकते।

उपाय:

  • K रिकॉर्ड सीमित (शीर्ष 3–5)
  • पहले सारांश बनाकर देना
  • लंबे कॉन्टेक्स्ट LLM (Claude 200K टोकन, Gemini 1M आदि) उपयोग

चुनौती 4: मूल्यांकन की कठिनाई

RAG की उत्तर गुणवत्ता को वस्तुनिष्ठ रूप से मापना कठिन। सही उत्तर डेटा कैसे बनाएँ यह चुनौती।

उपाय:

  • RAGAS (RAG मूल्यांकन के लिए OSS फ़्रेमवर्क) उपयोग
  • उत्तर की सटीकता, उत्तर की प्रासंगिकता, सर्च की निष्ठा आदि सूचकांक स्वचालित गणना
  • LLM-as-a-Judge (अन्य LLM से अंक दिलवाना)

चुनौती 5: बहुभाषी・मल्टीमोडल

हिंदी और अंग्रेज़ी मिले हुए दस्तावेज़, छवि-युक्त PDF, तालिकाएँ-ग्राफ़ आदि की प्रोसेसिंग कठिन।

उपाय:

  • बहुभाषी समर्थक एम्बेडिंग मॉडल (BGE-M3, Cohere Multilingual)
  • छवि・तालिका को LLM से पहले टेक्स्ट करना (OCR + VLM)
  • मल्टीमोडल एम्बेडिंग (CLIP, Nomic आदि)

10. प्रमुख उपकरण और सेवाओं की सूची

RAG निर्माण में उपयोगी प्रमुख उपकरण श्रेणी के अनुसार सूचीबद्ध हैं।

फ़्रेमवर्क・लाइब्रेरी

  • LangChain—सबसे प्रचलित RAG फ़्रेमवर्क
  • LlamaIndex—डेटा कनेक्शन में विशेषज्ञ
  • Haystack—एंटरप्राइज़ के लिए
  • DSPy—प्रॉम्प्ट स्वचालित अनुकूलन

वेक्टर DB (मैनेज्ड)

  • Pinecone—उद्योग मानक
  • Weaviate Cloud—GraphQL समर्थन
  • Qdrant Cloud—उच्च प्रदर्शन
  • Zilliz Cloud—Milvus का मैनेज्ड संस्करण

वेक्टर DB (OSS・सेल्फ-होस्ट)

  • Chroma—हलका, Python में तुरंत उपयोग
  • Qdrant—Rust में, तेज़
  • Weaviate—OSS संस्करण
  • Milvus—बड़े पैमाने के लिए
  • pgvector—PostgreSQL एक्सटेंशन

एम्बेडिंग मॉडल

  • OpenAI text-embedding-3—मानक, सस्ता
  • Voyage AI—Anthropic अनुशंसित
  • Cohere Embed v3—बहुभाषी समर्थन
  • BGE-M3—OSS उच्च प्रदर्शन

नो-कोड・मैनेज्ड RAG सेवाएँ

  • ChatGPT Projects / Custom GPTs—OpenAI की RAG सुविधा
  • Claude Projects—Anthropic की RAG सुविधा
  • Notion AI—Notion के दस्तावेज़ सर्च
  • Microsoft Copilot (Microsoft 365)—SharePoint/Teams के दस्तावेज़ क्रॉस सर्च
  • Dify—OSS नो-कोड AI निर्माण मंच
  • Vertex AI Agent Builder—Google Cloud की RAG निर्माण सेवा
  • Amazon Bedrock Knowledge Bases—AWS की मैनेज्ड RAG

मूल्यांकन उपकरण

  • RAGAS—OSS RAG मूल्यांकन फ़्रेमवर्क
  • TruLens—LLM ऐप मूल्यांकन सामान्य
  • LangSmith—LangChain आधिकारिक ट्रेस・मूल्यांकन

FAQ

Q. क्या RAG ChatGPT में भी उपयोग किया जा सकता है?

हाँ। ChatGPT की "Projects" सुविधा या "Custom GPTs" में फ़ाइल अपलोड करने पर, आंतरिक रूप से RAG के रूप में काम करती है (OpenAI की भाषा में "File Search" सुविधा)। डेवलपर API के द्वारा RAG उपयोग करना चाहें तो, OpenAI Assistants API के "File Search" टूल का उपयोग, या LangChain आदि से अपना निर्माण की विधि है। इसी तरह Claude में भी "Projects" सुविधा से वही संभव है।

Q. RAG की संचालन लागत कितनी होती है?

पैमाने के अनुसार बहुत बदलती है। व्यक्तिगत—छोटे पैमाने (दस्तावेज़ 10,000 से कम, मासिक 1000 क्वेरी) पर Chroma + OpenAI API से मासिक कुछ दर्जन डॉलर में हो जाता है। मध्यम पैमाने (1 लाख रिकॉर्ड, मासिक 1 लाख क्वेरी) पर Pinecone + GPT-4o उपयोग करें तो मासिक कुछ सौ से कुछ हज़ार डॉलर। बड़ी कंपनियों के लिए मासिक कुछ दस हज़ार डॉलर से अधिक भी हो सकता है। मुख्य लागत तत्व "एम्बेडिंग API", "वेक्टर DB", "LLM API" इन 3 हैं।

Q. RAG ChatGPT आदि में फ़ाइल अपलोड करने से क्या भिन्न है?

मूलतः वही "सर्च-संवर्धित जनरेशन" तकनीक है। ChatGPT में फ़ाइल अपलोड करने की सुविधा आंतरिक रूप से RAG ही चला रही है कह सकते हैं। अंतर इस प्रकार: (1) ChatGPT 1—कुछ दर्जन फ़ाइल तक (Projects से बहुत वृद्धि), अपना RAG लाखों रिकॉर्ड भी संभव, (2) ChatGPT ब्लैक बॉक्स, अपना RAG सर्च एल्गोरिथम बारीकी से नियंत्रित, (3) ChatGPT OpenAI के सर्वर पर, अपना RAG ऑन-प्रेम पर भी संभव। कंपनियों के पूर्ण संचालन में अपना RAG बनाना सामान्य है।

Q. क्या RAG से हैलुसिनेशन पूरी तरह ख़त्म हो जाता है?

पूरी तरह ख़त्म नहीं होता। RAG में भी, (1) संबंधित दस्तावेज़ सर्च न हो पाना, (2) सर्च परिणाम तो हैं लेकिन LLM ने ग़लत समझा, (3) सर्च परिणामों में विरोधाभास—इन कारणों से ग़लत उत्तर हो सकते हैं। उपाय के रूप में "संदर्भ जानकारी में न हो तो 'जानकारी उपलब्ध नहीं' कहें" यह प्रॉम्प्ट प्रतिबंध, उद्धरण स्रोत स्पष्ट करना, RAGAS आदि से निरंतर मूल्यांकन महत्वपूर्ण है। फिर भी 100% परिशुद्धता नहीं मिलती, इसलिए चिकित्सा・क़ानून आदि महत्वपूर्ण उपयोग में मानव सत्यापन अनिवार्य रखें

Q. हिंदी दस्तावेज़ों पर कैसे काम करवाएँ?

हिंदी समर्थन मुख्यतः 3 बिंदुओं पर: (1) एम्बेडिंग मॉडल में बहुभाषी मॉडल (OpenAI text-embedding-3, Cohere Multilingual, BGE-M3 आदि) उपयोग, (2) चंक विभाजन में हिंदी के विराम चिह्न और शब्द सीमाओं का ध्यान, (3) LLM भी हिंदी में निपुण मॉडल (GPT-4o, Claude, Gemini आदि) चुनना। OpenAI का text-embedding-3 हिंदी में भी पर्याप्त समर्थन देता है, लेकिन हिंदी में विशेष चाहिए तो BGE-M3 या Cohere अधिक उच्च परिशुद्धता देते हैं।

Q. RAG और एजेंट (AI Agent) का अंतर क्या है?

RAG "सर्च करके उत्तर बनाने" का स्थिर तंत्र। एजेंट "लक्ष्य के अनुसार स्वायत्त रूप से उपकरण चुनकर निष्पादित करने" का गतिशील तंत्र है। RAG को एजेंट जो उपकरण उपयोग कर सकता है उसमें एक उपकरण के रूप में अक्सर शामिल किया जाता है। उदाहरण के लिए "आंतरिक जानकारी सर्च (RAG)", "वेब सर्च", "गणना", "ईमेल भेजना" जैसे एकाधिक उपकरणों को परिस्थिति के अनुसार बदलकर उपयोग करना एजेंट है, और RAG उसका घटक है यह संबंध। Agentic RAG जैसा "सर्च रणनीति स्वयं LLM तय करने वाला RAG" भी सामने आ रहा है।

Q. क्या सुरक्षा ठीक है? गोपनीय जानकारी AI को नहीं दिखानी

कई उपाय हैं: (1) वेक्टर DB और एम्बेडिंग प्रोसेसिंग को ऑन-प्रेम या VPC में रखें (Qdrant, pgvector आदि सेल्फ-होस्ट), (2) LLM भी लोकल चलाने योग्य OSS मॉडल (Llama 3, Qwen आदि) उपयोग करें, (3) API उपयोग करें तो भी, OpenAI या Azure OpenAI के "डेटा प्रशिक्षण में नहीं उपयोग होगा" अनुबंध करें, (4) गोपनीयता स्तर के अनुसार चंक में पहुँच अधिकार मेटाडेटा जोड़कर, सर्च के समय फ़िल्टरिंग। पूर्ण ऑन-प्रेम RAG तकनीकी रूप से संभव है, और वित्तीय संस्थानों एवं चिकित्सा संस्थानों में भी अपनाया जा रहा है।

Q. RAG निर्माण कितने समय・कौशल में संभव?

प्रोटोटाइप तो Python शुरुआती से कुछ घंटे—1 दिन में बनाया जा सकता है (Chroma + OpenAI API से लगभग 30 लाइन)। प्रोडक्शन-स्तर तो, चंक विभाजन・हाइब्रिड सर्च・री-रैंकिंग・मूल्यांकन पाइपलाइन आदि के निर्माण में 1—3 महीने लगते हैं। आवश्यक कौशल "Python की मूल बातें", "LLM API का उपयोग", "बुनियादी DB ऑपरेशन"। उच्च मशीन लर्निंग ज्ञान अनावश्यक, AI इंजीनियर से ज़्यादा सॉफ़्टवेयर इंजीनियर के लिए संभालने योग्य क्षेत्र है।

यह लेख अप्रैल 2026 की जानकारी पर आधारित है। RAG से संबंधित उपकरण और मॉडल तेज़ी से बदल रहे हैं, इसलिए कार्यान्वयन के समय प्रत्येक सेवा के नवीनतम दस्तावेज़ देखें।