Was ist RAG? Funktionsweise, Anwendungsfaelle und Unterschied zum Fine-Tuning

Q: F. Geht RAG auch mit ChatGPT?

Ja. Wer Dateien in „Projects&quot; oder „Custom GPTs&quot; hochlaedt, nutzt intern RAG (bei OpenAI „File Search&quot;). Wer ueber API arbeitet, kann den „File Search&quot;-Tool der OpenAI Assistants API verwenden oder mit LangChain selbst etwas bauen. Bei Claude geht das Gleiche ueber „Projects&quot;.

Q: F. Verschwinden Halluzinationen mit RAG vollstaendig?

Nein, nicht vollstaendig. Auch mit RAG gibt es Fehler, wenn (1) keine passenden Dokumente gefunden werden, (2) das LLM die Suchergebnisse falsch interpretiert oder (3) die Treffer widerspruechlich sind. Hilfreich: Prompt-Vorgabe „bei fehlenden Informationen ‚keine Information‘&quot;, Quellenausweis, fortlaufende Auswertung mit Tools wie RAGAS. 100% Genauigkeit gibt es nicht — in heiklen Bereichen (Medizin, Recht) sollte die menschliche Pruefung Pflicht bleiben.

Q: F. Was ist der Unterschied zwischen RAG und einem AI-Agenten?

RAG ist ein festes Verfahren („suchen, dann antworten&quot;); ein Agent waehlt eigenstaendig Werkzeuge je nach Ziel. RAG ist haeufig eines der Werkzeuge, die ein Agent benutzen kann. Ein Agent jongliert je nach Lage mit „interner Suche (RAG)&quot;, „Web-Suche&quot;, „Berechnung&quot;, „Mailversand&quot; — RAG ist Bestandteil. Es gibt auch „Agentic RAG&quot;, bei dem das LLM die Suchstrategie selbst plant.

Q: F. Wie viel Zeit und Skill kostet ein RAG?

Ein Prototyp ist mit Python-Grundkenntnissen in wenigen Stunden bis einem Tag machbar (Chroma + OpenAI in ca. 30 Zeilen). Fuer Produktivbetrieb mit Chunking, Hybrid-Suche, Re-Ranking, Evaluation kommen schnell 1–3 Monate dazu. Benoetigte Skills: Python-Basis, LLM-API-Nutzung, einfache DB-Operationen. Tiefes ML-Wissen ist nicht noetig — RAG ist eher ein Feld fuer Software-Entwicklerinnen als fuer ML-Engineers.

Was ist RAG? Funktionsweise und Anwendungsfaelle einfach erklaert【2026】

Inhaltsverzeichnis

1. Was ist RAG — Retrieval-Augmented Generation
2. Warum RAG noetig ist — drei Grenzen reiner LLMs
3. Funktionsweise — RAG in drei Schritten
4. Die zentralen Komponenten von RAG
5. Was ist eine Vektor-Datenbank?
6. Typische Anwendungsfaelle
7. RAG vs. Fine-Tuning — was waehlen?
8. Implementierung — RAG mit LangChain
9. Herausforderungen und Loesungen
10. Wichtige Tools und Dienste im Ueberblick
FAQ

„Wir wollen ChatGPT unsere Betriebsordnung beibringen und Mitarbeiterfragen automatisch beantworten lassen." „Eine aktuelle Forschungsdatenbank durchsuchen und zusammenfassen lassen." Solche Anforderungen werden immer haeufiger. Aber die Trainingsdaten von ChatGPT enden zu einem bestimmten Zeitpunkt — und vertrauliche interne Dokumente einfach trainieren zu lassen, geht auch nicht.

Die Loesung dafuer heisst RAG (Retrieval-Augmented Generation). Seit 2023 ist es eines der wichtigsten Stichworte fuer den AI-Einsatz in Unternehmen geworden — und auch ChatGPTs „Custom GPTs" und „Projects" arbeiten intern mit RAG.

Dieser Artikel erklaert RAG in drei Schritten und behandelt Vektor-Datenbanken, eine LangChain-Implementierung sowie die Abgrenzung zum Fine-Tuning — verstaendlich fuer Einsteiger und trotzdem technisch korrekt.

RAG-Gesamtbild — Retrieval-Augmented Generation

1. Was ist RAG — Retrieval-Augmented Generation

RAG (Retrieval-Augmented Generation) bedeutet woertlich „durch Retrieval (Suche) augmentierte (erweiterte) Generation". Auf Deutsch oft als retrieval-erweiterte Erzeugung bezeichnet.

In einem Satz: ein LLM (grosses Sprachmodell) sucht vor der Antwort relevante Informationen in einer externen Datenquelle und erzeugt die Antwort dann mit Bezug auf diese Suchergebnisse.

Eine Analogie aus der Kueche

Ein LLM allein ist wie ein Koch, der nur aus dem Gedaechtnis kocht. Er ist gut, aber unbekannte Rezepte kann er nicht — und was im Kuehlschrank liegt, weiss er auch nicht.

RAG bedeutet, dem Koch ein Rezeptbuch in die Hand zu druecken und ihm den Kuehlschrank-Inhalt mitzuteilen, bevor er kocht. So kann er mit dem, was vorhanden ist, das beste Gericht zubereiten.

Die Rollen von Retrieval, Augmented und Generation

Begriff	Bedeutung	Rolle im RAG
Retrieval	Suchen, Abrufen	Relevante Dokumente zur Frage aus der Datenbank holen
Augmented	Erweitert, ergaenzt	Die abgerufenen Inhalte werden in den Prompt eingebaut
Generation	Erzeugung	Das LLM antwortet unter Bezug auf die Suchergebnisse

Wichtig: Das LLM selbst wird nicht neu trainiert — vielmehr wird ihm pro Anfrage das benoetigte Wissen extern uebergeben. Genau das ist der entscheidende Unterschied zum Fine-Tuning, das spaeter behandelt wird.

2. Warum RAG noetig ist — drei Grenzen reiner LLMs

Drei Probleme lassen sich mit ChatGPT, Claude oder anderen LLMs allein nicht loesen.

Grenze 1: Wissens-Cutoff (Aktualitaet)

LLMs werden mit Daten bis zu einem bestimmten Stichtag trainiert; was danach passiert, kennen sie nicht. Die fruehe GPT-4-Version etwa hatte nur Wissen bis April 2023.

„Erzaehl mir vom Produkt, das gestern angekuendigt wurde." → keine Antwort moeglich
„Was steht in der Gesetzesnovelle der letzten Woche?" → keine Antwort moeglich
„Wie ist der heutige Wechselkurs?" → keine Antwort moeglich

Mit RAG lassen sich aktuelle News, Datenbanken oder APIs anzapfen und die Antwort darauf stuetzen.

Grenze 2: Halluzinationen (plausibel klingende Falschaussagen)

Wird ein LLM zu Unbekanntem befragt, neigt es dazu, plausibel klingende, aber erfundene Antworten zu liefern. Das nennt man Halluzination.

Beispiel: „Wie viele Urlaubstage gewaehrt Ihre Firma?" — das LLM kennt die Antwort nicht und sagt trotzdem „ueblicherweise 10 bis 20 Tage". So nicht einsetzbar.

RAG laesst die tatsaechliche Betriebsordnung durchsuchen und referenziert die passende Stelle, sodass belegte Antworten entstehen — inklusive Quellenangabe nach Dokument und Seite.

Grenze 3: Kein Zugriff auf interne und private Daten

Handbuecher, Vertraege, Kundendaten Ihrer Firma stehen nicht in den Trainingsdaten eines LLM. Geheime Inhalte einfach zu trainieren, ist ebenfalls keine Option (Risiko des Datenabflusses, Kosten).

RAG legt interne Dokumente in eine eigene Vektor-Datenbank und uebergibt nur die relevanten Auszuege an das LLM. So lassen sich interne Daten nutzen, ohne Sicherheit aufzugeben.

3. Funktionsweise — RAG in drei Schritten

RAG hat zwei Phasen: „Vorbereitung (Index aufbauen)" und „Laufzeit (Anfrage beantworten)".

Vorbereitung — Dokumente vektorisieren und ablegen

Dokumente sammeln: PDF, Word, HTML, Markdown — was immer benoetigt wird
Chunking: die Texte in passende Laengen schneiden (z.B. 500–1000 Zeichen)
Embedding: jeden Chunk durch ein Embedding-Modell (z.B. OpenAI text-embedding-3-small) jagen und in eine Vektor (z.B. 1536-dimensionales Zahlenarray) umwandeln
In Vektor-DB speichern: Chunks und ihre Vektoren in einer spezialisierten Datenbank ablegen (Pinecone, Qdrant usw.)

Dieser Schritt laeuft, sobald Dokumente hinzukommen oder aktualisiert werden.

Laufzeit — Anfrage in drei Schritten

Wenn eine Nutzeranfrage eingeht, geschieht Folgendes:

Schritt 1: Retrieval (Suche)
- Die Frage wird mit demselben Embedding-Modell vektorisiert
- In der Vektor-DB werden die zur Frage „naechstgelegenen" Chunks geholt — Top-K (typisch 3–10)
- Als Aehnlichkeitsmass dient z.B. die Kosinus-Aehnlichkeit
Schritt 2: Augmented (Anreichern)
- Die abgerufenen Chunks werden als „Kontext" in den Prompt eingebaut
- Etwa: „Beantworte die Frage anhand der folgenden Informationen: [Suchergebnisse] Frage: [Nutzerfrage]"
Schritt 3: Generation (Erzeugung)
- Das LLM (GPT-4, Claude, Gemini usw.) erzeugt die Antwort gestuetzt auf den Kontext
- Bei Bedarf werden die zitierten Dokumentstellen mitgeliefert

Konkretes Beispiel: Betriebsordnung in ChatGPT befragen

Ablauf bei der Frage „Wie viele Urlaubstage gibt es?":

Frage wird vektorisiert → [0.12, -0.45, 0.78, ...]
Aus der Vektor-DB werden 3 Chunks zu „Urlaub" / „bezahlter Urlaub" geholt
Beispielhafte Chunks: „§15 Jahresurlaub: nach sechs Monaten Betriebszugehoerigkeit zehn Tage…" / „je nach Dienstjahren bis zu 20 Tage…"
Prompt: „Kontext: §15 … Frage: Wie viele Urlaubstage gibt es?"
Antwort des LLM: „Nach sechs Monaten Betriebszugehoerigkeit zehn Tage, je nach Dienstjahren bis zu 20 (vgl. §15 der Betriebsordnung)."

4. Die zentralen Komponenten von RAG

RAG besteht aus fuenf Bausteinen.

1. Embedding-Modell

Ein KI-Modell, das Text in numerische Vektoren uebersetzt. Es ist so trainiert, dass „semantisch aehnliche Texte im Vektorraum nah beieinander liegen".

Modell	Anbieter	Merkmale
text-embedding-3-small	OpenAI	guenstig, leistungsstark, 1536 Dimensionen
text-embedding-3-large	OpenAI	hoehere Genauigkeit, 3072 Dimensionen
voyage-3	Voyage AI	von Anthropic empfohlen, hochgenau
Cohere Embed v3	Cohere	mehrsprachig, auch im Deutschen stark
multilingual-e5-large	Microsoft (OSS)	lokal lauffaehig, kostenlos
BGE-M3	BAAI (OSS)	ueber 100 Sprachen, OSS-Spitzenklasse

2. Vektor-Datenbank

Speichert grosse Mengen von Vektoren und durchsucht „aehnliche Vektoren" sehr schnell. Details im naechsten Kapitel.

3. Retriever

Neben der Vektor-Suche werden oft Stichwortsuche (z.B. BM25) oder Hybrid-Verfahren kombiniert.

4. LLM (Generator)

Das grosse Sprachmodell, das die endgueltige Antwort schreibt. GPT-4, Claude, Gemini, Llama 3 usw. — kommerzielle APIs ebenso wie OSS-Modelle lokal.

5. Prompt-Vorlage

Die Schablone, die Suchergebnisse und Nutzerfrage zusammensetzt. Sie entscheidet wesentlich ueber die RAG-Qualitaet.

Du bist ein Assistent fuer interne Regelungen.
Beantworte die Frage ausschliesslich anhand des folgenden Kontexts.
Falls die Antwort nicht im Kontext steht, sage „Keine Information vorhanden."

[Kontext]
{retrieved_chunks}

[Frage]
{user_question}

[Antwort]

5. Was ist eine Vektor-Datenbank?

Eine Vektor-DB ist anders als eine klassische RDB (z.B. MySQL): sie ist darauf spezialisiert, in einem hochdimensionalen Vektorraum schnell den naechsten Nachbarn (die aehnlichsten Vektoren) zu finden.

Wichtige Vektor-DBs im Vergleich

DB	Typ	Merkmale	Preis
Pinecone	Managed SaaS	Industriestandard, sehr einfach einzurichten	Free-Tier, ab 70 USD/Monat
Weaviate	OSS + Cloud	GraphQL-API, Hybrid-Suche	OSS gratis, SaaS ab 25 USD
Qdrant	OSS + Cloud	schnell (Rust), starke Filter	OSS gratis, SaaS Free-Tier
Chroma	OSS	schlank, in Python sofort einsetzbar	gratis (selbst gehostet)
pgvector	PostgreSQL-Erweiterung	laeuft in vorhandenem PostgreSQL	gratis (OSS)
Milvus	OSS + Cloud	fuer grosse Mengen, Milliarden Vektoren	OSS gratis, Zilliz Cloud
Elasticsearch	Suchmaschine	Vektor-Suche integriert, gut fuer Bestand	OSS gratis, managed verfuegbar
Vertex AI Vector Search	Google Cloud	integriert in das GCP-Oekosystem	nutzungsbasiert

Welche soll man waehlen?

Erst einmal ausprobieren: Chroma (mit pip installieren, sofort lauffaehig)
Vorhandenes PostgreSQL nutzen: pgvector (alles in einer DB)
Produktion mit minimalem Aufwand: Pinecone (kein Setup-Aufwand)
OSS fuer Produktion: Qdrant oder Weaviate
Hunderte Millionen bis Milliarden Eintraege: Milvus

Zur Hosting-Wahl hilft auch PaaS (Vercel & Co.) im Vergleich mit Shared Hosting, VPS und Cloud.

6. Typische Anwendungsfaelle

RAG ist seit 2023 eine der meistgenutzten Techniken im KI-Einsatz von Unternehmen. Hier die wichtigsten Felder.

Fall 1: Internes Dokumenten-Q&A (Knowledge Base)

Betriebsordnungen, Handbuecher, Spezifikationen, Protokolle, Vertriebsunterlagen werden RAG-faehig gemacht — Mitarbeitende fragen wie in ChatGPT. Auch Microsoft 365 Copilot nutzt RAG ueber SharePoint-Dokumente.

Fall 2: Automatisierter Kundensupport

FAQs und Support-Historien werden RAG-faehig — Chatbots uebernehmen die Erstantwort, Menschen kuemmern sich um die komplexen Faelle.

Fall 3: Fachwissen in Recht und Medizin

Urteilsdatenbanken, medizinische Studien, Leitlinien werden eingebunden — Anwaeltinnen und Aerzte erhalten ein Recherchewerkzeug. Da Quellen ausgewiesen werden, passt RAG hier besonders gut.

Fall 4: Forschungsliteratur durchsuchen und zusammenfassen

arXiv, PubMed, Google Scholar werden indiziert — „Wie ist der aktuelle Stand zu Thema X?" oder „Welche Studien aehneln Methode Y?" werden beantwortbar. Bekannte Beispiele: Elicit, Perplexity.

Fall 5: Produktsuche und FAQ im E-Commerce

Produktanleitungen, Bewertungen, Rueckgaberichtlinien werden in einem RAG zusammengefuehrt. Anfragen wie „Eignet sich dieser Staubsauger fuer Tierhaare?" lassen sich in natuerlicher Sprache loesen.

Fall 6: Doku-Chats fuer Entwickler

Offizielle Dokumentationen werden ueber RAG erschlossen — „Wie schreibe ich das in AWS Lambda?" liefert Beispielcode. Stripe, Vercel, Supabase und andere setzen das ein.

Fall 7: Suchen und Erklaeren in der eigenen Codebasis

GitHub-Code wird RAG-faehig — „Wie verwende ich diese Funktion?" oder „Welche Datei macht etwas Aehnliches?". GitHub Copilot Chat sowie Cursor, Claude Code und andere AI-Entwicklungstools nutzen intern RAG-aehnliche Verfahren.

Fall 8: AI-Optimierung etwa mit llms.txt

Auch llms.txt harmoniert mit RAG: Website-Betreiber stellen strukturierte Informationen bereit, die KI-Systeme zuverlaessig auswerten koennen.

7. RAG vs. Fine-Tuning — was waehlen?

Neben RAG ist Fine-Tuning der zweite klassische Weg, einem LLM eigenes Wissen zu vermitteln. Beide Ansaetze sind grundsaetzlich verschieden.

Grundsaetzlicher Unterschied

Aspekt	RAG	Fine-Tuning
Ansatz	zur Laufzeit Informationen extern uebergeben	vorab das Modell selbst nachtrainieren
Wissens-Update	nur die DB aktualisieren (sofort)	Nachtrainieren noetig (Zeit, Kosten)
Anfangsaufwand	gering (nur DB-Aufbau)	hoch (Trainingsdaten und Compute)
Betriebskosten	Suche + LLM-API	nur Inferenz (eigenes Modell)
Halluzinationen	gering (mit Quelle)	mittel (gibt Erlerntes wieder)
Quellenangabe	moeglich	schwierig
Stil und Tonfall lernen	nicht ideal	ideal
Dynamische Daten	ideal (auch Echtzeit)	nicht ideal (Nachtraining noetig)
Vertrauliche Daten	komplett on-prem moeglich	auch moeglich (aber aufwaendig)

Wann passt RAG

Wissen aendert sich oft (News, interne Dokumente, Produktdaten)
Antworten muessen belegt werden (Recht, Medizin, Finanzen)
Es gibt sehr viele Dokumente (alles trainieren ist unrealistisch)
Schneller Start gewuenscht (kurze Entwicklungszeit)

Wann passt Fine-Tuning

Antworten in einem bestimmten Stil/Tonfall (Markenstimme, Charaktere)
Sprachmuster eines Fachgebiets sollen verinnerlicht werden (Medizinisches, Juristisches)
Inferenzkosten senken (Prompt wird kuerzer)
Es liegen bereits viele Trainingsbeispiele vor

Beide kombiniert ist am staerksten

Tatsaechlich sind RAG und Fine-Tuning keine Gegensaetze, sie lassen sich kombinieren. Stil per Fine-Tuning, aktuelles Wissen per RAG — ein in der Praxis haeufiges Setup.

Fuer Einsteiger gilt jedoch: zuerst RAG ausprobieren. Aufbau und Betrieb sind ungleich einfacher als beim Fine-Tuning.

8. Implementierung — RAG mit LangChain

Zuerst die wichtigsten Frameworks, dann ein minimales Codebeispiel in Python.

Wichtige Frameworks

Framework	Sprache	Merkmale
LangChain	Python / JS	am weitesten verbreitet, viele Integrationen
LlamaIndex	Python	Spezialist fuer Datenanbindung und Indizes
Haystack	Python	enterprise-tauglich, feinkoernige Steuerung
Semantic Kernel	C# / Python	von Microsoft, stark in .NET-Umgebungen
DSPy	Python	automatisierte Prompt-Optimierung
Eigenentwicklung	frei	einfaches RAG geht in 100 Zeilen

Minimales LangChain-RAG

Ein RAG, das Fragen zu einer internen Betriebsordnung (PDF) beantwortet — in rund 30 Zeilen LangChain.

from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA

# 1. Dokumente laden
loader = PyPDFLoader("betriebsordnung.pdf")
docs = loader.load()

# 2. In Chunks teilen
splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, chunk_overlap=50
)
chunks = splitter.split_documents(docs)

# 3. Embeddings + Vektor-DB aufbauen
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_documents(chunks, embeddings)

# 4. RAG-Kette aufsetzen
llm = ChatOpenAI(model="gpt-4o-mini")
qa = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
    return_source_documents=True,
)

# 5. Frage stellen
result = qa.invoke({"query": "Wie viele Urlaubstage gibt es?"})
print(result["result"])
print("Quellen:", [d.metadata for d in result["source_documents"]])

Damit werden passende Stellen aus dem PDF gesucht und GPT-4o-mini erzeugt eine Antwort. Da Seitenzahlen mitgeliefert werden, lassen sich Antworten wie „siehe §15" mit Verweis ausgeben.

Fuer den Produktionseinsatz zusaetzlich

Optimierung des Chunkings (semantisches Splitten, hierarchische Chunks)
Hybrid-Suche (Vektor + Stichwort BM25)
Re-Ranking (Cohere Rerank, voyage-rerank)
Query-Umformulierung (HyDE, Multi-Query)
Evaluation (automatisierte Bewertung mit RAGAS)

9. Herausforderungen und Loesungen

RAG ist maechtig, im Betrieb tauchen aber typische Probleme auf.

Problem 1: schwieriges Chunking

Die Wahl der Chunk-Groesse beeinflusst die Suchqualitaet stark. Zu kurz: Kontext geht verloren. Zu lang: Suche wird ungenau.

Loesungen:

Semantisches Splitten (nach Sinneinheiten)
Overlap (benachbarte Chunks ueberlappen)
Hierarchische Chunks (Eltern-Kind: suchen im Kind, referenzieren im Eltern-Chunk)

Problem 2: Genauigkeit der Suche

Aehnliche, aber falsche Chunks landen oben; wichtige Stellen werden uebersehen.

Loesungen:

Hybrid-Suche (Vektor + BM25)
Re-Ranking nach der Vorauswahl
Multi-Query (gleiche Frage in mehreren Formulierungen suchen)

Problem 3: Begrenzung der Kontextlaenge

LLMs verarbeiten nur eine begrenzte Token-Menge — sehr viele Chunks passen nicht.

Loesungen:

K klein halten (Top 3–5)
Vorab zusammenfassen und dann uebergeben
Modelle mit langem Kontext nutzen (Claude 200K Tokens, Gemini 1M usw.)

Problem 4: schwierige Bewertung

Die Antwortqualitaet objektiv zu messen, ist nicht trivial. Auch das Aufstellen von Referenzantworten ist Arbeit.

Loesungen:

RAGAS (OSS-Framework zur RAG-Evaluierung)
Kennzahlen wie Antwortrichtigkeit, Relevanz, Treue zur Quelle automatisch berechnen
LLM-as-a-Judge (ein anderes LLM bewertet)

Problem 5: mehrsprachig und multimodal

Dokumente, die Deutsch und Englisch mischen, PDFs mit Bildern, Tabellen oder Diagrammen — alles eine Herausforderung.

Loesungen:

Mehrsprachige Embedding-Modelle (BGE-M3, Cohere Multilingual)
Bilder/Tabellen vorab per LLM in Text wandeln (OCR + VLM)
Multimodale Embeddings (CLIP, Nomic usw.)

10. Wichtige Tools und Dienste im Ueberblick

Eine Sortierung der wichtigsten Werkzeuge fuer den RAG-Bau.

Frameworks und Bibliotheken

LangChain — am weitesten verbreitet
LlamaIndex — Spezialist fuer Datenanbindung
Haystack — enterprise-tauglich
DSPy — automatisierte Prompt-Optimierung

Vektor-DBs (managed)

Pinecone — Industriestandard
Weaviate Cloud — GraphQL
Qdrant Cloud — leistungsstark
Zilliz Cloud — Milvus als Managed-Service

Vektor-DBs (OSS / Self-Hosting)

Chroma — schlank, Python-freundlich
Qdrant — schnell (Rust)
Weaviate — OSS-Variante
Milvus — fuer grosse Mengen
pgvector — PostgreSQL-Erweiterung

Embedding-Modelle

OpenAI text-embedding-3 — Standard, guenstig
Voyage AI — von Anthropic empfohlen
Cohere Embed v3 — mehrsprachig
BGE-M3 — OSS, sehr gute Qualitaet

No-Code- und Managed-RAG-Dienste

ChatGPT Projects / Custom GPTs — RAG bei OpenAI
Claude Projects — RAG bei Anthropic
Notion AI — Suche in Notion-Dokumenten
Microsoft Copilot (Microsoft 365) — uebergreifende Suche in SharePoint und Teams
Dify — OSS-Plattform fuer No-Code-AI
Vertex AI Agent Builder — RAG-Aufbau in Google Cloud
Amazon Bedrock Knowledge Bases — Managed-RAG bei AWS

Evaluations-Tools

RAGAS — OSS-Framework fuer RAG-Evaluation
TruLens — allgemeine Bewertung von LLM-Anwendungen
LangSmith — Tracing und Evaluation von LangChain

FAQ

F. Geht RAG auch mit ChatGPT?

Ja. Wer Dateien in „Projects" oder „Custom GPTs" hochlaedt, nutzt intern RAG (bei OpenAI „File Search"). Wer ueber API arbeitet, kann den „File Search"-Tool der OpenAI Assistants API verwenden oder mit LangChain selbst etwas bauen. Bei Claude geht das Gleiche ueber „Projects".

F. Wie hoch sind die Betriebskosten von RAG?

Stark abhaengig von der Groesse. Privat oder klein (bis 10.000 Dokumente, ca. 1.000 Anfragen/Monat) reichen mit Chroma + OpenAI-API einige zig Dollar/Monat. Mittelgross (100.000 Dokumente, 100.000 Anfragen/Monat) mit Pinecone + GPT-4o landet bei einigen Hundert bis wenigen Tausend Dollar/Monat. Grosse Unternehmensloesungen koennen ueber 10.000 USD/Monat kosten. Hauptkostenpunkte: Embedding-API, Vektor-DB und LLM-API.

F. Was unterscheidet RAG vom blossen Hochladen einer Datei in ChatGPT?

Im Kern dieselbe Technik. Der Datei-Upload nutzt intern RAG. Unterschiede: (1) ChatGPT erlaubt nur eine begrenzte Zahl Dateien (Projects mehr), Eigenbau-RAG kann Millionen verarbeiten; (2) ChatGPT ist eine Black Box, beim Eigenbau steuert man die Suche fein; (3) ChatGPT laeuft auf den OpenAI-Servern, Eigenbau auch on-prem. Im Unternehmens-Produktivbetrieb ist Eigenbau ueblich.

F. Verschwinden Halluzinationen mit RAG vollstaendig?

Nein, nicht vollstaendig. Auch mit RAG gibt es Fehler, wenn (1) keine passenden Dokumente gefunden werden, (2) das LLM die Suchergebnisse falsch interpretiert oder (3) die Treffer widerspruechlich sind. Hilfreich: Prompt-Vorgabe „bei fehlenden Informationen ‚keine Information‘", Quellenausweis, fortlaufende Auswertung mit Tools wie RAGAS. 100% Genauigkeit gibt es nicht — in heiklen Bereichen (Medizin, Recht) sollte die menschliche Pruefung Pflicht bleiben.

F. Wie funktioniert RAG mit deutschen Dokumenten?

Im Kern drei Punkte: (1) ein mehrsprachig faehiges Embedding-Modell verwenden (OpenAI text-embedding-3, Cohere Multilingual, BGE-M3 usw.), (2) das Chunking mit Bezug auf Satzzeichen und sprachliche Strukturen waehlen, (3) ein in Deutsch starkes LLM einsetzen (GPT-4o, Claude, Gemini usw.). OpenAIs text-embedding-3 ist im Deutschen ausreichend; fuer hoechste Genauigkeit sind BGE-M3 oder Cohere die bessere Wahl.

F. Was ist der Unterschied zwischen RAG und einem AI-Agenten?

RAG ist ein festes Verfahren („suchen, dann antworten"); ein Agent waehlt eigenstaendig Werkzeuge je nach Ziel. RAG ist haeufig eines der Werkzeuge, die ein Agent benutzen kann. Ein Agent jongliert je nach Lage mit „interner Suche (RAG)", „Web-Suche", „Berechnung", „Mailversand" — RAG ist Bestandteil. Es gibt auch „Agentic RAG", bei dem das LLM die Suchstrategie selbst plant.

F. Wie sieht es mit der Sicherheit aus? Vertrauliches will ich nicht der KI zeigen

Es gibt mehrere Optionen: (1) Vektor-DB und Embedding-Verarbeitung on-prem oder im VPC halten (Qdrant, pgvector usw. selbst hosten); (2) ein OSS-Modell lokal nutzen (Llama 3, Qwen usw.); (3) bei API-Nutzung vertraglich „keine Trainingsverwendung" sicherstellen (z.B. Azure OpenAI); (4) Zugriffsrechte als Metadaten an Chunks haengen und beim Suchen filtern. Vollstaendige On-Prem-RAGs sind technisch machbar — Banken und Krankenhaeuser setzen sie bereits ein.

F. Wie viel Zeit und Skill kostet ein RAG?

Ein Prototyp ist mit Python-Grundkenntnissen in wenigen Stunden bis einem Tag machbar (Chroma + OpenAI in ca. 30 Zeilen). Fuer Produktivbetrieb mit Chunking, Hybrid-Suche, Re-Ranking, Evaluation kommen schnell 1–3 Monate dazu. Benoetigte Skills: Python-Basis, LLM-API-Nutzung, einfache DB-Operationen. Tiefes ML-Wissen ist nicht noetig — RAG ist eher ein Feld fuer Software-Entwicklerinnen als fuer ML-Engineers.

Dieser Artikel basiert auf dem Stand vom April 2026. RAG-Tools und -Modelle entwickeln sich schnell — vor dem Einsatz bitte die jeweils aktuelle Dokumentation der einzelnen Anbieter pruefen.

Was ist RAG? Funktionsweise und Anwendungsfaelle einfach erklaert【2026】

1. Was ist RAG — Retrieval-Augmented Generation

Eine Analogie aus der Kueche

Die Rollen von Retrieval, Augmented und Generation

2. Warum RAG noetig ist — drei Grenzen reiner LLMs

Grenze 1: Wissens-Cutoff (Aktualitaet)

Grenze 2: Halluzinationen (plausibel klingende Falschaussagen)

Grenze 3: Kein Zugriff auf interne und private Daten

3. Funktionsweise — RAG in drei Schritten

Vorbereitung — Dokumente vektorisieren und ablegen

Laufzeit — Anfrage in drei Schritten

Konkretes Beispiel: Betriebsordnung in ChatGPT befragen

4. Die zentralen Komponenten von RAG

1. Embedding-Modell

2. Vektor-Datenbank

3. Retriever

4. LLM (Generator)

5. Prompt-Vorlage

5. Was ist eine Vektor-Datenbank?

Wichtige Vektor-DBs im Vergleich

Welche soll man waehlen?

6. Typische Anwendungsfaelle

Fall 1: Internes Dokumenten-Q&A (Knowledge Base)

Fall 2: Automatisierter Kundensupport

Fall 3: Fachwissen in Recht und Medizin

Fall 4: Forschungsliteratur durchsuchen und zusammenfassen

Fall 5: Produktsuche und FAQ im E-Commerce

Fall 6: Doku-Chats fuer Entwickler

Fall 7: Suchen und Erklaeren in der eigenen Codebasis

Fall 8: AI-Optimierung etwa mit llms.txt

7. RAG vs. Fine-Tuning — was waehlen?

Grundsaetzlicher Unterschied

Wann passt RAG

Wann passt Fine-Tuning

Beide kombiniert ist am staerksten

8. Implementierung — RAG mit LangChain

Wichtige Frameworks

Minimales LangChain-RAG

Fuer den Produktionseinsatz zusaetzlich

9. Herausforderungen und Loesungen

Problem 1: schwieriges Chunking

Problem 2: Genauigkeit der Suche

Problem 3: Begrenzung der Kontextlaenge

Problem 4: schwierige Bewertung

Problem 5: mehrsprachig und multimodal

10. Wichtige Tools und Dienste im Ueberblick

Frameworks und Bibliotheken

Vektor-DBs (managed)

Vektor-DBs (OSS / Self-Hosting)

Embedding-Modelle

No-Code- und Managed-RAG-Dienste

Evaluations-Tools

FAQ

Ähnliche Artikel

Die 3 Modi von Claude: Chat, Cowork und Code — Vollständiger Vergleich und Nutzungstipps

Die 15 am stärksten von generativer KI bedrohten Berufe — gefährdete Jobs und Überlebensstrategien [2026]

Was ist das Claude Agent SDK? Komplettanleitung zur KI-Agenten-Entwicklung

Wissensstichtage generativer KI im Vergleich [2026] ChatGPT, Claude, Gemini & mehr

Kommentare

Kommentar hinterlassen