„Wir wollen ChatGPT unsere Betriebsordnung beibringen und Mitarbeiterfragen automatisch beantworten lassen." „Eine aktuelle Forschungsdatenbank durchsuchen und zusammenfassen lassen." Solche Anforderungen werden immer haeufiger. Aber die Trainingsdaten von ChatGPT enden zu einem bestimmten Zeitpunkt — und vertrauliche interne Dokumente einfach trainieren zu lassen, geht auch nicht.

Die Loesung dafuer heisst RAG (Retrieval-Augmented Generation). Seit 2023 ist es eines der wichtigsten Stichworte fuer den AI-Einsatz in Unternehmen geworden — und auch ChatGPTs „Custom GPTs" und „Projects" arbeiten intern mit RAG.

Dieser Artikel erklaert RAG in drei Schritten und behandelt Vektor-Datenbanken, eine LangChain-Implementierung sowie die Abgrenzung zum Fine-Tuning — verstaendlich fuer Einsteiger und trotzdem technisch korrekt.

RAG-Gesamtbild — Retrieval-Augmented Generation

1. Was ist RAG — Retrieval-Augmented Generation

RAG (Retrieval-Augmented Generation) bedeutet woertlich „durch Retrieval (Suche) augmentierte (erweiterte) Generation". Auf Deutsch oft als retrieval-erweiterte Erzeugung bezeichnet.

In einem Satz: ein LLM (grosses Sprachmodell) sucht vor der Antwort relevante Informationen in einer externen Datenquelle und erzeugt die Antwort dann mit Bezug auf diese Suchergebnisse.

Eine Analogie aus der Kueche

Ein LLM allein ist wie ein Koch, der nur aus dem Gedaechtnis kocht. Er ist gut, aber unbekannte Rezepte kann er nicht — und was im Kuehlschrank liegt, weiss er auch nicht.

RAG bedeutet, dem Koch ein Rezeptbuch in die Hand zu druecken und ihm den Kuehlschrank-Inhalt mitzuteilen, bevor er kocht. So kann er mit dem, was vorhanden ist, das beste Gericht zubereiten.

Die Rollen von Retrieval, Augmented und Generation

BegriffBedeutungRolle im RAG
RetrievalSuchen, AbrufenRelevante Dokumente zur Frage aus der Datenbank holen
AugmentedErweitert, ergaenztDie abgerufenen Inhalte werden in den Prompt eingebaut
GenerationErzeugungDas LLM antwortet unter Bezug auf die Suchergebnisse

Wichtig: Das LLM selbst wird nicht neu trainiert — vielmehr wird ihm pro Anfrage das benoetigte Wissen extern uebergeben. Genau das ist der entscheidende Unterschied zum Fine-Tuning, das spaeter behandelt wird.

2. Warum RAG noetig ist — drei Grenzen reiner LLMs

Drei Probleme lassen sich mit ChatGPT, Claude oder anderen LLMs allein nicht loesen.

Grenze 1: Wissens-Cutoff (Aktualitaet)

LLMs werden mit Daten bis zu einem bestimmten Stichtag trainiert; was danach passiert, kennen sie nicht. Die fruehe GPT-4-Version etwa hatte nur Wissen bis April 2023.

  • „Erzaehl mir vom Produkt, das gestern angekuendigt wurde." → keine Antwort moeglich
  • „Was steht in der Gesetzesnovelle der letzten Woche?" → keine Antwort moeglich
  • „Wie ist der heutige Wechselkurs?" → keine Antwort moeglich

Mit RAG lassen sich aktuelle News, Datenbanken oder APIs anzapfen und die Antwort darauf stuetzen.

Grenze 2: Halluzinationen (plausibel klingende Falschaussagen)

Wird ein LLM zu Unbekanntem befragt, neigt es dazu, plausibel klingende, aber erfundene Antworten zu liefern. Das nennt man Halluzination.

Beispiel: „Wie viele Urlaubstage gewaehrt Ihre Firma?" — das LLM kennt die Antwort nicht und sagt trotzdem „ueblicherweise 10 bis 20 Tage". So nicht einsetzbar.

RAG laesst die tatsaechliche Betriebsordnung durchsuchen und referenziert die passende Stelle, sodass belegte Antworten entstehen — inklusive Quellenangabe nach Dokument und Seite.

Grenze 3: Kein Zugriff auf interne und private Daten

Handbuecher, Vertraege, Kundendaten Ihrer Firma stehen nicht in den Trainingsdaten eines LLM. Geheime Inhalte einfach zu trainieren, ist ebenfalls keine Option (Risiko des Datenabflusses, Kosten).

RAG legt interne Dokumente in eine eigene Vektor-Datenbank und uebergibt nur die relevanten Auszuege an das LLM. So lassen sich interne Daten nutzen, ohne Sicherheit aufzugeben.

3. Funktionsweise — RAG in drei Schritten

RAG hat zwei Phasen: „Vorbereitung (Index aufbauen)" und „Laufzeit (Anfrage beantworten)".

Gesamtbild der RAG-Pipeline

Vorbereitung — Dokumente vektorisieren und ablegen

  1. Dokumente sammeln: PDF, Word, HTML, Markdown — was immer benoetigt wird
  2. Chunking: die Texte in passende Laengen schneiden (z.B. 500–1000 Zeichen)
  3. Embedding: jeden Chunk durch ein Embedding-Modell (z.B. OpenAI text-embedding-3-small) jagen und in eine Vektor (z.B. 1536-dimensionales Zahlenarray) umwandeln
  4. In Vektor-DB speichern: Chunks und ihre Vektoren in einer spezialisierten Datenbank ablegen (Pinecone, Qdrant usw.)

Dieser Schritt laeuft, sobald Dokumente hinzukommen oder aktualisiert werden.

Laufzeit — Anfrage in drei Schritten

Wenn eine Nutzeranfrage eingeht, geschieht Folgendes:

  1. Schritt 1: Retrieval (Suche)
    • Die Frage wird mit demselben Embedding-Modell vektorisiert
    • In der Vektor-DB werden die zur Frage „naechstgelegenen" Chunks geholt — Top-K (typisch 3–10)
    • Als Aehnlichkeitsmass dient z.B. die Kosinus-Aehnlichkeit
  2. Schritt 2: Augmented (Anreichern)
    • Die abgerufenen Chunks werden als „Kontext" in den Prompt eingebaut
    • Etwa: „Beantworte die Frage anhand der folgenden Informationen: [Suchergebnisse] Frage: [Nutzerfrage]"
  3. Schritt 3: Generation (Erzeugung)
    • Das LLM (GPT-4, Claude, Gemini usw.) erzeugt die Antwort gestuetzt auf den Kontext
    • Bei Bedarf werden die zitierten Dokumentstellen mitgeliefert

Konkretes Beispiel: Betriebsordnung in ChatGPT befragen

Ablauf bei der Frage „Wie viele Urlaubstage gibt es?":

  1. Frage wird vektorisiert → [0.12, -0.45, 0.78, ...]
  2. Aus der Vektor-DB werden 3 Chunks zu „Urlaub" / „bezahlter Urlaub" geholt
  3. Beispielhafte Chunks: „§15 Jahresurlaub: nach sechs Monaten Betriebszugehoerigkeit zehn Tage…" / „je nach Dienstjahren bis zu 20 Tage…"
  4. Prompt: „Kontext: §15 … Frage: Wie viele Urlaubstage gibt es?"
  5. Antwort des LLM: „Nach sechs Monaten Betriebszugehoerigkeit zehn Tage, je nach Dienstjahren bis zu 20 (vgl. §15 der Betriebsordnung)."

4. Die zentralen Komponenten von RAG

RAG besteht aus fuenf Bausteinen.

1. Embedding-Modell

Ein KI-Modell, das Text in numerische Vektoren uebersetzt. Es ist so trainiert, dass „semantisch aehnliche Texte im Vektorraum nah beieinander liegen".

ModellAnbieterMerkmale
text-embedding-3-smallOpenAIguenstig, leistungsstark, 1536 Dimensionen
text-embedding-3-largeOpenAIhoehere Genauigkeit, 3072 Dimensionen
voyage-3Voyage AIvon Anthropic empfohlen, hochgenau
Cohere Embed v3Coheremehrsprachig, auch im Deutschen stark
multilingual-e5-largeMicrosoft (OSS)lokal lauffaehig, kostenlos
BGE-M3BAAI (OSS)ueber 100 Sprachen, OSS-Spitzenklasse

2. Vektor-Datenbank

Speichert grosse Mengen von Vektoren und durchsucht „aehnliche Vektoren" sehr schnell. Details im naechsten Kapitel.

3. Retriever

Neben der Vektor-Suche werden oft Stichwortsuche (z.B. BM25) oder Hybrid-Verfahren kombiniert.

4. LLM (Generator)

Das grosse Sprachmodell, das die endgueltige Antwort schreibt. GPT-4, Claude, Gemini, Llama 3 usw. — kommerzielle APIs ebenso wie OSS-Modelle lokal.

5. Prompt-Vorlage

Die Schablone, die Suchergebnisse und Nutzerfrage zusammensetzt. Sie entscheidet wesentlich ueber die RAG-Qualitaet.

Du bist ein Assistent fuer interne Regelungen.
Beantworte die Frage ausschliesslich anhand des folgenden Kontexts.
Falls die Antwort nicht im Kontext steht, sage „Keine Information vorhanden."

[Kontext]
{retrieved_chunks}

[Frage]
{user_question}

[Antwort]

5. Was ist eine Vektor-Datenbank?

Eine Vektor-DB ist anders als eine klassische RDB (z.B. MySQL): sie ist darauf spezialisiert, in einem hochdimensionalen Vektorraum schnell den naechsten Nachbarn (die aehnlichsten Vektoren) zu finden.

Wichtige Vektor-DBs im Vergleich

DBTypMerkmalePreis
PineconeManaged SaaSIndustriestandard, sehr einfach einzurichtenFree-Tier, ab 70 USD/Monat
WeaviateOSS + CloudGraphQL-API, Hybrid-SucheOSS gratis, SaaS ab 25 USD
QdrantOSS + Cloudschnell (Rust), starke FilterOSS gratis, SaaS Free-Tier
ChromaOSSschlank, in Python sofort einsetzbargratis (selbst gehostet)
pgvectorPostgreSQL-Erweiterunglaeuft in vorhandenem PostgreSQLgratis (OSS)
MilvusOSS + Cloudfuer grosse Mengen, Milliarden VektorenOSS gratis, Zilliz Cloud
ElasticsearchSuchmaschineVektor-Suche integriert, gut fuer BestandOSS gratis, managed verfuegbar
Vertex AI Vector SearchGoogle Cloudintegriert in das GCP-Oekosystemnutzungsbasiert

Welche soll man waehlen?

  • Erst einmal ausprobieren: Chroma (mit pip installieren, sofort lauffaehig)
  • Vorhandenes PostgreSQL nutzen: pgvector (alles in einer DB)
  • Produktion mit minimalem Aufwand: Pinecone (kein Setup-Aufwand)
  • OSS fuer Produktion: Qdrant oder Weaviate
  • Hunderte Millionen bis Milliarden Eintraege: Milvus

Zur Hosting-Wahl hilft auch PaaS (Vercel & Co.) im Vergleich mit Shared Hosting, VPS und Cloud.

6. Typische Anwendungsfaelle

RAG ist seit 2023 eine der meistgenutzten Techniken im KI-Einsatz von Unternehmen. Hier die wichtigsten Felder.

Fall 1: Internes Dokumenten-Q&A (Knowledge Base)

Betriebsordnungen, Handbuecher, Spezifikationen, Protokolle, Vertriebsunterlagen werden RAG-faehig gemacht — Mitarbeitende fragen wie in ChatGPT. Auch Microsoft 365 Copilot nutzt RAG ueber SharePoint-Dokumente.

Fall 2: Automatisierter Kundensupport

FAQs und Support-Historien werden RAG-faehig — Chatbots uebernehmen die Erstantwort, Menschen kuemmern sich um die komplexen Faelle.

Fall 3: Fachwissen in Recht und Medizin

Urteilsdatenbanken, medizinische Studien, Leitlinien werden eingebunden — Anwaeltinnen und Aerzte erhalten ein Recherchewerkzeug. Da Quellen ausgewiesen werden, passt RAG hier besonders gut.

Fall 4: Forschungsliteratur durchsuchen und zusammenfassen

arXiv, PubMed, Google Scholar werden indiziert — „Wie ist der aktuelle Stand zu Thema X?" oder „Welche Studien aehneln Methode Y?" werden beantwortbar. Bekannte Beispiele: Elicit, Perplexity.

Fall 5: Produktsuche und FAQ im E-Commerce

Produktanleitungen, Bewertungen, Rueckgaberichtlinien werden in einem RAG zusammengefuehrt. Anfragen wie „Eignet sich dieser Staubsauger fuer Tierhaare?" lassen sich in natuerlicher Sprache loesen.

Fall 6: Doku-Chats fuer Entwickler

Offizielle Dokumentationen werden ueber RAG erschlossen — „Wie schreibe ich das in AWS Lambda?" liefert Beispielcode. Stripe, Vercel, Supabase und andere setzen das ein.

Fall 7: Suchen und Erklaeren in der eigenen Codebasis

GitHub-Code wird RAG-faehig — „Wie verwende ich diese Funktion?" oder „Welche Datei macht etwas Aehnliches?". GitHub Copilot Chat sowie Cursor, Claude Code und andere AI-Entwicklungstools nutzen intern RAG-aehnliche Verfahren.

Fall 8: AI-Optimierung etwa mit llms.txt

Auch llms.txt harmoniert mit RAG: Website-Betreiber stellen strukturierte Informationen bereit, die KI-Systeme zuverlaessig auswerten koennen.

7. RAG vs. Fine-Tuning — was waehlen?

Neben RAG ist Fine-Tuning der zweite klassische Weg, einem LLM eigenes Wissen zu vermitteln. Beide Ansaetze sind grundsaetzlich verschieden.

Vergleich von RAG und Fine-Tuning

Grundsaetzlicher Unterschied

AspektRAGFine-Tuning
Ansatzzur Laufzeit Informationen extern uebergebenvorab das Modell selbst nachtrainieren
Wissens-Updatenur die DB aktualisieren (sofort)Nachtrainieren noetig (Zeit, Kosten)
Anfangsaufwandgering (nur DB-Aufbau)hoch (Trainingsdaten und Compute)
BetriebskostenSuche + LLM-APInur Inferenz (eigenes Modell)
Halluzinationengering (mit Quelle)mittel (gibt Erlerntes wieder)
Quellenangabemoeglichschwierig
Stil und Tonfall lernennicht idealideal
Dynamische Datenideal (auch Echtzeit)nicht ideal (Nachtraining noetig)
Vertrauliche Datenkomplett on-prem moeglichauch moeglich (aber aufwaendig)

Wann passt RAG

  • Wissen aendert sich oft (News, interne Dokumente, Produktdaten)
  • Antworten muessen belegt werden (Recht, Medizin, Finanzen)
  • Es gibt sehr viele Dokumente (alles trainieren ist unrealistisch)
  • Schneller Start gewuenscht (kurze Entwicklungszeit)

Wann passt Fine-Tuning

  • Antworten in einem bestimmten Stil/Tonfall (Markenstimme, Charaktere)
  • Sprachmuster eines Fachgebiets sollen verinnerlicht werden (Medizinisches, Juristisches)
  • Inferenzkosten senken (Prompt wird kuerzer)
  • Es liegen bereits viele Trainingsbeispiele vor

Beide kombiniert ist am staerksten

Tatsaechlich sind RAG und Fine-Tuning keine Gegensaetze, sie lassen sich kombinieren. Stil per Fine-Tuning, aktuelles Wissen per RAG — ein in der Praxis haeufiges Setup.

Fuer Einsteiger gilt jedoch: zuerst RAG ausprobieren. Aufbau und Betrieb sind ungleich einfacher als beim Fine-Tuning.

8. Implementierung — RAG mit LangChain

Zuerst die wichtigsten Frameworks, dann ein minimales Codebeispiel in Python.

Wichtige Frameworks

FrameworkSpracheMerkmale
LangChainPython / JSam weitesten verbreitet, viele Integrationen
LlamaIndexPythonSpezialist fuer Datenanbindung und Indizes
HaystackPythonenterprise-tauglich, feinkoernige Steuerung
Semantic KernelC# / Pythonvon Microsoft, stark in .NET-Umgebungen
DSPyPythonautomatisierte Prompt-Optimierung
Eigenentwicklungfreieinfaches RAG geht in 100 Zeilen

Minimales LangChain-RAG

Ein RAG, das Fragen zu einer internen Betriebsordnung (PDF) beantwortet — in rund 30 Zeilen LangChain.

from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA

# 1. Dokumente laden
loader = PyPDFLoader("betriebsordnung.pdf")
docs = loader.load()

# 2. In Chunks teilen
splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, chunk_overlap=50
)
chunks = splitter.split_documents(docs)

# 3. Embeddings + Vektor-DB aufbauen
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_documents(chunks, embeddings)

# 4. RAG-Kette aufsetzen
llm = ChatOpenAI(model="gpt-4o-mini")
qa = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
    return_source_documents=True,
)

# 5. Frage stellen
result = qa.invoke({"query": "Wie viele Urlaubstage gibt es?"})
print(result["result"])
print("Quellen:", [d.metadata for d in result["source_documents"]])

Damit werden passende Stellen aus dem PDF gesucht und GPT-4o-mini erzeugt eine Antwort. Da Seitenzahlen mitgeliefert werden, lassen sich Antworten wie „siehe §15" mit Verweis ausgeben.

Fuer den Produktionseinsatz zusaetzlich

  • Optimierung des Chunkings (semantisches Splitten, hierarchische Chunks)
  • Hybrid-Suche (Vektor + Stichwort BM25)
  • Re-Ranking (Cohere Rerank, voyage-rerank)
  • Query-Umformulierung (HyDE, Multi-Query)
  • Evaluation (automatisierte Bewertung mit RAGAS)

9. Herausforderungen und Loesungen

RAG ist maechtig, im Betrieb tauchen aber typische Probleme auf.

Problem 1: schwieriges Chunking

Die Wahl der Chunk-Groesse beeinflusst die Suchqualitaet stark. Zu kurz: Kontext geht verloren. Zu lang: Suche wird ungenau.

Loesungen:

  • Semantisches Splitten (nach Sinneinheiten)
  • Overlap (benachbarte Chunks ueberlappen)
  • Hierarchische Chunks (Eltern-Kind: suchen im Kind, referenzieren im Eltern-Chunk)

Problem 2: Genauigkeit der Suche

Aehnliche, aber falsche Chunks landen oben; wichtige Stellen werden uebersehen.

Loesungen:

  • Hybrid-Suche (Vektor + BM25)
  • Re-Ranking nach der Vorauswahl
  • Multi-Query (gleiche Frage in mehreren Formulierungen suchen)

Problem 3: Begrenzung der Kontextlaenge

LLMs verarbeiten nur eine begrenzte Token-Menge — sehr viele Chunks passen nicht.

Loesungen:

  • K klein halten (Top 3–5)
  • Vorab zusammenfassen und dann uebergeben
  • Modelle mit langem Kontext nutzen (Claude 200K Tokens, Gemini 1M usw.)

Problem 4: schwierige Bewertung

Die Antwortqualitaet objektiv zu messen, ist nicht trivial. Auch das Aufstellen von Referenzantworten ist Arbeit.

Loesungen:

  • RAGAS (OSS-Framework zur RAG-Evaluierung)
  • Kennzahlen wie Antwortrichtigkeit, Relevanz, Treue zur Quelle automatisch berechnen
  • LLM-as-a-Judge (ein anderes LLM bewertet)

Problem 5: mehrsprachig und multimodal

Dokumente, die Deutsch und Englisch mischen, PDFs mit Bildern, Tabellen oder Diagrammen — alles eine Herausforderung.

Loesungen:

  • Mehrsprachige Embedding-Modelle (BGE-M3, Cohere Multilingual)
  • Bilder/Tabellen vorab per LLM in Text wandeln (OCR + VLM)
  • Multimodale Embeddings (CLIP, Nomic usw.)

10. Wichtige Tools und Dienste im Ueberblick

Eine Sortierung der wichtigsten Werkzeuge fuer den RAG-Bau.

Frameworks und Bibliotheken

  • LangChain — am weitesten verbreitet
  • LlamaIndex — Spezialist fuer Datenanbindung
  • Haystack — enterprise-tauglich
  • DSPy — automatisierte Prompt-Optimierung

Vektor-DBs (managed)

  • Pinecone — Industriestandard
  • Weaviate Cloud — GraphQL
  • Qdrant Cloud — leistungsstark
  • Zilliz Cloud — Milvus als Managed-Service

Vektor-DBs (OSS / Self-Hosting)

  • Chroma — schlank, Python-freundlich
  • Qdrant — schnell (Rust)
  • Weaviate — OSS-Variante
  • Milvus — fuer grosse Mengen
  • pgvector — PostgreSQL-Erweiterung

Embedding-Modelle

  • OpenAI text-embedding-3 — Standard, guenstig
  • Voyage AI — von Anthropic empfohlen
  • Cohere Embed v3 — mehrsprachig
  • BGE-M3 — OSS, sehr gute Qualitaet

No-Code- und Managed-RAG-Dienste

  • ChatGPT Projects / Custom GPTs — RAG bei OpenAI
  • Claude Projects — RAG bei Anthropic
  • Notion AI — Suche in Notion-Dokumenten
  • Microsoft Copilot (Microsoft 365) — uebergreifende Suche in SharePoint und Teams
  • Dify — OSS-Plattform fuer No-Code-AI
  • Vertex AI Agent Builder — RAG-Aufbau in Google Cloud
  • Amazon Bedrock Knowledge Bases — Managed-RAG bei AWS

Evaluations-Tools

  • RAGAS — OSS-Framework fuer RAG-Evaluation
  • TruLens — allgemeine Bewertung von LLM-Anwendungen
  • LangSmith — Tracing und Evaluation von LangChain

FAQ

F. Geht RAG auch mit ChatGPT?

Ja. Wer Dateien in „Projects" oder „Custom GPTs" hochlaedt, nutzt intern RAG (bei OpenAI „File Search"). Wer ueber API arbeitet, kann den „File Search"-Tool der OpenAI Assistants API verwenden oder mit LangChain selbst etwas bauen. Bei Claude geht das Gleiche ueber „Projects".

F. Wie hoch sind die Betriebskosten von RAG?

Stark abhaengig von der Groesse. Privat oder klein (bis 10.000 Dokumente, ca. 1.000 Anfragen/Monat) reichen mit Chroma + OpenAI-API einige zig Dollar/Monat. Mittelgross (100.000 Dokumente, 100.000 Anfragen/Monat) mit Pinecone + GPT-4o landet bei einigen Hundert bis wenigen Tausend Dollar/Monat. Grosse Unternehmensloesungen koennen ueber 10.000 USD/Monat kosten. Hauptkostenpunkte: Embedding-API, Vektor-DB und LLM-API.

F. Was unterscheidet RAG vom blossen Hochladen einer Datei in ChatGPT?

Im Kern dieselbe Technik. Der Datei-Upload nutzt intern RAG. Unterschiede: (1) ChatGPT erlaubt nur eine begrenzte Zahl Dateien (Projects mehr), Eigenbau-RAG kann Millionen verarbeiten; (2) ChatGPT ist eine Black Box, beim Eigenbau steuert man die Suche fein; (3) ChatGPT laeuft auf den OpenAI-Servern, Eigenbau auch on-prem. Im Unternehmens-Produktivbetrieb ist Eigenbau ueblich.

F. Verschwinden Halluzinationen mit RAG vollstaendig?

Nein, nicht vollstaendig. Auch mit RAG gibt es Fehler, wenn (1) keine passenden Dokumente gefunden werden, (2) das LLM die Suchergebnisse falsch interpretiert oder (3) die Treffer widerspruechlich sind. Hilfreich: Prompt-Vorgabe „bei fehlenden Informationen ‚keine Information‘", Quellenausweis, fortlaufende Auswertung mit Tools wie RAGAS. 100% Genauigkeit gibt es nicht — in heiklen Bereichen (Medizin, Recht) sollte die menschliche Pruefung Pflicht bleiben.

F. Wie funktioniert RAG mit deutschen Dokumenten?

Im Kern drei Punkte: (1) ein mehrsprachig faehiges Embedding-Modell verwenden (OpenAI text-embedding-3, Cohere Multilingual, BGE-M3 usw.), (2) das Chunking mit Bezug auf Satzzeichen und sprachliche Strukturen waehlen, (3) ein in Deutsch starkes LLM einsetzen (GPT-4o, Claude, Gemini usw.). OpenAIs text-embedding-3 ist im Deutschen ausreichend; fuer hoechste Genauigkeit sind BGE-M3 oder Cohere die bessere Wahl.

F. Was ist der Unterschied zwischen RAG und einem AI-Agenten?

RAG ist ein festes Verfahren („suchen, dann antworten"); ein Agent waehlt eigenstaendig Werkzeuge je nach Ziel. RAG ist haeufig eines der Werkzeuge, die ein Agent benutzen kann. Ein Agent jongliert je nach Lage mit „interner Suche (RAG)", „Web-Suche", „Berechnung", „Mailversand" — RAG ist Bestandteil. Es gibt auch „Agentic RAG", bei dem das LLM die Suchstrategie selbst plant.

F. Wie sieht es mit der Sicherheit aus? Vertrauliches will ich nicht der KI zeigen

Es gibt mehrere Optionen: (1) Vektor-DB und Embedding-Verarbeitung on-prem oder im VPC halten (Qdrant, pgvector usw. selbst hosten); (2) ein OSS-Modell lokal nutzen (Llama 3, Qwen usw.); (3) bei API-Nutzung vertraglich „keine Trainingsverwendung" sicherstellen (z.B. Azure OpenAI); (4) Zugriffsrechte als Metadaten an Chunks haengen und beim Suchen filtern. Vollstaendige On-Prem-RAGs sind technisch machbar — Banken und Krankenhaeuser setzen sie bereits ein.

F. Wie viel Zeit und Skill kostet ein RAG?

Ein Prototyp ist mit Python-Grundkenntnissen in wenigen Stunden bis einem Tag machbar (Chroma + OpenAI in ca. 30 Zeilen). Fuer Produktivbetrieb mit Chunking, Hybrid-Suche, Re-Ranking, Evaluation kommen schnell 1–3 Monate dazu. Benoetigte Skills: Python-Basis, LLM-API-Nutzung, einfache DB-Operationen. Tiefes ML-Wissen ist nicht noetig — RAG ist eher ein Feld fuer Software-Entwicklerinnen als fuer ML-Engineers.

Dieser Artikel basiert auf dem Stand vom April 2026. RAG-Tools und -Modelle entwickeln sich schnell — vor dem Einsatz bitte die jeweils aktuelle Dokumentation der einzelnen Anbieter pruefen.