RAG-Systeme: Ein praktischer Leitfaden für Unternehmen

Veröffentlicht am 15. März 2025 von Christopher Wittlinger

Retrieval-Augmented Generation (RAG) hat sich als eine der wichtigsten Architekturen für den Unternehmenseinsatz von Large Language Models etabliert. Statt ein Modell aufwendig mit firmenspezifischen Daten zu fine-tunen, werden relevante Informationen zur Laufzeit abgerufen und dem Modell als Kontext übergeben. Das Ergebnis: aktuelle, quellenbasierte Antworten auf Basis Ihrer eigenen Unternehmensdaten — ohne Neutraining.

In den letzten zwei Jahren haben wir bei Intellineers RAG-Systeme für verschiedenste Branchen implementiert — von juristischen Wissensdatenbanken über technische Dokumentationsassistenten bis zu internen HR-Chatbots. Dieser Leitfaden fasst die wichtigsten Erkenntnisse aus dieser Praxis zusammen.

Warum RAG?

Die Vorteile gegenüber reinem Fine-Tuning sind erheblich:

Aktualität: Neue Dokumente sind sofort verfügbar, ohne Neutraining. Bei Fine-Tuning dauert ein Update-Zyklus Tage bis Wochen.
Nachvollziehbarkeit: Quellen können direkt angegeben werden — ein entscheidender Faktor für Compliance und Nutzervertrauen. Halluzinationen werden sichtbar und überprüfbar.
Kosteneffizienz: Kein teures GPU-Training auf proprietären Daten nötig. Ein RAG-System für 10.000 Dokumente kostet in der Erstimplementierung typisch 15.000–40.000 Euro, während ein vergleichbares Fine-Tuning-Projekt schnell 50.000–100.000 Euro erreicht.
Datenschutz: Sensible Daten können in der eigenen Infrastruktur bleiben, während nur die Anfrage an das LLM geht. Mehr zum Thema Sicherheit in unserem Beitrag zu LLM-Sicherheit im Unternehmen.

Die Kernkomponenten eines RAG-Systems

1. Document Processing Pipeline

Der erste und oft unterschätzte Schritt ist die Aufbereitung Ihrer Dokumente. Die Qualität dieser Pipeline bestimmt 60–70 % der Gesamtleistung des Systems — ein perfektes Retrieval- und Generierungsmodell kann schlecht aufbereitete Daten nicht kompensieren.

Chunking — Die Strategie entscheidet:

Die Wahl der Chunking-Strategie hat massiven Einfluss auf die Antwortqualität. Hier ein Vergleich der gängigsten Ansätze:

Strategie	Chunk-Größe	Vorteile	Nachteile	Geeignet für
Fixed-Size	256–512 Tokens	Einfach zu implementieren, vorhersagbare Größe	Zerreißt semantische Einheiten	Homogene Textdokumente
Recursive Character	200–500 Tokens	Respektiert Absatzgrenzen, guter Default	Variiert stark in der Größe	Allgemeine Textdokumente
Semantic Chunking	Variabel	Erhält Bedeutungseinheiten vollständig	Rechenintensiver, komplexer	Technische Dokumentation
Document Structure	Variabel	Nutzt Überschriften und Sektionen	Braucht gut strukturierte Dokumente	Handbücher, Policies, Gesetze
Sliding Window	256–512 Tokens mit 50–100 Overlap	Verhindert Informationsverlust an Grenzen	Mehr Chunks, höhere Kosten	Narrative Texte, Berichte

Unsere Empfehlung: Starten Sie mit Recursive Character Splitting bei 400 Tokens und 50 Token Overlap. Sobald Sie eine Evaluation-Pipeline haben, testen Sie Document-Structure-basiertes Chunking für Ihre spezifischen Dokumenttypen. In unseren Projekten brachte der Wechsel von Fixed-Size auf Semantic Chunking typischerweise 15–25 % Verbesserung in der Antwortrelevanz.

Cleaning und Preprocessing: Entfernen Sie Formatierungsartefakte (Header, Footer, Seitenzahlen in PDFs), normalisieren Sie Whitespace und Sonderzeichen, erkennen und behandeln Sie Tabellen separat (Tabellen als Markdown oder strukturierter Text, nicht als Fließtext) und extrahieren Sie Bildinhalte über OCR, wenn relevant.

Metadata Extraction: Extrahieren Sie systematisch: Autor, Erstellungsdatum, Dokumenttyp, Abteilung, Produktreferenz, Versionsnummer. Diese Metadaten ermöglichen später gezielte Filterung — zum Beispiel “nur Dokumente aus den letzten 12 Monaten” oder “nur Dokumente der Rechtsabteilung”. In der Praxis reduziert gute Metadaten-Filterung die Retrieval-Latenz um 40–60 % und verbessert die Relevanz erheblich.

2. Embedding und Vector Store

Die aufbereiteten Chunks werden in hochdimensionale Vektoren umgewandelt, die semantische Ähnlichkeit abbilden. Die Wahl des Embedding-Modells ist dabei kritisch.

Embedding-Modell-Vergleich (Stand 2025/2026):

Modell	Dimensionen	MTEB Score	Kosten (pro 1M Tokens)	Hosting
OpenAI text-embedding-3-large	3.072	64,6	~0,13 $	Cloud (API)
OpenAI text-embedding-3-small	1.536	62,3	~0,02 $	Cloud (API)
Cohere embed-v3	1.024	64,5	~0,10 $	Cloud (API)
BGE-M3 (BAAI)	1.024	63,5	Kostenlos	Self-hosted
E5-Mistral-7B	4.096	66,6	Kostenlos	Self-hosted (GPU nötig)
Jina Embeddings v3	1.024	65,5	~0,02 $	Cloud oder Self-hosted

Praxis-Tipp: Für den Einstieg empfehlen wir text-embedding-3-small — das Preis-Leistungs-Verhältnis ist hervorragend. Für deutsche Texte liefert BGE-M3 als Open-Source-Alternative starke Ergebnisse und kann lokal betrieben werden, was bei datenschutzsensiblen Projekten entscheidend ist. Wenn maximale Qualität gefragt ist und Sie GPU-Kapazität haben, ist E5-Mistral-7B derzeit die beste Wahl.

Vector-Datenbank-Auswahl: Die Wahl der Vektordatenbank hängt vom Skalierungsbedarf ab. Für den Einstieg und bis zu 5 Millionen Vektoren ist Qdrant (Open Source, einfaches Docker-Deployment) unsere Standardempfehlung. Für Teams, die bereits PostgreSQL nutzen, ist pgvector eine pragmatische Wahl, die keine neue Infrastruktur erfordert. Für Enterprise-Skalierung mit über 100 Millionen Vektoren sind Pinecone oder Weaviate Cloud sinnvoll.

Indexierung: HNSW (Hierarchical Navigable Small World) ist der De-facto-Standard für Approximate Nearest Neighbor Search. Konfigurieren Sie den ef_construction-Parameter auf 128–256 für gute Recall-Werte und passen Sie ef_search zur Laufzeit an den gewünschten Trade-off zwischen Latenz und Genauigkeit an.

3. Retrieval-Strategie

Die Qualität des Retrievals bestimmt maßgeblich die Antwortqualität. Hier trennt sich die Spreu vom Weizen — und hier unterscheiden sich gute RAG-Systeme von brillanten.

Stufe 1 — Basis: Semantic Search: Rein vektorbasierte Ähnlichkeitssuche mit Cosine Similarity oder Dot Product. Funktioniert gut für natürlichsprachliche Anfragen, versagt aber bei exakten Begriffen (Produktnummern, Fachbegriffe mit festgelegter Schreibweise).

Stufe 2 — Hybrid Search: Kombination von Semantic Search mit klassischer Keyword-Suche (BM25). In der Praxis liefert ein gewichteter Mix aus 70 % Semantic + 30 % BM25 die besten Ergebnisse für die meisten Unternehmens-Use-Cases. Die exakte Gewichtung sollte per Evaluation optimiert werden.

Stufe 3 — Advanced Retrieval Techniques:

HyDE (Hypothetical Document Embeddings): Das LLM generiert zuerst ein hypothetisches Antwortdokument auf Basis der Frage. Dieses wird dann für die Vektorsuche verwendet. Vorteil: Die Suche findet Dokumente, die der gewünschten Antwort ähneln, nicht nur der Frage. In unseren Tests verbesserte HyDE die Retrieval-Qualität um 10–20 % bei komplexen Anfragen, erhöht aber die Latenz um 1–2 Sekunden und die Kosten pro Anfrage.
Multi-Query Retrieval: Die Ursprungsfrage wird vom LLM in 3–5 alternative Formulierungen umgeschrieben. Für jede Variante wird separat gesucht, die Ergebnisse werden dedupliziert und zusammengeführt. Das erhöht die Recall-Rate deutlich — besonders bei mehrdeutigen oder kurzen Anfragen.
Parent Document Retrieval: Chunks werden klein gehalten für präzise Suche (z. B. 200 Tokens), aber bei einem Match wird der übergeordnete Abschnitt (z. B. 1.000 Tokens) an das LLM übergeben. So bekommen Sie präzises Retrieval mit ausreichend Kontext.
Self-Query / Metadata Filtering: Das LLM extrahiert aus der Nutzerfrage automatisch Metadaten-Filter (z. B. “Zeig mir die Reisekostenrichtlinie von 2025” wird zu Filter: Dokumenttyp = Richtlinie, Jahr ≥ 2025, Thema = Reisekosten). Das reduziert den Suchraum dramatisch.

Stufe 4 — Re-Ranking: Nach dem initialen Retrieval werden die Top-20-Ergebnisse durch einen Cross-Encoder (z. B. Cohere Rerank, BGE-Reranker oder ein Fine-tuned Cross-Encoder) neu sortiert. Cross-Encoder sind deutlich genauer als Bi-Encoder, aber zu langsam für die Erstsuche. Daher: Bi-Encoder für Recall, Cross-Encoder für Precision. In der Praxis verbessert Re-Ranking die Qualität der Top-5-Ergebnisse um 15–30 %.

4. Generation mit Kontext

Das LLM erhält die abgerufenen Dokumente als Kontext und generiert die Antwort. Hier entscheiden Prompt Engineering und Context Management über Qualität und Kosten.

Prompt Engineering für RAG: Ein guter RAG-Prompt enthält eine klare Rollenanweisung (“Du bist ein Assistent für interne Richtlinien der Firma X”), die explizite Anweisung, nur auf Basis des bereitgestellten Kontexts zu antworten, eine Fallback-Regel (“Wenn der Kontext die Frage nicht beantwortet, sage das explizit”) und Formatierungsvorgaben (Stichpunkte, Länge, Sprache). Vertiefende Techniken finden Sie in unserem Beitrag zu Fine-Tuning vs. Prompt Engineering.

Context Window Management: Auch mit 128k-Token-Kontextfenstern ist “alles reinpacken” keine gute Strategie. Studien zeigen, dass LLMs Informationen am Anfang und Ende des Kontexts besser nutzen als in der Mitte (“Lost in the Middle”-Effekt). Platzieren Sie die relevantesten Chunks am Anfang, begrenzen Sie den Kontext auf 3.000–5.000 Tokens (5–10 Chunks) und sortieren Sie nach Relevanz-Score absteigend.

Citation Handling: Nummerieren Sie die Quell-Chunks im Prompt ([1], [2], [3]) und weisen Sie das LLM an, Aussagen mit Referenzen zu versehen. Das erhöht die Überprüfbarkeit und das Nutzervertrauen erheblich.

Evaluation: Das RAGAS-Framework

Ohne systematische Evaluation ist jede Optimierung Blindflug. Wir empfehlen das RAGAS-Framework (Retrieval-Augmented Generation Assessment), das vier Kernmetriken definiert:

Faithfulness (Treue): Misst, ob die generierte Antwort durch den abgerufenen Kontext gestützt wird. Ein Faithfulness-Score unter 0,8 deutet auf Halluzinationen hin.

Answer Relevancy (Antwortrelevanz): Misst, wie relevant die Antwort für die gestellte Frage ist. Zielwert: > 0,85.

Context Precision (Kontextpräzision): Misst, ob die abgerufenen Dokumente relevant für die Frage sind. Wenn dieser Wert niedrig ist, hat Ihr Retrieval ein Problem.

Context Recall (Kontextvollständigkeit): Misst, ob alle für die Antwort nötigen Informationen abgerufen wurden. Ein niedriger Wert zeigt, dass relevante Dokumente nicht gefunden werden.

Praktische Umsetzung: Erstellen Sie einen Ground-Truth-Datensatz mit 50–100 Frage-Antwort-Paaren, die Ihre Fachexperten validiert haben. Führen Sie RAGAS-Evaluation nach jeder Änderung an Chunking, Retrieval oder Prompt durch. Automatisieren Sie diesen Prozess als Teil Ihrer CI/CD-Pipeline.

Häufige Fallstricke

In unseren Projekten begegnen wir regelmäßig denselben Herausforderungen:

1. Zu große Chunks: Wenn Chunks 1.000+ Tokens umfassen, wird irrelevanter Inhalt mit abgerufen und verwässert die Antwort. Antwortqualität sinkt, Token-Kosten steigen. Lösung: Kleinere Chunks (300–500 Tokens) mit Parent Document Retrieval.

2. Fehlende Metadaten: Ohne Metadaten kann nicht nach Aktualität oder Dokumenttyp gefiltert werden. Das LLM sieht veraltete neben aktuellen Richtlinien — ein Rezept für falsche Antworten. Lösung: Metadaten-Extraktion als festen Bestandteil der Ingestion-Pipeline etablieren.

3. Ignorieren von Hybrid Search: Rein semantische Suche versagt bei exakten Begriffen wie Produktnamen, Artikelnummern oder Akronymen. Wenn ein Nutzer nach “SAP-Transaktion VA01” sucht, muss das exakt gefunden werden — nicht ein semantisch ähnliches Dokument über Auftragserstellung. Lösung: Immer BM25 als Fallback einbauen.

4. Keine Evaluation: Ohne Ground-Truth-Datensatz und systematische Metriken ist Optimierung Rätselraten. Jede Änderung am System kann unbeabsichtigte Verschlechterungen in anderen Bereichen verursachen. Lösung: RAGAS-Evaluation als Teil des Deployment-Prozesses.

5. Fehlende Fehlerbehandlung: Was passiert, wenn das Retrieval keine relevanten Dokumente findet? Ohne explizite Behandlung halluziniert das LLM eine Antwort. Lösung: Relevanz-Schwellenwert definieren (z. B. Cosine Similarity > 0,7) und bei Unterschreitung explizit kommunizieren, dass keine passende Information gefunden wurde.

Kostenabschätzung: RAG in Produktion

Die Kosten eines RAG-Systems setzen sich aus drei Komponenten zusammen. Hier eine realistische Kalkulation für 1 Million Anfragen pro Monat:

Kostenposition	Berechnung	Monatlich
Embedding (Anfragen)	1M Anfragen × 100 Tokens × $0,02/1M Tokens	~2 $
LLM-Inferenz (GPT-4o-mini)	1M × 2.000 Tokens Input × $0,15/1M + 1M × 500 Tokens Output × $0,60/1M	~600 $
LLM-Inferenz (GPT-4o)	1M × 2.000 Tokens Input × $2,50/1M + 1M × 500 Tokens Output × $10/1M	~10.000 $
Vector DB (Qdrant Cloud)	5M Vektoren, 1.536 Dimensionen	~100–200 $
Compute (API-Server)	2 vCPU, 8 GB RAM	~50–100 $
Gesamt (mit GPT-4o-mini)		~750–900 $
Gesamt (mit GPT-4o)		~10.150–10.300 $

Der Unterschied zwischen den Modellen ist dramatisch. Für viele Use Cases — insbesondere Wissensdatenbanken und FAQ-Systeme — liefert GPT-4o-mini ausreichende Qualität bei einem Bruchteil der Kosten. Für komplexe Reasoning-Aufgaben, juristische Analysen oder Code-Generierung lohnt sich GPT-4o oder Claude 3.5 Sonnet. Weitere Strategien zur Kostenoptimierung bei LLM-Inferenz finden Sie in unserem separaten Beitrag.

Unser Empfehlungs-Stack

Basierend auf unserer Projekterfahrung empfehlen wir für den Einstieg:

Ingestion: LlamaIndex mit unstructured.io für PDF/DOCX-Parsing
Chunking: Recursive Character Splitting, 400 Tokens, 50 Token Overlap
Embedding: OpenAI text-embedding-3-small (oder BGE-M3 bei Datenschutzanforderungen)
Vector Store: Qdrant (Open Source, Docker-Deployment, exzellente Hybrid-Search-Unterstützung)
Retrieval: Hybrid Search (Semantic + BM25) mit Cohere Rerank
LLM: GPT-4o-mini für Standardanfragen, GPT-4o oder Claude Sonnet für komplexe Fälle
Evaluation: RAGAS mit 50+ Ground-Truth-Paaren
Monitoring: LangSmith oder Langfuse für Tracing und Qualitätskontrolle

Deployment-Checkliste für die Produktion

Bevor ein RAG-System produktiv geht, prüfen Sie:

Ground-Truth-Datensatz mit mindestens 50 validierten Frage-Antwort-Paaren erstellt
RAGAS-Metriken erreichen Zielwerte (Faithfulness > 0,85, Answer Relevancy > 0,85)
Relevanz-Schwellenwert für “keine Antwort gefunden” kalibriert
Latenz unter 3 Sekunden für 95 % der Anfragen
Automatisches Monitoring für Antwortqualität und Nutzerfeedback eingerichtet
Ingestion-Pipeline für neue Dokumente automatisiert
Zugriffskontrollen implementiert (wer darf welche Dokumente sehen?)
Fallback-Strategie bei LLM-API-Ausfällen definiert
Kosten-Alerting eingerichtet (unerwartete Spitzen erkennen)

Fazit

RAG ist keine Plug-and-Play-Lösung, aber mit dem richtigen Ansatz ein mächtiges Werkzeug, das Unternehmens-LLMs von “beeindruckender Demo” zu “geschäftskritischem System” transformiert. Der Schlüssel liegt in sorgfältiger Datenaufbereitung, durchdachtem Retrieval und — vor allem — kontinuierlicher Evaluation.

Starten Sie einfach, messen Sie alles und optimieren Sie systematisch. Ein gutes RAG-System mit einfachem Retrieval schlägt ein komplexes System ohne Evaluation jeden Tag.

Benötigen Sie Unterstützung bei der Implementierung eines RAG-Systems? Kontaktieren Sie uns für eine individuelle Beratung.