RAG-Systeme: Ein praktischer Leitfaden für Unternehmen

Veröffentlicht am 15. März 2025 von Christopher Wittlinger

Retrieval-Augmented Generation (RAG) hat sich als eine der wichtigsten Architekturen für den Unternehmenseinsatz von Large Language Models etabliert. Statt ein Modell aufwendig mit firmenspezifischen Daten zu fine-tunen, werden relevante Informationen zur Laufzeit abgerufen und dem Modell als Kontext übergeben. Das Ergebnis: aktuelle, quellenbasierte Antworten auf Basis Ihrer eigenen Unternehmensdaten — ohne Neutraining.

In den letzten zwei Jahren haben wir bei Intellineers RAG-Systeme für verschiedenste Branchen implementiert — von juristischen Wissensdatenbanken über technische Dokumentationsassistenten bis zu internen HR-Chatbots. Dieser Leitfaden fasst die wichtigsten Erkenntnisse aus dieser Praxis zusammen.

Warum RAG?

Die Vorteile gegenüber reinem Fine-Tuning sind erheblich:

Die Kernkomponenten eines RAG-Systems

1. Document Processing Pipeline

Der erste und oft unterschätzte Schritt ist die Aufbereitung Ihrer Dokumente. Die Qualität dieser Pipeline bestimmt 60–70 % der Gesamtleistung des Systems — ein perfektes Retrieval- und Generierungsmodell kann schlecht aufbereitete Daten nicht kompensieren.

Chunking — Die Strategie entscheidet:

Die Wahl der Chunking-Strategie hat massiven Einfluss auf die Antwortqualität. Hier ein Vergleich der gängigsten Ansätze:

StrategieChunk-GrößeVorteileNachteileGeeignet für
Fixed-Size256–512 TokensEinfach zu implementieren, vorhersagbare GrößeZerreißt semantische EinheitenHomogene Textdokumente
Recursive Character200–500 TokensRespektiert Absatzgrenzen, guter DefaultVariiert stark in der GrößeAllgemeine Textdokumente
Semantic ChunkingVariabelErhält Bedeutungseinheiten vollständigRechenintensiver, komplexerTechnische Dokumentation
Document StructureVariabelNutzt Überschriften und SektionenBraucht gut strukturierte DokumenteHandbücher, Policies, Gesetze
Sliding Window256–512 Tokens mit 50–100 OverlapVerhindert Informationsverlust an GrenzenMehr Chunks, höhere KostenNarrative Texte, Berichte

Unsere Empfehlung: Starten Sie mit Recursive Character Splitting bei 400 Tokens und 50 Token Overlap. Sobald Sie eine Evaluation-Pipeline haben, testen Sie Document-Structure-basiertes Chunking für Ihre spezifischen Dokumenttypen. In unseren Projekten brachte der Wechsel von Fixed-Size auf Semantic Chunking typischerweise 15–25 % Verbesserung in der Antwortrelevanz.

Cleaning und Preprocessing: Entfernen Sie Formatierungsartefakte (Header, Footer, Seitenzahlen in PDFs), normalisieren Sie Whitespace und Sonderzeichen, erkennen und behandeln Sie Tabellen separat (Tabellen als Markdown oder strukturierter Text, nicht als Fließtext) und extrahieren Sie Bildinhalte über OCR, wenn relevant.

Metadata Extraction: Extrahieren Sie systematisch: Autor, Erstellungsdatum, Dokumenttyp, Abteilung, Produktreferenz, Versionsnummer. Diese Metadaten ermöglichen später gezielte Filterung — zum Beispiel “nur Dokumente aus den letzten 12 Monaten” oder “nur Dokumente der Rechtsabteilung”. In der Praxis reduziert gute Metadaten-Filterung die Retrieval-Latenz um 40–60 % und verbessert die Relevanz erheblich.

2. Embedding und Vector Store

Die aufbereiteten Chunks werden in hochdimensionale Vektoren umgewandelt, die semantische Ähnlichkeit abbilden. Die Wahl des Embedding-Modells ist dabei kritisch.

Embedding-Modell-Vergleich (Stand 2025/2026):

ModellDimensionenMTEB ScoreKosten (pro 1M Tokens)Hosting
OpenAI text-embedding-3-large3.07264,6~0,13 $Cloud (API)
OpenAI text-embedding-3-small1.53662,3~0,02 $Cloud (API)
Cohere embed-v31.02464,5~0,10 $Cloud (API)
BGE-M3 (BAAI)1.02463,5KostenlosSelf-hosted
E5-Mistral-7B4.09666,6KostenlosSelf-hosted (GPU nötig)
Jina Embeddings v31.02465,5~0,02 $Cloud oder Self-hosted

Praxis-Tipp: Für den Einstieg empfehlen wir text-embedding-3-small — das Preis-Leistungs-Verhältnis ist hervorragend. Für deutsche Texte liefert BGE-M3 als Open-Source-Alternative starke Ergebnisse und kann lokal betrieben werden, was bei datenschutzsensiblen Projekten entscheidend ist. Wenn maximale Qualität gefragt ist und Sie GPU-Kapazität haben, ist E5-Mistral-7B derzeit die beste Wahl.

Vector-Datenbank-Auswahl: Die Wahl der Vektordatenbank hängt vom Skalierungsbedarf ab. Für den Einstieg und bis zu 5 Millionen Vektoren ist Qdrant (Open Source, einfaches Docker-Deployment) unsere Standardempfehlung. Für Teams, die bereits PostgreSQL nutzen, ist pgvector eine pragmatische Wahl, die keine neue Infrastruktur erfordert. Für Enterprise-Skalierung mit über 100 Millionen Vektoren sind Pinecone oder Weaviate Cloud sinnvoll.

Indexierung: HNSW (Hierarchical Navigable Small World) ist der De-facto-Standard für Approximate Nearest Neighbor Search. Konfigurieren Sie den ef_construction-Parameter auf 128–256 für gute Recall-Werte und passen Sie ef_search zur Laufzeit an den gewünschten Trade-off zwischen Latenz und Genauigkeit an.

3. Retrieval-Strategie

Die Qualität des Retrievals bestimmt maßgeblich die Antwortqualität. Hier trennt sich die Spreu vom Weizen — und hier unterscheiden sich gute RAG-Systeme von brillanten.

Stufe 1 — Basis: Semantic Search: Rein vektorbasierte Ähnlichkeitssuche mit Cosine Similarity oder Dot Product. Funktioniert gut für natürlichsprachliche Anfragen, versagt aber bei exakten Begriffen (Produktnummern, Fachbegriffe mit festgelegter Schreibweise).

Stufe 2 — Hybrid Search: Kombination von Semantic Search mit klassischer Keyword-Suche (BM25). In der Praxis liefert ein gewichteter Mix aus 70 % Semantic + 30 % BM25 die besten Ergebnisse für die meisten Unternehmens-Use-Cases. Die exakte Gewichtung sollte per Evaluation optimiert werden.

Stufe 3 — Advanced Retrieval Techniques:

Stufe 4 — Re-Ranking: Nach dem initialen Retrieval werden die Top-20-Ergebnisse durch einen Cross-Encoder (z. B. Cohere Rerank, BGE-Reranker oder ein Fine-tuned Cross-Encoder) neu sortiert. Cross-Encoder sind deutlich genauer als Bi-Encoder, aber zu langsam für die Erstsuche. Daher: Bi-Encoder für Recall, Cross-Encoder für Precision. In der Praxis verbessert Re-Ranking die Qualität der Top-5-Ergebnisse um 15–30 %.

4. Generation mit Kontext

Das LLM erhält die abgerufenen Dokumente als Kontext und generiert die Antwort. Hier entscheiden Prompt Engineering und Context Management über Qualität und Kosten.

Prompt Engineering für RAG: Ein guter RAG-Prompt enthält eine klare Rollenanweisung (“Du bist ein Assistent für interne Richtlinien der Firma X”), die explizite Anweisung, nur auf Basis des bereitgestellten Kontexts zu antworten, eine Fallback-Regel (“Wenn der Kontext die Frage nicht beantwortet, sage das explizit”) und Formatierungsvorgaben (Stichpunkte, Länge, Sprache). Vertiefende Techniken finden Sie in unserem Beitrag zu Fine-Tuning vs. Prompt Engineering.

Context Window Management: Auch mit 128k-Token-Kontextfenstern ist “alles reinpacken” keine gute Strategie. Studien zeigen, dass LLMs Informationen am Anfang und Ende des Kontexts besser nutzen als in der Mitte (“Lost in the Middle”-Effekt). Platzieren Sie die relevantesten Chunks am Anfang, begrenzen Sie den Kontext auf 3.000–5.000 Tokens (5–10 Chunks) und sortieren Sie nach Relevanz-Score absteigend.

Citation Handling: Nummerieren Sie die Quell-Chunks im Prompt ([1], [2], [3]) und weisen Sie das LLM an, Aussagen mit Referenzen zu versehen. Das erhöht die Überprüfbarkeit und das Nutzervertrauen erheblich.

Evaluation: Das RAGAS-Framework

Ohne systematische Evaluation ist jede Optimierung Blindflug. Wir empfehlen das RAGAS-Framework (Retrieval-Augmented Generation Assessment), das vier Kernmetriken definiert:

Faithfulness (Treue): Misst, ob die generierte Antwort durch den abgerufenen Kontext gestützt wird. Ein Faithfulness-Score unter 0,8 deutet auf Halluzinationen hin.

Answer Relevancy (Antwortrelevanz): Misst, wie relevant die Antwort für die gestellte Frage ist. Zielwert: > 0,85.

Context Precision (Kontextpräzision): Misst, ob die abgerufenen Dokumente relevant für die Frage sind. Wenn dieser Wert niedrig ist, hat Ihr Retrieval ein Problem.

Context Recall (Kontextvollständigkeit): Misst, ob alle für die Antwort nötigen Informationen abgerufen wurden. Ein niedriger Wert zeigt, dass relevante Dokumente nicht gefunden werden.

Praktische Umsetzung: Erstellen Sie einen Ground-Truth-Datensatz mit 50–100 Frage-Antwort-Paaren, die Ihre Fachexperten validiert haben. Führen Sie RAGAS-Evaluation nach jeder Änderung an Chunking, Retrieval oder Prompt durch. Automatisieren Sie diesen Prozess als Teil Ihrer CI/CD-Pipeline.

Häufige Fallstricke

In unseren Projekten begegnen wir regelmäßig denselben Herausforderungen:

1. Zu große Chunks: Wenn Chunks 1.000+ Tokens umfassen, wird irrelevanter Inhalt mit abgerufen und verwässert die Antwort. Antwortqualität sinkt, Token-Kosten steigen. Lösung: Kleinere Chunks (300–500 Tokens) mit Parent Document Retrieval.

2. Fehlende Metadaten: Ohne Metadaten kann nicht nach Aktualität oder Dokumenttyp gefiltert werden. Das LLM sieht veraltete neben aktuellen Richtlinien — ein Rezept für falsche Antworten. Lösung: Metadaten-Extraktion als festen Bestandteil der Ingestion-Pipeline etablieren.

3. Ignorieren von Hybrid Search: Rein semantische Suche versagt bei exakten Begriffen wie Produktnamen, Artikelnummern oder Akronymen. Wenn ein Nutzer nach “SAP-Transaktion VA01” sucht, muss das exakt gefunden werden — nicht ein semantisch ähnliches Dokument über Auftragserstellung. Lösung: Immer BM25 als Fallback einbauen.

4. Keine Evaluation: Ohne Ground-Truth-Datensatz und systematische Metriken ist Optimierung Rätselraten. Jede Änderung am System kann unbeabsichtigte Verschlechterungen in anderen Bereichen verursachen. Lösung: RAGAS-Evaluation als Teil des Deployment-Prozesses.

5. Fehlende Fehlerbehandlung: Was passiert, wenn das Retrieval keine relevanten Dokumente findet? Ohne explizite Behandlung halluziniert das LLM eine Antwort. Lösung: Relevanz-Schwellenwert definieren (z. B. Cosine Similarity > 0,7) und bei Unterschreitung explizit kommunizieren, dass keine passende Information gefunden wurde.

Kostenabschätzung: RAG in Produktion

Die Kosten eines RAG-Systems setzen sich aus drei Komponenten zusammen. Hier eine realistische Kalkulation für 1 Million Anfragen pro Monat:

KostenpositionBerechnungMonatlich
Embedding (Anfragen)1M Anfragen × 100 Tokens × $0,02/1M Tokens~2 $
LLM-Inferenz (GPT-4o-mini)1M × 2.000 Tokens Input × $0,15/1M + 1M × 500 Tokens Output × $0,60/1M~600 $
LLM-Inferenz (GPT-4o)1M × 2.000 Tokens Input × $2,50/1M + 1M × 500 Tokens Output × $10/1M~10.000 $
Vector DB (Qdrant Cloud)5M Vektoren, 1.536 Dimensionen~100–200 $
Compute (API-Server)2 vCPU, 8 GB RAM~50–100 $
Gesamt (mit GPT-4o-mini)~750–900 $
Gesamt (mit GPT-4o)~10.150–10.300 $

Der Unterschied zwischen den Modellen ist dramatisch. Für viele Use Cases — insbesondere Wissensdatenbanken und FAQ-Systeme — liefert GPT-4o-mini ausreichende Qualität bei einem Bruchteil der Kosten. Für komplexe Reasoning-Aufgaben, juristische Analysen oder Code-Generierung lohnt sich GPT-4o oder Claude 3.5 Sonnet. Weitere Strategien zur Kostenoptimierung bei LLM-Inferenz finden Sie in unserem separaten Beitrag.

Unser Empfehlungs-Stack

Basierend auf unserer Projekterfahrung empfehlen wir für den Einstieg:

Deployment-Checkliste für die Produktion

Bevor ein RAG-System produktiv geht, prüfen Sie:

Fazit

RAG ist keine Plug-and-Play-Lösung, aber mit dem richtigen Ansatz ein mächtiges Werkzeug, das Unternehmens-LLMs von “beeindruckender Demo” zu “geschäftskritischem System” transformiert. Der Schlüssel liegt in sorgfältiger Datenaufbereitung, durchdachtem Retrieval und — vor allem — kontinuierlicher Evaluation.

Starten Sie einfach, messen Sie alles und optimieren Sie systematisch. Ein gutes RAG-System mit einfachem Retrieval schlägt ein komplexes System ohne Evaluation jeden Tag.

Benötigen Sie Unterstützung bei der Implementierung eines RAG-Systems? Kontaktieren Sie uns für eine individuelle Beratung.