Fine-Tuning vs. Prompt Engineering: Wann lohnt sich was?

Veröffentlicht am 10. Mai 2025 von Christopher Wittlinger

Bei der Anpassung von Large Language Models an spezifische Unternehmensanforderungen stehen zwei Hauptansätze zur Verfügung: Prompt Engineering und Fine-Tuning. Die richtige Wahl hängt von mehreren Faktoren ab — und in der Praxis ist die Antwort selten eindeutig. In diesem Leitfaden geben wir eine fundierte Entscheidungshilfe mit konkreten Kostenvergleichen, Praxisbeispielen und einem erprobten Workflow.

Prompt Engineering: Der flexible Ansatz

Beim Prompt Engineering wird das Modell durch geschickte Formulierung der Eingabe gesteuert, ohne seine Gewichte zu verändern. Das Modell bleibt unverändert — nur die Instruktionen werden optimiert.

Vorteile

Nachteile

Fortgeschrittene Prompt-Techniken

Bevor Sie über Fine-Tuning nachdenken, sollten Sie diese Techniken ausgeschöpft haben:

Chain-of-Thought (CoT): Weisen Sie das Modell an, seinen Denkprozess Schritt für Schritt offenzulegen. Statt “Berechne den optimalen Lagerbestand” sagen Sie: “Analysiere den Lagerbestand Schritt für Schritt: 1. Durchschnittlicher Tagesverbrauch, 2. Lieferzeit, 3. Sicherheitspuffer, 4. Berechnung des Meldebestands.” CoT verbessert die Genauigkeit bei mathematischen und logischen Aufgaben um 20–40 %.

Few-Shot Prompting: Geben Sie 3–5 konkrete Beispiele für Input-Output-Paare im Prompt. Entscheidend ist die Qualität, nicht die Menge: Wählen Sie Beispiele, die verschiedene Edge Cases abdecken. Ein Prompt mit 5 gut gewählten Beispielen schlägt oft einen mit 20 generischen.

Structured Output: Definieren Sie das Ausgabeformat explizit — als JSON-Schema, Markdown-Tabelle oder nummerierte Liste. Die meisten LLM-APIs (OpenAI, Anthropic) unterstützen mittlerweile erzwungene JSON-Ausgabe, was das Parsen drastisch vereinfacht und Fehlerquoten auf unter 0,1 % senkt.

Self-Consistency: Lassen Sie das Modell dieselbe Aufgabe 3–5 Mal bearbeiten und wählen Sie die häufigste Antwort. Das erhöht die Zuverlässigkeit bei schwierigen Klassifikationsaufgaben um 10–15 %, verdreifacht aber die Kosten.

Persona-basiertes Prompting: Geben Sie dem Modell eine klare Rolle: “Du bist ein erfahrener deutscher Wirtschaftsprüfer mit 20 Jahren Erfahrung in der Automobilindustrie.” Personas verbessern Domänenrelevanz und Tonalität signifikant.

Praxisbeispiel: Prompt Engineering im Kundenservice

Ein E-Commerce-Unternehmen mit 15.000 Support-Tickets pro Monat wollte Tickets automatisch kategorisieren und eine Erstantwort-Empfehlung generieren. Mit einem systematischen Prompt-Engineering-Ansatz erreichten sie:

Der Schlüssel war ein System-Prompt mit 8 Few-Shot-Beispielen, die die häufigsten Ticket-Kategorien und -Formulierungen abdeckten, kombiniert mit einer strukturierten JSON-Ausgabe für die Integration ins Ticketsystem.

Fine-Tuning: Der spezialisierte Ansatz

Beim Fine-Tuning werden die Modellgewichte auf einem domänenspezifischen Datensatz angepasst. Das Modell lernt Muster, die allein durch Prompts nicht vermittelbar sind — Stil, Fachterminologie, domänenspezifisches Reasoning.

Vorteile

Nachteile

LoRA und QLoRA: Effizientes Fine-Tuning

Modernes Fine-Tuning verwendet fast immer Parameter-Efficient Fine-Tuning (PEFT) statt Full Fine-Tuning. Die beiden wichtigsten Methoden:

LoRA (Low-Rank Adaptation): Statt alle Milliarden Parameter des Modells zu aktualisieren, werden kleine Adapter-Matrizen (typisch 0,1–1 % der Originalparameter) trainiert. Das reduziert den GPU-Bedarf um den Faktor 10–100 und macht Fine-Tuning auf einer einzelnen A100-GPU (oder sogar A10G) möglich.

QLoRA (Quantized LoRA): Kombiniert LoRA mit 4-Bit-Quantisierung des Basismodells. Das ermöglicht Fine-Tuning eines 70B-Modells auf einer einzigen 48-GB-GPU. Die Qualitätseinbuße gegenüber Full-Precision-LoRA ist minimal (typisch < 1 % auf Benchmarks).

Praxisrelevanz: Für die meisten Unternehmens-Use-Cases ist LoRA auf einem 7B–13B-Modell (z. B. Llama 3, Mistral) der Sweet Spot. Es bietet 80–90 % der Qualität eines Full Fine-Tunings zu 5 % der Kosten.

Praxisbeispiel: Fine-Tuning für Fachsprache

Eine Ingenieurberatung musste technische Prüfberichte nach DIN-Standards erstellen. Die Berichte erforderten exakte Terminologie, spezifische Satzstrukturen und ein konsistentes Format mit 23 Pflichtabschnitten.

Prompt Engineering allein erreichte 74 % korrekte Berichte (gemessen an einem 50-Punkte-Qualitätskatalog). Die Probleme: inkonsistente Fachbegriffe, gelegentlich falsche DIN-Referenzen, variierende Formatierung.

Nach Fine-Tuning eines Llama-3-8B-Modells mit 1.200 validierten Prüfberichten:

Fine-Tuning-Workflow: Schritt für Schritt

Schritt 1 — Datensatz erstellen (1–3 Wochen): Sammeln Sie 200–2.000 Input-Output-Beispiele aus Ihrer Domäne. Lassen Sie diese von Fachexperten validieren und korrigieren. Teilen Sie 80/10/10 in Training/Validierung/Test. Achten Sie auf Diversität — wenn 90 % Ihrer Beispiele eine Kategorie abdecken, wird das Modell in den anderen versagen. Mehr zum Thema Datenaufbereitung in unserem Beitrag zu Datenqualität als KI-Erfolgsfaktor.

Schritt 2 — Basismodell wählen: Für die meisten Use Cases: Llama 3.1 8B (guter Allrounder, effizient), Mistral 7B (stark bei europäischen Sprachen) oder Phi-3 Medium (gutes Preis-Leistungs-Verhältnis). Für kommerzielle APIs: OpenAI Fine-Tuning (GPT-4o-mini) oder Anthropic Fine-Tuning (noch in eingeschränktem Zugang).

Schritt 3 — Training konfigurieren: LoRA-Konfiguration: Rank (r) = 16–64, Alpha = 32–128, Target Modules = q_proj, v_proj (für Attention Layers). Learning Rate: 1e-4 bis 3e-4 mit Cosine Scheduler. Epochs: 3–5 (mehr führt fast immer zu Overfitting). Batch Size: So groß wie der GPU-Speicher erlaubt.

Schritt 4 — Training und Evaluation (1–2 Tage): Trainieren Sie auf dem Trainingssplit, evaluieren Sie nach jeder Epoche auf dem Validierungssplit. Beobachten Sie Training Loss und Validation Loss — wenn Validation Loss steigt während Training Loss sinkt, overfitted das Modell. Typische Trainingszeit: 2–8 Stunden auf einer A100 für ein 7B-Modell mit 1.000 Beispielen.

Schritt 5 — Evaluation auf Testset: Evaluieren Sie auf dem separaten Testset mit domänenspezifischen Metriken. Nicht nur Perplexity oder BLEU-Score, sondern aufgabenspezifische Metriken: Klassifikationsgenauigkeit, Formatierungstreue, terminologische Korrektheit.

Schritt 6 — Deployment: Quantisieren Sie das Modell für Produktion (GPTQ oder AWQ, 4-Bit). Deployen Sie über vLLM oder TGI (Text Generation Inference) für optimalen Durchsatz. Richten Sie A/B-Testing gegen die Prompt-Engineering-Baseline ein.

Kostenvergleich: Eine realistische Kalkulation

Angenommen, Sie haben einen Use Case mit 50.000 Anfragen pro Monat und durchschnittlich 500 Token Output pro Anfrage.

Szenario A — Prompt Engineering mit GPT-4o:

PositionBerechnungMonatlich
System-Prompt (1.500 Token) × 50.000Input-Tokens~187 $
Nutzer-Eingabe (200 Token) × 50.000Input-Tokens~25 $
Output (500 Token) × 50.000Output-Tokens~250 $
Gesamt~462 $/Monat

Szenario B — Fine-Tuned GPT-4o-mini (über OpenAI):

PositionBerechnungKosten
Training (einmalig)1.000 Beispiele × ~1.000 Token~25 $
System-Prompt (200 Token, kürzer!) × 50.000Input-Tokens~1,50 $
Nutzer-Eingabe (200 Token) × 50.000Input-Tokens~1,50 $
Output (500 Token) × 50.000Output-Tokens~9 $
Gesamt (laufend)~12 $/Monat

Szenario C — Fine-Tuned Open-Source (Llama 3.1 8B, Self-Hosted):

PositionBerechnungKosten
Training (einmalig)4h A100 Cloud-GPU~12 $
Hosting (1× A10G, AWS/GCP)24/7~500–700 $/Monat
Datenvorbereitung (einmalig)2–3 Wochen Arbeitszeit5.000–10.000 €
Gesamt (laufend)~500–700 $/Monat

Erkenntnis: Fine-Tuning lohnt sich bei hohem Volumen dramatisch. Szenario B spart gegenüber Szenario A rund 450 Dollar pro Monat — über 5.000 Dollar im Jahr. Self-Hosting (Szenario C) lohnt sich erst ab 200.000+ Anfragen pro Monat oder bei strikten Datenschutzanforderungen. Ausführliche Strategien zur Kostenoptimierung bei LLM-Inferenz behandeln wir in einem separaten Beitrag.

Die Hybrid-Strategie: RAG + Fine-Tuning + Prompt Engineering

In der Praxis ist oft eine Kombination optimal. Diese drei Werkzeuge adressieren unterschiedliche Aspekte:

  1. RAG für Wissen: Aktuelle, faktische Informationen werden zur Laufzeit aus Dokumenten abgerufen. RAG ist ideal für Inhalte, die sich häufig ändern — Produktkataloge, Richtlinien, Preislisten.
  2. Fine-Tuning für Verhalten: Stil, Format, Fachterminologie und domänenspezifische Reasoning-Patterns werden ins Modell trainiert. Fine-Tuning ist ideal für Muster, die sich selten ändern.
  3. Prompt Engineering für Steuerung: Aufgabenspezifische Anweisungen, die sich je nach Anwendungsfall unterscheiden. Prompts sind ideal für flexible, kontextabhängige Instruktionen.

Beispiel: Ein Kundenservice-Bot einer Versicherung nutzt RAG für aktuelle Tarife und Vertragsbedingungen (ändern sich quartalsweise), ist fine-tuned auf den Kommunikationsstil und die Fachsprache des Unternehmens (ändert sich selten) und erhält per Prompt die spezifische Gesprächssituation (Beschwerde vs. Informationsanfrage vs. Schadensmeldung).

Evaluation: Wie messen Sie Erfolg?

Ohne systematische Evaluation treffen Sie Entscheidungen blind. Hier unser Evaluationsframework:

1. Automatisierte Metriken: Domänenspezifische Accuracy (stimmt die Klassifikation, der extrahierte Wert, die Empfehlung?), Formatierungstreue (hält sich das Modell an Strukturvorgaben?), Latenz (wie schnell kommt die Antwort?) und Kosten pro Anfrage.

2. Human Evaluation: Lassen Sie 3 Domänenexperten 100 Antworten bewerten — auf einer Skala von 1–5 für Korrektheit, Vollständigkeit, Stil und Nützlichkeit. Berechnen Sie Inter-Rater-Agreement (Cohen’s Kappa > 0,6 ist akzeptabel).

3. A/B-Testing: Vergleichen Sie Prompt Engineering vs. Fine-Tuning im Livebetrieb. Messen Sie: Nutzerzufriedenheit (Daumen hoch/runter), Eskalationsrate (wird das Ergebnis an einen Menschen weitergeleitet?), Task-Completion-Rate (wurde die Aufgabe gelöst?).

Entscheidungsmatrix

KriteriumPrompt EngineeringFine-Tuning
Time-to-MarketStunden bis Tage2–6 Wochen
Initiale Kosten0–2.000 € (Arbeitszeit)500–10.000 €
Laufende Kosten (50k Anfragen/Monat)200–500 €10–700 €
DatenbedarfKeine Trainingsdaten200–10.000 Beispiele
FlexibilitätHoch (Prompt-Änderung sofort wirksam)Niedrig (Neutraining nötig)
SpezialisierungBegrenztHoch
WartungsaufwandNiedrigMittel (Retraining bei Modellwechsel)
DatenschutzAbhängig vom API-AnbieterSelf-Hosting möglich

Praktische Empfehlung: Der Stufenansatz

Starten Sie immer mit Prompt Engineering. Optimieren Sie Ihre Prompts systematisch und messen Sie die Ergebnisse gegen klar definierte Erfolgsmetriken. Erst wenn Sie an Grenzen stoßen, die sich nicht durch bessere Prompts lösen lassen, ist Fine-Tuning der nächste logische Schritt.

Der Übergang macht Sinn, wenn:

Denken Sie daran: Die beste Strategie ist oft nicht entweder/oder, sondern eine durchdachte Kombination. Beginnen Sie mit Prompt Engineering, ergänzen Sie bei Bedarf RAG für dynamisches Wissen und setzen Sie Fine-Tuning gezielt dort ein, wo es den größten Hebel hat.

Fazit

Prompt Engineering und Fine-Tuning sind keine Gegensätze, sondern komplementäre Werkzeuge in Ihrem LLM-Werkzeugkasten. Die Kunst liegt darin, den richtigen Ansatz für den jeweiligen Anwendungsfall zu wählen — und zu wissen, wann es Zeit ist, von einem zum anderen zu wechseln. Die meisten Unternehmen unterschätzen, wie weit man mit systematischem Prompt Engineering kommt, und überschätzen gleichzeitig, wie viel Fine-Tuning-Aufwand nötig ist, wenn man LoRA/QLoRA statt Full Fine-Tuning verwendet.

Unsicher, welcher Ansatz für Ihr Projekt der richtige ist? Kontaktieren Sie uns für eine individuelle Beratung.