Kostenoptimierung bei LLM-Inferenz: Ein praktischer Leitfaden
LLM-APIs sind teuer. Ein durchschnittliches Enterprise-Projekt kann schnell fünf- bis sechsstellige monatliche Kosten verursachen. Die gute Nachricht: Mit den richtigen Strategien lassen sich diese Kosten um 50-90% reduzieren, oft bei gleichbleibender oder sogar verbesserter Qualität.
Kostenstruktur verstehen
Bevor wir optimieren, müssen wir verstehen, wofür wir zahlen. LLM-APIs rechnen nach Tokens ab: Input-Tokens sind das, was Sie dem Modell senden. Output-Tokens sind das, was das Modell generiert, und diese sind meist 2-4x teurer.
Eine Beispielrechnung verdeutlicht das: Eine durchschnittliche Anfrage mit 500 Token System-Prompt, 2.000 Token Kontext/RAG, 100 Token User-Query und 500 Token Response kostet etwa $0.035. Bei 100.000 Anfragen pro Tag sind das $3.500 täglich oder $105.000 monatlich.
Strategie 1: Intelligentes Caching
Das offensichtlichste, aber oft vernachlässigte Mittel ist Caching.
Semantic Caching
Statt nur exakte Matches zu cachen, können Sie semantisch ähnliche Anfragen erkennen. Wenn ein Nutzer “Was ist der Preis von Produkt X?” fragt und kurz darauf ein anderer “Wie viel kostet Produkt X?”, ist die Antwort identisch. Ein Semantic Cache nutzt Embedding-Modelle, um die Ähnlichkeit von Anfragen zu berechnen und gibt bei hoher Übereinstimmung die gecachte Antwort zurück.
Typische Einsparung: 20-40% bei repetitiven Workloads.
Prompt-Komponenten cachen
Bei RAG-Systemen ändern sich oft nur Teile des Prompts. Der System-Prompt und häufig verwendete Kontextdokumente können vorberechnet und gecacht werden. Einige APIs wie Anthropic und OpenAI unterstützen explizites Prompt-Caching, das zusätzliche Einsparungen ermöglicht. Mehr zur optimalen Architektur von RAG-Systemen erfahren Sie in unserem praktischen RAG-Leitfaden.
Strategie 2: Model Routing
Nicht jede Anfrage braucht das teuerste Modell. Ein intelligentes Routing-System klassifiziert eingehende Anfragen nach Komplexität und wählt das passende Modell.
Einfache Anfragen wie “Was ist X?” oder “Liste mir Y” können von günstigen Modellen wie GPT-4o-mini bearbeitet werden. Standardanfragen gehen an mittlere Modelle wie GPT-4o. Nur komplexe Anfragen, die tiefes Reasoning erfordern, brauchen die teuersten Modelle.
Typisches Routing-Ergebnis:
- 60% der Anfragen: Kleines Modell (10x günstiger)
- 30% der Anfragen: Mittleres Modell (2x günstiger)
- 10% der Anfragen: Großes Modell (volle Kosten)
Einsparung: 50-70%
Strategie 3: Prompt-Optimierung
Kürzere Prompts bedeuten weniger Kosten.
System-Prompt komprimieren
Ein ausschweifender System-Prompt mit 800 Tokens lässt sich oft auf 150 Tokens reduzieren, ohne Qualität zu verlieren. Statt langer Prosa verwenden Sie strukturierte Listen und prägnante Anweisungen. Die Rolle und die wichtigsten Regeln passen in wenige Zeilen.
Few-Shot-Examples optimieren
Statt viele Beispiele in jeden Prompt zu packen, wählen Sie dynamisch die relevantesten aus. Ein Embedding-basiertes System findet die zwei oder drei Beispiele, die der aktuellen Anfrage am ähnlichsten sind. Das spart Tokens und verbessert oft sogar die Qualität, weil die Beispiele relevanter sind. Wann sich Prompt Engineering lohnt und wann Fine-Tuning die bessere Wahl ist, analysieren wir in unserem Vergleich Fine-Tuning vs. Prompt Engineering.
Strategie 4: Batch Processing
Wenn Echtzeit nicht erforderlich ist, können Sie Anfragen sammeln und in Batches verarbeiten. Das bietet mehrere Vorteile: Batch-Rabatte bei einigen Anbietern (bis zu 50%), bessere GPU-Auslastung bei Self-Hosting und die Möglichkeit zur Deduplizierung identischer Anfragen.
Ein Batch-Processor sammelt Anfragen für einige Sekunden oder bis eine bestimmte Anzahl erreicht ist, verarbeitet sie dann gemeinsam und verteilt die Ergebnisse zurück.
Strategie 5: Output-Länge kontrollieren
Output-Tokens sind teurer als Input-Tokens. Kontrollieren Sie daher die Ausgabelänge bewusst.
Setzen Sie max_tokens passend zum Task: Klassifizierung braucht vielleicht 10 Tokens, Extraktion 200, Zusammenfassung 300, Analyse 1000. Erzwingen Sie strukturierte Outputs wie JSON, um “Geschwätz” zu vermeiden. Das Modell kommt direkt zum Punkt statt mit “Das ist eine interessante Frage. Lassen Sie mich erklären…” zu beginnen.
Strategie 6: Self-Hosting evaluieren
Ab einem bestimmten Volumen lohnt sich Self-Hosting.
Break-Even-Analyse
Bei 100 Millionen Tokens monatlich über API zahlen Sie etwa $10.000. Ein selbst gehostetes Setup mit A100-GPU, Infrastruktur-Overhead und anteiliger Engineering-Zeit kostet etwa $5.500 monatlich, hat aber eine Kapazität von mehreren Milliarden Tokens.
Der Break-Even liegt bei etwa 50 Millionen Tokens monatlich für die meisten Setups. Darunter ist die API günstiger, darüber Self-Hosting. Eine besonders kosteneffiziente Option sind dabei Small Language Models am Edge, die auf Standard-Hardware laufen und keine laufenden API-Kosten verursachen.
Hybrid-Ansatz
Sie können auch beide Ansätze kombinieren: Lokale Modelle für Standard-Tasks und hohe Volumina, API-Calls für komplexe Tasks oder als Fallback. Das lokale Modell übernimmt den Großteil der Anfragen, während die teurere API nur für schwierige Fälle genutzt wird.
Monitoring und Optimierung
Ohne Messung keine Optimierung. Tracken Sie für jedes Modell: Anzahl der Requests, Input-Tokens, Output-Tokens, Kosten und Cache-Hits.
Ein gutes Dashboard zeigt Ihnen auf einen Blick die Gesamtkosten, Cache-Hit-Rate, Kosten nach Modell und Optimierungsmöglichkeiten. Identifizieren Sie regelmäßig, welche Anfragen besonders teuer sind und ob sie sich für Caching oder günstigere Modelle eignen.
Zusammenfassung: Optimierungsprioritäten
| Strategie | Aufwand | Einsparung | Risiko |
|---|---|---|---|
| Semantic Caching | Niedrig | 20-40% | Niedrig |
| Model Routing | Mittel | 50-70% | Mittel |
| Prompt-Optimierung | Niedrig | 10-30% | Niedrig |
| Batch Processing | Mittel | 20-50% | Niedrig |
| Output-Kontrolle | Niedrig | 10-20% | Niedrig |
| Self-Hosting | Hoch | 60-80% | Hoch |
Empfohlene Reihenfolge:
- Caching implementieren (Quick Win)
- Prompts optimieren (Kein Risiko)
- Model Routing einführen (Mittlerer Aufwand, hohe Einsparung)
- Self-Hosting evaluieren (Nur bei hohem Volumen)
Fazit
LLM-Kosten sind kein unvermeidbares Übel. Mit systematischer Optimierung können Sie Ihre Ausgaben drastisch reduzieren, ohne die Qualität zu beeinträchtigen. Der Schlüssel liegt in der Kombination mehrerer Strategien und kontinuierlichem Monitoring.
Beginnen Sie mit den einfachen Maßnahmen wie Caching und Prompt-Optimierung. Diese bringen oft schon 30-50% Einsparung bei minimalem Aufwand. Skalieren Sie dann zu komplexeren Strategien wie Model Routing, wenn Ihr Volumen wächst.
Kämpfen Sie mit hohen LLM-Kosten? Intellineers hilft Ihnen, eine kosteneffiziente KI-Infrastruktur aufzubauen, die mit Ihrem Geschäft skaliert.