Die Preisgestaltung von Large-Language-Model-APIs (LLM) basiert auf Tokens — Teilwort-Einheiten, die ungefähr 4 Zeichen oder 0,75 Wörtern auf Englisch entsprechen. Stand 2026 reichen die Preise von 0,07 $ pro Million Tokens (Gemini 2.0 Flash Input) bis 75 $ pro Million Tokens (GPT-4.5 Output) — eine Spanne von 1.000×. Input-Tokens (Ihr Prompt) sind typischerweise 2–10× günstiger als Output-Tokens (die Antwort des Modells), da die autoregressive Generierung deutlich mehr Rechenleistung pro Token erfordert als die Kodierung.
Wie werden KI-API-Kosten berechnet?
LLM-APIs berechnen pro Token mit separaten Tarifen für Input (Ihr Prompt) und Output (die Antwort des Modells). Ein Token entspricht ungefähr 4 Zeichen auf Englisch. Die Preise werden pro Million Tokens angegeben. Die Gesamtkosten einer Anfrage hängen von drei Faktoren ab: Anzahl der Input-Tokens, Anzahl der Output-Tokens und den Pro-Token-Tarifen des Modells. Beim Vergleich verschiedener Modelle ist es wichtig, beide Seiten zu berücksichtigen — ein Modell mit günstigen Input-Kosten kann bei Output-intensiven Aufgaben dennoch teuer werden.
Welches Modell ist am günstigsten?
Für volumenstarke Aufgaben mit geringer Komplexität (Klassifikation, Extraktion, einfache Q&A) bieten Budget-Modelle wie GPT-4o mini, Gemini Flash oder Mistral Small das beste Kosten-Qualitäts-Verhältnis. Für komplexes Reasoning, Coding oder kreative Aufgaben bieten Mittelklasse-Modelle wie Claude Sonnet oder GPT-4o die beste Balance. Reservieren Sie Premium-Modelle (Claude Opus, GPT-4.5) für Aufgaben, bei denen Qualität nicht verhandelbar ist und das Volumen gering bleibt. Erstellen Sie Ihre System-Prompts mit unserem System-Prompt-Formatter und optimieren Sie gleichzeitig Kosten und Ergebnisqualität.