Le coût d'utilisation des API de modèles de langage (LLMs) est facturé au token — une unité linguistique d'environ 4 caractères en anglais ou 3 en langues latines. En mars 2026, les prix varient de 0,10 $ par million de tokens d'entrée (Gemini 2.0 Flash, Mistral Small) à 75 $ (GPT-4.5 Preview), soit un ratio de 1 à 750 entre le modèle le moins cher et le plus cher. Les tokens de sortie coûtent 2 à 4 fois plus que les tokens d'entrée. Le contexte en cache (cached input) permet des réductions de 50 à 90% sur le prix d'entrée pour les prompts système répétés. Le choix du modèle dépend du rapport qualité/coût pour le cas d'usage spécifique.
Comment fonctionne la tarification par tokens des API LLM ?
Les API LLM facturent au token, avec des tarifs séparés pour l'entrée (votre prompt) et la sortie (la réponse du modèle). Un token représente environ 4 caractères en anglais. Les prix sont exprimés par million de tokens.
Quel modèle LLM choisir selon son budget ?
Pour les tâches à haut volume et faible complexité, les modèles économiques comme GPT-4o mini, Gemini Flash ou Mistral Small offrent d'excellents ratios coût/qualité. Pour le raisonnement complexe ou le code, Claude Sonnet ou GPT-4o offrent le meilleur équilibre. Réservez les modèles premium aux tâches où la qualité est non négociable.