Las APIs de modelos de lenguaje (LLM) como GPT-4o, Claude, Gemini y Mistral facturan por tokens — unidades sub-palabra que representan fragmentos de texto procesado. Entender la estructura de precios (tokens de entrada vs salida, caché, batch pricing) es fundamental para estimar costes y elegir el modelo óptimo para cada caso de uso, desde chatbots simples hasta pipelines complejos de procesamiento de documentos.
¿Cómo se calcula el coste de una API de IA?
El coste se calcula multiplicando el número de tokens procesados por el precio por token del modelo elegido. Los tokens de entrada (tu prompt + contexto) y los de salida (la respuesta generada) tienen precios diferentes — la salida suele costar 3-5× más que la entrada. Un token equivale a aproximadamente 4 caracteres o 0,75 palabras en inglés (algo menos eficiente en español). Un artículo de 1.000 palabras son aproximadamente 1.300 tokens. Los proveedores también ofrecen precios reducidos para entrada en caché y procesamiento en batch.
¿Cuál es el modelo más barato?
En 2026, los modelos más económicos por token son Gemini 2.0 Flash, Mistral Small y DeepSeek V3, con precios de entrada inferiores a $0,50/1M tokens. Para calidad premium, Claude Sonnet 4.6 y GPT-4o ofrecen la mejor relación calidad-precio en el segmento intermedio ($2-5/1M tokens entrada). Los modelos más potentes como Claude Opus y GPT-4.5 son significativamente más caros. La elección depende del equilibrio entre calidad y coste para tu caso específico. ¿Construyes prompts para estas APIs? Usa el formateador de system prompts.