stratoai.pro // glosario // token
◆ Fundamentos LLM

Token

También conocido como: Tokens · Subpalabra
Un token es la unidad mínima de texto que procesa un LLM: aproximadamente una sílaba o un trozo de palabra. El precio por uso, la velocidad y el límite de memoria del modelo se miden todos en tokens, no en palabras ni en caracteres.
// Definición extendida
Cuando envías un prompt a un LLM, el modelo no lee palabras sino tokens. El tokenizador parte el texto en piezas pequeñas según un vocabulario aprendido. En español, un token equivale más o menos a 0.6-0.8 palabras: "consultor" puede ser 1 token, pero "concesión" puede ser 2 o 3. Para un cálculo rápido: 1.000 palabras ≈ 1.300-1.500 tokens. La factura de un LLM se calcula en tokens: tokens de entrada (lo que envías) + tokens de salida (lo que genera). Por eso un prompt larguísimo con respuesta corta puede costar más que uno corto con respuesta larga, según los precios input/output del modelo. Anthropic, OpenAI y Google publican precios por millón de tokens (input y output por separado). El context window — la "memoria de trabajo" del modelo — también se mide en tokens. Claude Opus 4.7 tiene 1M tokens; Sonnet 4.6 tiene 200K; Haiku 4.5 tiene 200K. Saber cuántos tokens consume tu pipeline es la diferencia entre un proyecto rentable y uno que se come el margen.
// Ejemplo en StratoAI

Cómo lo usamos en producción

En bridge.py todas las llamadas pasan por OpenRouter, que devuelve tokens consumidos por petición. Eso permite calcular el coste real de cada post (~700-900 tokens output × $0.30/M con MiniMax M2.5 ≈ $0.0003) y decidir si una tarea sale a cuenta delegarla o si conviene mantenerla en Opus. La regla del grupo es medir tokens antes de prometer un precio fijo a cliente.
// Cuándo importa

Para qué te importa esto

  • Cuando estimas el coste mensual de un servicio con volumen recurrente (boletines, posts, soporte)
  • Cuando un prompt muy largo te aumenta la factura sin mejorar la salida
  • Cuando una tarea no cabe en context window y hay que partirla o usar RAG
  • Cuando comparas modelos: 5x más barato por token puede ser igual de bueno en tu tarea concreta

¿Cómo aplica
esto a tu negocio?

Las definiciones son el primer paso. Convertir el concepto en operación 24/7 dentro de tu empresa es el siguiente. Hablemos en una Contact Call de 30 minutos sin compromiso.

// Stack frontera

Modelos que evaluamos · proveedores que operamos

Stack frontera + open-weight · benchmark continuo · sin sesgo de vendor

¿Hablamos? Respondo personalmente John Guerrero · fundador StratoAI