◆ Fundamentos LLM

Token

También conocido como: Tokens · Subpalabra

Un token es la unidad mínima de texto que procesa un LLM: aproximadamente una sílaba o un trozo de palabra. El precio por uso, la velocidad y el límite de memoria del modelo se miden todos en tokens, no en palabras ni en caracteres.

← Todos los términos Aplicar a mi caso →

// Definición extendida

Cuando envías un prompt a un LLM, el modelo no lee palabras sino tokens. El tokenizador parte el texto en piezas pequeñas según un vocabulario aprendido. En español, un token equivale más o menos a 0.6-0.8 palabras: "consultor" puede ser 1 token, pero "concesión" puede ser 2 o 3. Para un cálculo rápido: 1.000 palabras ≈ 1.300-1.500 tokens. La factura de un LLM se calcula en tokens: tokens de entrada (lo que envías) + tokens de salida (lo que genera). Por eso un prompt larguísimo con respuesta corta puede costar más que uno corto con respuesta larga, según los precios input/output del modelo. Anthropic, OpenAI y Google publican precios por millón de tokens (input y output por separado). El context window — la "memoria de trabajo" del modelo — también se mide en tokens. Claude Opus 4.7 tiene 1M tokens; Sonnet 4.6 tiene 200K; Haiku 4.5 tiene 200K. Saber cuántos tokens consume tu pipeline es la diferencia entre un proyecto rentable y uno que se come el margen.

// Ejemplo en StratoAI

Cómo lo usamos en producción

En bridge.py todas las llamadas pasan por OpenRouter, que devuelve tokens consumidos por petición. Eso permite calcular el coste real de cada post (~700-900 tokens output × $0.30/M con MiniMax M2.5 ≈ $0.0003) y decidir si una tarea sale a cuenta delegarla o si conviene mantenerla en Opus. La regla del grupo es medir tokens antes de prometer un precio fijo a cliente.

// Cuándo importa

Para qué te importa esto

Cuando estimas el coste mensual de un servicio con volumen recurrente (boletines, posts, soporte)
Cuando un prompt muy largo te aumenta la factura sin mejorar la salida
Cuando una tarea no cabe en context window y hay que partirla o usar RAG
Cuando comparas modelos: 5x más barato por token puede ser igual de bueno en tu tarea concreta

// Herramientas del directorio

Donde aplica este término

Claude

Anthropic

El modelo que razona en serio. La columna vertebral del taller.

Gemini

Google DeepMind

El motor de imagen y análisis barato del stack — Nano Banana 2 incluido.

OAI

OpenAI

El otro grande. GPT-5 + GPT Image + Sora viven aquí.

MiniMax M2.5

MiniMax (China)

El modelo más barato decente para copy en español productivizado.

// Términos relacionados

Sigue tirando del hilo

LLM

Un LLM (Large Language Model) es un modelo de inteligencia artificial entrenado sobre cantidades enormes de texto para predecir la siguiente palabra y, con eso, generar lenguaje, razonar, escribir código y seguir instrucciones.

CTX

Context window

El context window es la cantidad máxima de tokens (entrada + salida) que un LLM puede manejar en una sola conversación. Funciona como su memoria de trabajo: lo que cabe ahí, el modelo lo "ve"; lo que se sale, lo olvida.

API

Una API (Application Programming Interface) es la puerta de entrada que expone un servicio para que otros programas la usen. En el contexto IA, "consumir la API de Claude" significa enviar peticiones HTTP autenticadas a Anthropic y recibir respuestas del modelo, en vez de usar la web de chat.

¿Cómo aplica
esto a tu negocio?

Las definiciones son el primer paso. Convertir el concepto en operación 24/7 dentro de tu empresa es el siguiente. Hablemos en una Contact Call de 30 minutos sin compromiso.

Reservar Contact Call → ← Volver al glosario