◆ Fundamentos LLM

Context window

También conocido como: Ventana de contexto · Context length · Memoria de contexto

El context window es la cantidad máxima de tokens (entrada + salida) que un LLM puede manejar en una sola conversación. Funciona como su memoria de trabajo: lo que cabe ahí, el modelo lo "ve"; lo que se sale, lo olvida.

← Todos los términos Aplicar a mi caso →

// Definición extendida

Cada LLM tiene un context window fijo. Si lo superas, el modelo trunca, falla o pierde información del principio. Tamaños frontera 2026: Claude Opus 4.7 (1M), Claude Sonnet 4.6 (200K), Gemini 2.5 Pro (2M), GPT-5.4 (400K), Llama 4 (10M). Más context window no siempre es mejor: a mayor ventana, más coste por llamada y, a partir de cierto tamaño, peor "atención" sobre el contenido relevante (efecto needle in a haystack). El context window incluye todo: system prompt, historial de la conversación, documentos pegados, tool calls y la respuesta que el modelo va a generar. Por eso una ventana de 200K tokens no significa "puedo pegar un libro de 200K"; significa "todo lo que enviamos + lo que el modelo responde tiene que caber en 200K". Cuando un caso necesita más memoria de la que cabe en el context window, la solución no es comprar un modelo más grande sino usar RAG (Retrieval-Augmented Generation): guardar los documentos en un vector database y recuperar solo las partes relevantes en cada llamada. RAG es más barato, más rápido y suele dar mejor resultado que meter todo en el prompt.

// Ejemplo en StratoAI

Cómo lo usamos en producción

El plan Max 20x de Claude Code usa Opus 4.7 con 1M context, lo que permite cargar repos enteros del grupo (chefbusiness-astro, hosply, gastroseo) durante una sesión agéntica de horas sin perder hilo. Para tareas de soporte cliente con histórico largo (>200K tokens), saltamos a RAG con embeddings + vector DB en lugar de seguir alargando la ventana, porque sale 10x más barato.

// Cuándo importa

Para qué te importa esto

Cuando una conversación larga empieza a "olvidar" lo que se dijo al principio
Cuando vas a cargar documentos largos (contratos, reportes) en el prompt
Cuando comparas modelos por tamaño de ventana — a veces lo barato + RAG gana
Cuando un agente largo (varias horas) empieza a degradar — probablemente está saturando el context

// Herramientas del directorio

Donde aplica este término

Claude

Anthropic

El modelo que razona en serio. La columna vertebral del taller.

Gemini

Google DeepMind

El motor de imagen y análisis barato del stack — Nano Banana 2 incluido.

Claude Code

Anthropic

El cerebro del taller. Si se cae, el día se cae.

// Términos relacionados

Sigue tirando del hilo

LLM

Un LLM (Large Language Model) es un modelo de inteligencia artificial entrenado sobre cantidades enormes de texto para predecir la siguiente palabra y, con eso, generar lenguaje, razonar, escribir código y seguir instrucciones.

TKN

Token

Un token es la unidad mínima de texto que procesa un LLM: aproximadamente una sílaba o un trozo de palabra. El precio por uso, la velocidad y el límite de memoria del modelo se miden todos en tokens, no en palabras ni en caracteres.

RAG

RAG (Retrieval-Augmented Generation) es la técnica de darle a un LLM, antes de responder, los documentos exactos que necesita. El modelo deja de tirar de memoria y cita fuentes reales — más preciso, más barato y siempre actualizado.

VDB

Vector database

Una vector database es una base de datos optimizada para guardar embeddings y buscar el más parecido a una consulta. Es la pieza que convierte "millones de documentos" en "los 5 fragmentos relevantes a esta pregunta" en milisegundos.

¿Cómo aplica
esto a tu negocio?

Las definiciones son el primer paso. Convertir el concepto en operación 24/7 dentro de tu empresa es el siguiente. Hablemos en una Contact Call de 30 minutos sin compromiso.

Reservar Contact Call → ← Volver al glosario