stratoai.pro // glosario // context-window
◆ Fundamentos LLM

Context window

También conocido como: Ventana de contexto · Context length · Memoria de contexto
El context window es la cantidad máxima de tokens (entrada + salida) que un LLM puede manejar en una sola conversación. Funciona como su memoria de trabajo: lo que cabe ahí, el modelo lo "ve"; lo que se sale, lo olvida.
// Definición extendida
Cada LLM tiene un context window fijo. Si lo superas, el modelo trunca, falla o pierde información del principio. Tamaños frontera 2026: Claude Opus 4.7 (1M), Claude Sonnet 4.6 (200K), Gemini 2.5 Pro (2M), GPT-5.4 (400K), Llama 4 (10M). Más context window no siempre es mejor: a mayor ventana, más coste por llamada y, a partir de cierto tamaño, peor "atención" sobre el contenido relevante (efecto needle in a haystack). El context window incluye todo: system prompt, historial de la conversación, documentos pegados, tool calls y la respuesta que el modelo va a generar. Por eso una ventana de 200K tokens no significa "puedo pegar un libro de 200K"; significa "todo lo que enviamos + lo que el modelo responde tiene que caber en 200K". Cuando un caso necesita más memoria de la que cabe en el context window, la solución no es comprar un modelo más grande sino usar RAG (Retrieval-Augmented Generation): guardar los documentos en un vector database y recuperar solo las partes relevantes en cada llamada. RAG es más barato, más rápido y suele dar mejor resultado que meter todo en el prompt.
// Ejemplo en StratoAI

Cómo lo usamos en producción

El plan Max 20x de Claude Code usa Opus 4.7 con 1M context, lo que permite cargar repos enteros del grupo (chefbusiness-astro, hosply, gastroseo) durante una sesión agéntica de horas sin perder hilo. Para tareas de soporte cliente con histórico largo (>200K tokens), saltamos a RAG con embeddings + vector DB en lugar de seguir alargando la ventana, porque sale 10x más barato.
// Cuándo importa

Para qué te importa esto

  • Cuando una conversación larga empieza a "olvidar" lo que se dijo al principio
  • Cuando vas a cargar documentos largos (contratos, reportes) en el prompt
  • Cuando comparas modelos por tamaño de ventana — a veces lo barato + RAG gana
  • Cuando un agente largo (varias horas) empieza a degradar — probablemente está saturando el context

¿Cómo aplica
esto a tu negocio?

Las definiciones son el primer paso. Convertir el concepto en operación 24/7 dentro de tu empresa es el siguiente. Hablemos en una Contact Call de 30 minutos sin compromiso.

// Stack frontera

Modelos que evaluamos · proveedores que operamos

Stack frontera + open-weight · benchmark continuo · sin sesgo de vendor

¿Hablamos? Respondo personalmente John Guerrero · fundador StratoAI