Context window
Cómo lo usamos en producción
Para qué te importa esto
- Cuando una conversación larga empieza a "olvidar" lo que se dijo al principio
- Cuando vas a cargar documentos largos (contratos, reportes) en el prompt
- Cuando comparas modelos por tamaño de ventana — a veces lo barato + RAG gana
- Cuando un agente largo (varias horas) empieza a degradar — probablemente está saturando el context
Donde aplica este término
Sigue tirando del hilo
LLM
Un LLM (Large Language Model) es un modelo de inteligencia artificial entrenado sobre cantidades enormes de texto para predecir la siguiente palabra y, con eso, generar lenguaje, razonar, escribir código y seguir instrucciones.
Token
Un token es la unidad mínima de texto que procesa un LLM: aproximadamente una sílaba o un trozo de palabra. El precio por uso, la velocidad y el límite de memoria del modelo se miden todos en tokens, no en palabras ni en caracteres.
RAG
RAG (Retrieval-Augmented Generation) es la técnica de darle a un LLM, antes de responder, los documentos exactos que necesita. El modelo deja de tirar de memoria y cita fuentes reales — más preciso, más barato y siempre actualizado.
Vector database
Una vector database es una base de datos optimizada para guardar embeddings y buscar el más parecido a una consulta. Es la pieza que convierte "millones de documentos" en "los 5 fragmentos relevantes a esta pregunta" en milisegundos.
¿Cómo aplica
esto a tu negocio?
Las definiciones son el primer paso. Convertir el concepto en operación 24/7 dentro de tu empresa es el siguiente. Hablemos en una Contact Call de 30 minutos sin compromiso.