◆ Técnicas

RAG

También conocido como: Retrieval-Augmented Generation · Generación Aumentada por Recuperación

RAG (Retrieval-Augmented Generation) es la técnica de darle a un LLM, antes de responder, los documentos exactos que necesita. El modelo deja de tirar de memoria y cita fuentes reales — más preciso, más barato y siempre actualizado.

← Todos los términos Aplicar a mi caso →

// Definición extendida

Un RAG tiene tres pasos. Primero, los documentos del cliente (manuales, fichas, base de conocimiento) se cortan en trozos y se convierten en embeddings — vectores numéricos que capturan su significado — y se guardan en un vector database. Segundo, cuando llega una pregunta, se convierte también a vector y se buscan los trozos más parecidos. Tercero, esos trozos se inyectan en el prompt del LLM junto con la pregunta, y el modelo responde solo con esa información. RAG resuelve tres problemas a la vez: alucinaciones (el modelo cita lo que tiene delante en lugar de inventar), ventana de contexto (no necesitas pegar 500 páginas, solo recuperas las 3 relevantes) y actualización (cuando cambia la información, actualizas el índice, no el modelo). Por eso es la arquitectura por defecto cuando un cliente quiere "un ChatGPT de mi empresa". Lo difícil de un RAG no es montarlo — lo difícil es que recupere bien. La calidad del corte (chunking), la elección del modelo de embeddings, el tamaño de los trozos, los metadatos, los filtros y el re-ranking deciden si responde con utilidad o con basura. Un RAG mal montado da respuestas peores que el LLM solo. Por eso es trabajo de consultor, no de plug-and-play.

// Ejemplo en StratoAI

Cómo lo usamos en producción

El blog del grupo (chefbusiness.blog, blog.aichef.pro, enblog.aichef.pro) tiene >300 posts indexados en Supabase con embeddings. Cuando se publica un post nuevo, bridge.py recupera 3-5 posts relacionados y los pasa al modelo para que el internal linking sea coherente con la red existente, no inventado. Es la diferencia entre "5 enlaces inventados que dan 404" y "5 enlaces reales que mantienen el cluster SEO".

// Cuándo importa

Para qué te importa esto

Cuando el cliente quiere un asistente IA que responda con su propia documentación
Cuando hay normativa o información que cambia (precios, catálogos, leyes) y un fine-tuning quedaría desfasado
Cuando el coste del context window se dispara — RAG suele ser 10-20x más barato
Cuando necesitas trazabilidad: saber qué documento exacto generó la respuesta

// Herramientas del directorio

Donde aplica este término

SUP

Supabase

Supabase Inc.

Postgres con superpoderes · backend de MicroSaaS sin escribir backend.

Claude

Anthropic

El modelo que razona en serio. La columna vertebral del taller.

Gemini

Google DeepMind

El motor de imagen y análisis barato del stack — Nano Banana 2 incluido.

OAI

OpenAI

El otro grande. GPT-5 + GPT Image + Sora viven aquí.

// Términos relacionados

Sigue tirando del hilo

EMB

Embeddings

Un embedding es la representación numérica de un texto (o imagen, o audio) en forma de vector. Convierte significado en coordenadas: dos textos parecidos en sentido quedan cerca en el espacio vectorial, aunque usen palabras distintas.

VDB

Vector database

Una vector database es una base de datos optimizada para guardar embeddings y buscar el más parecido a una consulta. Es la pieza que convierte "millones de documentos" en "los 5 fragmentos relevantes a esta pregunta" en milisegundos.

LLM

Un LLM (Large Language Model) es un modelo de inteligencia artificial entrenado sobre cantidades enormes de texto para predecir la siguiente palabra y, con eso, generar lenguaje, razonar, escribir código y seguir instrucciones.

CTX

Context window

El context window es la cantidad máxima de tokens (entrada + salida) que un LLM puede manejar en una sola conversación. Funciona como su memoria de trabajo: lo que cabe ahí, el modelo lo "ve"; lo que se sale, lo olvida.

HAL

Alucinación

Hallucination

Una alucinación es una respuesta del LLM que suena plausible pero es falsa o inventada. No es un bug: es una propiedad estructural del modelo, que produce el texto más probable según su entrenamiento, no la respuesta verdadera.

¿Cómo aplica
esto a tu negocio?

Las definiciones son el primer paso. Convertir el concepto en operación 24/7 dentro de tu empresa es el siguiente. Hablemos en una Contact Call de 30 minutos sin compromiso.

Reservar Contact Call → ← Volver al glosario

RAG