◆ Técnicas

RAG

También conocido como: Retrieval-Augmented Generation · Generación Aumentada por Recuperación
RAG (Retrieval-Augmented Generation) es la técnica de darle a un LLM, antes de responder, los documentos exactos que necesita. El modelo deja de tirar de memoria y cita fuentes reales — más preciso, más barato y siempre actualizado.
// Definición extendida
Un RAG tiene tres pasos. Primero, los documentos del cliente (manuales, fichas, base de conocimiento) se cortan en trozos y se convierten en embeddings — vectores numéricos que capturan su significado — y se guardan en un vector database. Segundo, cuando llega una pregunta, se convierte también a vector y se buscan los trozos más parecidos. Tercero, esos trozos se inyectan en el prompt del LLM junto con la pregunta, y el modelo responde solo con esa información. RAG resuelve tres problemas a la vez: alucinaciones (el modelo cita lo que tiene delante en lugar de inventar), ventana de contexto (no necesitas pegar 500 páginas, solo recuperas las 3 relevantes) y actualización (cuando cambia la información, actualizas el índice, no el modelo). Por eso es la arquitectura por defecto cuando un cliente quiere "un ChatGPT de mi empresa". Lo difícil de un RAG no es montarlo — lo difícil es que recupere bien. La calidad del corte (chunking), la elección del modelo de embeddings, el tamaño de los trozos, los metadatos, los filtros y el re-ranking deciden si responde con utilidad o con basura. Un RAG mal montado da respuestas peores que el LLM solo. Por eso es trabajo de consultor, no de plug-and-play.
// Ejemplo en StratoAI

Cómo lo usamos en producción

El blog del grupo (chefbusiness.blog, blog.aichef.pro, enblog.aichef.pro) tiene >300 posts indexados en Supabase con embeddings. Cuando se publica un post nuevo, bridge.py recupera 3-5 posts relacionados y los pasa al modelo para que el internal linking sea coherente con la red existente, no inventado. Es la diferencia entre "5 enlaces inventados que dan 404" y "5 enlaces reales que mantienen el cluster SEO".
// Cuándo importa

Para qué te importa esto

  • Cuando el cliente quiere un asistente IA que responda con su propia documentación
  • Cuando hay normativa o información que cambia (precios, catálogos, leyes) y un fine-tuning quedaría desfasado
  • Cuando el coste del context window se dispara — RAG suele ser 10-20x más barato
  • Cuando necesitas trazabilidad: saber qué documento exacto generó la respuesta

¿Cómo aplica
esto a tu negocio?

Las definiciones son el primer paso. Convertir el concepto en operación 24/7 dentro de tu empresa es el siguiente. Hablemos en una Contact Call de 30 minutos sin compromiso.

// Stack frontera

Modelos que evaluamos · proveedores que operamos

Stack frontera + open-weight · benchmark continuo · sin sesgo de vendor

¿Hablamos? Respondo personalmente John Guerrero · fundador StratoAI