Por qué un LLM chino entra en el directorio
El stack del grupo se construye sobre la regla de mejor herramienta para el trabajo, no mejor marca. Kimi K2 entra porque cubre un hueco real: razonamiento agéntico de calidad alta entre el suelo de MiniMax y el techo de Claude Sonnet, a un precio que se parece más al primero que al segundo.
Moonshot AI es uno de los pocos laboratorios chinos con tracción seria en 2026. Sus releases open-weight permiten a equipos con infra propia ejecutar el modelo en local sin depender de la API. Para el grupo, el valor inmediato es vía API (Moonshot directa o OpenRouter), pero la opción de runtime local existe si en algún caso de cliente compliance lo exigiera.
◆ Verdict de operador. Kimi K2.6 es uso-en-producción del grupo como tercer router en bridge.py. El caso operativo: tareas agénticas con tool use donde MiniMax se queda corto y Sonnet rompe la economía. El corte exacto vs MiniMax/Sonnet/Gemini Flash se afina en cada flow y se documenta en CLAUDE.md global. Pieza estable del stack chino-frontera.
Para qué sirve y para qué no
Para qué SÍ
- Tareas agénticas con tool use intermedio. Donde el modelo tiene que decidir qué herramienta llamar, con qué argumentos y cómo combinar resultados. Kimi K2 hace esto razonablemente bien al precio chino.
- Razonamiento de código intermedio. Funciones aisladas, refactors locales, debugs de scripts pequeños/medios. No juega en la liga de Opus para refactors masivos pero cubre el 70% de casos diarios.
- Análisis de documentos largos a precio bajo. Context window 128k-200k según versión, suficiente para parsear propuestas, reports o briefings sin partir el input.
- Reducir dependencia USA. Para clientes con políticas internas que penalizan proveedores estadounidenses, Kimi es uno de los pocos no-USA con calidad razonable en 2026.
- Open-weight cuando importa. La opción de descargar el modelo y ejecutarlo en infra propia es un seguro útil aunque no se active hoy.
Para qué NO
- Copy en español castellano con matiz cultural. Sigue por debajo de Claude. Para España, MiniMax M2.5 produce castellano más decente en costes parecidos.
- Compliance estricto que vete origen chino. Sectores regulados europeos, defensa, sanidad pública: muchas veces el origen Moonshot es bloqueante directo.
- Razonamiento extremo. Para el 5% de casos donde solo Opus 4.7 cierra (refactors masivos, arquitectura, análisis sobre 1M tokens), Kimi no es alternativa.
- SLA enterprise europeo. No hay contrato directo con presencia comercial fuerte en UE; vía OpenRouter pierdes control de SLA.
Encaje en stack StratoAI
| Línea StratoAI | Cómo encaja Kimi K2 |
|---|---|
| Signals | Síntesis de corpus largo donde Gemini Flash no llega en razonamiento y Claude sería caro a escala. |
| Automations | Workflows n8n con tool use intermedio — el modelo decide qué nodo llamar a continuación cuando la lógica no es trivial. |
| MicroSaaS | Agentes embebidos en producto cliente donde el coste por interacción tiene que ser bajo y el razonamiento medio-alto. |
No entra (todavía) en Consultor IA ni en Agentes IA flagship porque para esos casos Claude sigue siendo la decisión correcta.
Pricing real (2026-05)
- Vía Moonshot directa · ~$0.15/M tokens input · ~$2.50/M output (varía por versión Kimi K2 / K2.6 según fecha). Free tier limitado para PoC.
- Vía OpenRouter · markup de ~5-10% sobre el precio de Moonshot, a cambio de pagar con un solo balance + sin contrato directo China.
- Open-weight self-hosted · cero coste por inferencia asumiendo infra propia (típicamente vLLM en GPU A100/H100). Coste real entonces es de hardware + DevOps.
Comparativa de bolsillo: una tarea media de razonamiento agéntico con tool use que en Sonnet costaría $0.15-0.30 baja a $0.02-0.05 en Kimi. La diferencia se nota cuando ese mismo flow se ejecuta 10.000 veces al mes en pipelines de cliente.
Alternativas reales
| Alternativa | Cuándo elegirla en lugar de Kimi K2 |
|---|---|
| Claude Sonnet 4.6 | Razonamiento crítico, copy en español castellano, casos donde el matiz importa más que el coste. |
| MiniMax M2.5 | Volumen masivo de copy en español decente. Más barato pero peor en tool use y razonamiento. |
| Gemini Flash 2.5 | Análisis denso de documentos genéricos. Más barato y con Files API multimodal. |
| DeepSeek V4 / Qwen 3 | Otros modelos chinos open-weight con perfiles parecidos. Pendientes de evaluación propia para comparar honestamente. |
Casos de uso reales en ChefBusiness Group + StratoAI
- Tercer router en
bridge.py. Tareas agénticas con tool use donde MiniMax produce loops o llama herramientas mal y Sonnet sería caro de más. Kimi K2.6 cubre el hueco con métricas claras de corte (calidad de tool call · latencia · coste por flow). - Razonamiento sobre corpus largo en pipelines del grupo. Análisis de documentos donde Gemini Flash llega en context pero no en razonamiento, y Claude rompería la economía si se ejecuta a escala. Kimi entra cuando el flow se repite muchas veces al mes.
- Comparativas internas continuas. Para encontrar el corte óptimo entre Kimi/Sonnet/Gemini Flash en flujos productivos repetitivos, se mantienen benchmarks que afinan el routing en
bridge.py.
◇ Regla de uso operativo. Kimi K2.6 es uso-en-producción, no «evaluación». La decisión de cuándo va Kimi vs MiniMax vs Sonnet vs Gemini Flash se documenta en CLAUDE.md por tarea concreta, no se elige a ojo. La economía del stack se mantiene mientras se respete ese routing.