Fine-tuning vs RAG: cuándo entrenar el modelo y cuándo buscar contexto
Tienes datos propios y quieres que un LLM los use bien. La pregunta inevitable: ¿hago RAG o hago fine-tuning?
La respuesta corta es que resuelven problemas distintos. La respuesta larga es este artículo.
La confusión habitual
Muchos equipos asumen que fine-tuning es “enseñarle cosas nuevas al modelo”. No exactamente. Y muchos otros creen que RAG sirve para todo. Tampoco.
- RAG cambia qué información recibe el modelo en cada consulta.
- Fine-tuning cambia cómo se comporta el modelo ante cualquier consulta.
Son herramientas complementarias, no alternativas directas.
RAG en 30 segundos
Antes de generar una respuesta, buscas en tu base documental los fragmentos más relevantes y los inyectas en el prompt. El modelo no cambia: recibe mejor contexto.
- No requiere GPU ni entrenamiento.
- Los datos se actualizan reindexando documentos, no reentrenando.
- Puedes citar fuentes concretas.
Si quieres profundizar, ya lo cubrimos en detalle en el artículo de RAG explicado para desarrolladores.
Fine-tuning en 30 segundos
Tomas un modelo base y lo entrenas con ejemplos adicionales (pares de entrada/salida) para que adopte un comportamiento, estilo o conocimiento específico. El resultado es un modelo modificado que responde diferente sin necesidad de inyectar contexto cada vez.
- Requiere dataset curado y proceso de entrenamiento.
- El modelo resultante se despliega como uno nuevo.
- No tiene forma nativa de citar fuentes porque el conocimiento queda “horneado” en los pesos.
Qué resuelve cada uno
RAG resuelve: “el modelo no tiene mis datos”
Escenarios ideales:
- Base de conocimiento que cambia frecuentemente (tickets, políticas, documentación).
- Necesidad de respuestas trazables con fuentes.
- Datos sensibles que no quieres enviar a un proceso de entrenamiento.
- Múltiples dominios o clientes con información distinta.
Fine-tuning resuelve: “el modelo no se comporta como necesito”
Escenarios ideales:
- Adoptar un tono o formato de respuesta muy específico (legal, médico, marca propia).
- Ejecutar tareas estructuradas de forma consistente (clasificación, extracción de campos, transformación de formato).
- Reducir latencia eliminando prompts largos con instrucciones repetitivas.
- Mejorar rendimiento en un dominio donde el modelo base falla sistemáticamente.
Comparativa directa
| Criterio | RAG | Fine-tuning |
|---|---|---|
| Datos nuevos/actualizados | Reindexar documentos (minutos) | Reentrenar modelo (horas/días) |
| Coste inicial | Bajo (vector DB + embeddings) | Alto (GPU, dataset, iteración) |
| Coste por consulta | Mayor (retrieval + prompt largo) | Menor (prompt corto, sin retrieval) |
| Trazabilidad | Sí (fuentes citables) | No (conocimiento en pesos) |
| Alucinación | Controlable con abstención | Más difícil de limitar |
| Personalización de estilo | Limitada al prompt | Profunda |
| Mantenimiento | Pipeline de ingesta | Re-entrenar con datos nuevos |
| Datos sensibles | Se quedan en tu infra | Pasan por proceso de training |
Ejemplo concreto: soporte técnico interno
Con RAG: el usuario pregunta “¿Cuál es el proceso para solicitar VPN?”, el sistema busca el documento de IT actualizado y responde con la fuente.
Con fine-tuning: entrenas al modelo para que siempre responda en el formato del equipo de soporte, con disclaimers legales y escalamiento al ticket correcto. Pero si el proceso de VPN cambia, necesitas reentrenar.
Lo ideal: RAG para el contenido + fine-tuning para el formato y comportamiento.
Cuándo combinarlos
La combinación es más común de lo que parece:
- Fine-tuning para que el modelo entienda tu formato de salida, tu tono y tus reglas de negocio.
- RAG para alimentarlo con los datos correctos en cada consulta.
Usuario pregunta → Retrieval (RAG) → Prompt con contexto → Modelo fine-tuneado → Respuesta
Esto te da lo mejor de ambos mundos: comportamiento consistente con datos actualizados.
Árbol de decisión práctico
Hazte estas preguntas en orden:
1. ¿El problema es que el modelo no tiene cierta información? → RAG. Casi siempre.
2. ¿El problema es que el modelo no responde en el formato/tono que necesitas? → Primero intenta con prompt engineering. Si no es suficiente, fine-tuning.
3. ¿Tus datos cambian frecuentemente? → RAG. Reentrenar cada semana no es sostenible.
4. ¿Necesitas citar fuentes específicas? → RAG. Fine-tuning no ofrece trazabilidad.
5. ¿El coste por consulta es crítico y el volumen es alto? → Fine-tuning puede reducir tokens por petición al eliminar instrucciones repetitivas del prompt.
6. ¿Necesitas ambas cosas? → Combínalos. No son excluyentes.
Errores comunes
- Fine-tunear para inyectar conocimiento factual: funciona mal. El modelo memoriza parcialmente y alucina el resto. RAG es mejor para datos factuales.
- RAG como solución a un problema de formato: si el modelo responde bien el contenido pero mal la estructura, el problema no es el contexto sino el comportamiento. Fine-tuning o mejor prompt.
- Saltar directamente a fine-tuning sin probar prompt engineering: muchas veces un buen system prompt con few-shot examples resuelve el 80% del problema.
- No evaluar con métricas reales: “suena bien” no es una métrica. Mide precisión, recall, groundedness y formato.
- Ignorar el coste de mantenimiento: fine-tuning no es “entrenar y olvidar”. Los datos cambian, el modelo se desactualiza.
Coste real: lo que nadie te dice
- RAG: pagas vector DB (desde gratis con pgvector hasta servicios managed), embeddings por documento, y tokens extra por prompt (contexto inyectado). El coste escala con el volumen de consultas y el tamaño del contexto.
- Fine-tuning: pagas el entrenamiento (GPU hours), almacenamiento del modelo, y hosting si es modelo propio. Con APIs como OpenAI el coste de training es fijo, pero el modelo custom tiene precio por token más alto que el base.
Para la mayoría de equipos que empiezan: RAG es más barato y rápido de iterar.
Checklist para decidir
- Define primero el problema exacto: ¿falta información o falta comportamiento?
- Empieza con RAG + prompt engineering bien diseñado.
- Mide resultados con un dataset de evaluación real.
- Solo considera fine-tuning si prompt engineering no alcanza el umbral de calidad.
- Si combinas ambos, asegúrate de que tu pipeline de evaluación cubra las dos capas.
La mejor decisión es la que resuelve tu problema con el menor coste de mantenimiento. En la mayoría de casos prácticos, eso empieza con RAG.