Saltar al contenido

RAG vs. fine-tuning: cuándo conviene cada uno

Cuatro preguntas que respondemos antes de elegir entre RAG, fine-tuning o ambos.

La confusión más frecuente que escuchamos en sesiones técnicas es ésta: “¿lo armamos con RAG o con fine-tuning?”.

La respuesta corta es depende, y depende de cuatro cosas concretas.

1. ¿El conocimiento cambia seguido?

Si tus documentos, precios o políticas se actualizan semanalmente, RAG. Un fine-tuning te fuerza a re-entrenar cada vez que cambia el corpus, y eso no escala.

Si tu conocimiento es estable y específico (vocabulario interno, tono de marca, taxonomías que no cambian), fine-tuning suma valor real.

2. ¿El problema es de conocimiento o de comportamiento?

RAG mete información en el contexto del modelo. Sirve cuando el problema es “el modelo no sabe X”.

Fine-tuning ajusta cómo el modelo responde. Sirve cuando el problema es “el modelo responde mal en este formato / tono / estilo de razonamiento”.

Si dudas, probablemente sea RAG primero. Más rápido de validar, más fácil de revertir.

3. ¿Cuánta privacidad pesa?

Para fine-tuning con modelos open-source on-prem: tu corpus se queda en casa. Para fine-tuning con providers (OpenAI, Anthropic): el corpus pasa por ellos, aunque haya opt-out de training.

RAG en modelos on-prem también mantiene los datos puertas adentro. RAG con providers externos expone el contexto en cada inferencia — manejable con PII masking, pero hay que decidirlo conscientemente.

4. ¿Cuál es el presupuesto y la urgencia?

DecisiónTiempo a producciónCosto recurrente
Solo prompts + RAGSemanasBajo
Fine-tuning corto + RAGMesMedio
Fine-tuning extenso + RAGMes-trimestreAlto

En la mayoría de proyectos B2B que vemos en LATAM, el sweet spot está en RAG bien hecho primero. El fine-tuning entra cuando el vocabulario interno o el formato de salida son inamovibles y el RAG no alcanza para tunear ese eje.

Lo que solemos hacer

  1. Empezamos con RAG sobre datos reales y prompts iterados.
  2. Medimos calidad con un conjunto curado de 50-200 ejemplos.
  3. Si el techo de calidad no alcanza, evaluamos fine-tuning corto.
  4. Reservamos fine-tuning largo para problemas con vocabulario muy especializado.

Spoiler: la mayoría termina en el paso 1 o 2.