Mapa del post-training: qué etapa para qué

Objetivo de maestría

entender qué problema resuelve cada etapa (SFT, preferencias, RL) para no aplicar RL donde basta SFT, ni quedarte en SFT donde hace falta RL. La mayoría de errores caros en post-training son elegir la etapa equivocada.

1.1Pretraining vs post-training

El pretraining (Nivel 5) produce un modelo que predice el siguiente token sobre billones de tokens de internet. Sabe muchísimo pero no sabe comportarse: no sigue instrucciones, no tiene formato de chat, no rechaza lo que debe rechazar. El post-training convierte ese "cerebro" en un asistente útil. Las capacidades nuevas casi nunca aparecen en post-training (eso es pretraining); el post-training elicita y orienta lo que ya está latente.

Implicación práctica: si tu modelo "no sabe" algo de dominio, fine-tunear rara vez lo arregla — el conocimiento tiene que estar en el base o llegar por RAG (Nivel 3·D). El post-training arregla comportamiento, formato, estilo, preferencias y razonamiento, no falta de conocimiento.

1.2Las tres etapas y qué resuelve cada una

SFT (Supervised Fine-Tuning). Aprendizaje supervisado clásico: pares (prompt, respuesta deseada). Enseña formato y comportamiento por imitación. Es barato, estable y resuelve el 80% de los casos prácticos. Limitación: solo puede imitar lo que hay en los datos; no sabe que una respuesta es mejor que otra, solo que una es "la correcta".

Preference optimization (DPO/KTO/SimPO). Datos de comparación: para un prompt, una respuesta "elegida" (chosen) y una "rechazada" (rejected). Enseña a preferir unas salidas sobre otras. Resuelve lo que SFT no puede: matices de calidad, tono, seguridad, "esto está bien pero esto está mejor". No necesita un reward model explícito (lo veremos en L4).

RL (GRPO/RLVR). Aprendizaje por recompensa: el modelo genera, una señal de recompensa puntúa, y se refuerza lo que puntúa alto. Resuelve lo que ni SFT ni preferencias pueden: optimizar contra un objetivo verificable (¿el código pasa los tests? ¿la respuesta es correcta? ¿la tool-call es válida?) y descubrir estrategias nuevas no presentes en los datos (el razonamiento largo de R1 emergió así, no se imitó).

1.3El árbol de decisión (cuándo usar qué)

¿Tu problema es...
├── falta de formato / no sigue instrucciones?          → SFT
├── imita bien pero elige respuestas mediocres?         → SFT + DPO/KTO
├── hay una señal de CORRECCIÓN verificable
│   (tests, exact match, parser válido, simulador)?     → SFT + GRPO/RLVR
├── quieres que DESCUBRA estrategias nuevas
│   (razonar más, planificar, usar tools mejor)?        → GRPO/RLVR
└── falta CONOCIMIENTO de dominio?                       → NO es post-training
                                                          → RAG o continued pretraining

Errores típicos que este árbol evita:

Hacer RL para enseñar formato (carísimo; SFT lo hace en minutos).
Hacer SFT esperando que "razone mejor" (solo imitará; el razonamiento emergente necesita RL).
Fine-tunear para meter conocimiento (no funciona bien; usa RAG).

1.4El "alignment tax" y por qué importa el orden

Cada etapa puede degradar capacidades de la anterior. SFT muy agresivo puede hacer que el modelo olvide conocimiento del pretraining (catastrophic forgetting). RL mal calibrado puede colapsar la diversidad de salidas o aprender a "hackear" la recompensa (reward hacking, L7). Por eso:

Se va de menos a más invasivo: SFT → preferencias → RL.
Se mantiene una penalización KL hacia el modelo de referencia en RL (L6) para no alejarse demasiado del comportamiento base.
Para preservar razonamiento al hacer SFT sobre un reasoner, se mezclan ejemplos con y sin cadena de pensamiento (L3).

1.5Ejercicios

E1. Para cada caso, di qué etapa(s) usarías y por qué: (a) Un modelo que responde bien pero no usa el formato JSON que necesitas. (b) Un modelo que resuelve mal problemas de matemáticas aunque "sabe" la teoría. (c) Un modelo que desconoce la documentación interna de tu empresa. (d) Un asistente que es correcto pero demasiado verboso.

Solución

(a) SFT con ejemplos en el formato JSON. (b) GRPO/RLVR con recompensa verificable (¿respuesta correcta?) — el razonamiento mejora por refuerzo, no por imitación. (c) Ni SFT ni RL: RAG (o continued pretraining si es mucho conocimiento estable). (d) DPO/KTO con preferencias (conciso = chosen, verboso = rejected).

E2. ¿Por qué no se empieza directamente por RL desde el base preentrenado, sin SFT? (Pista: el base no tiene formato; la recompensa sobre salidas sin formato es ruido. Aunque R1-zero lo hizo sin SFT y funcionó, fue un caso especial con recompensa muy limpia — lo verás en L6.)

E3. Define "alignment tax" con tus palabras y da un ejemplo de cómo lo mitigarías.

1.6Referencias

HF "smol course" (post-training). InstructGPT (Ouyang et al. 2022) para el esquema SFT→RM→RL clásico. Tülu 3 (Lambert et al. 2024) para la receta moderna con RLVR.