NIVEL 2 — Post-training + RL para agentes ★ SPINE PRINCIPAL ★
Índice y guía del nivel · Checkpoints C2a y C2b
Tercer nivel desarrollado hoja por hoja, autónomo y sin condicionamiento a proyectos. Es el corazón del curso: aquí debes llegar a Nivel 4 (innovador) de la rúbrica. Asume C0 y C1 cerrados (sabes servir; ahora aprendes a crear lo que sirves). En el Nivel 1 serviste adaptadores LoRA; aquí los entrenarás, y cerrarás el círculo entrenar↔servir.
La receta que estructura todo el nivel
Modelo base preentrenado
│ (SFT) → enseña FORMATO y comportamiento base con ejemplos
▼
Modelo instruido
│ (DPO/KTO/SimPO) → alinea con PREFERENCIAS sin reward model explícito
▼
Modelo alineado
│ (GRPO + RLVR) → optimiza contra RECOMPENSAS VERIFICABLES; emerge el razonamiento
▼
Modelo razonador / agente
PPO clásico aparece solo para entender de dónde viene GRPO. La frontera 2026 es GRPO/DAPO con RLVR, la receta de DeepSeek-R1.
Qué vas a saber hacer al terminar
- Elegir entre full / LoRA / QLoRA / DoRA con argumentos numéricos propios.
- Construir datasets de SFT y de preferencias correctos (formato, máscaras, packing).
- Entrenar DPO/KTO y entender el "reward implícito".
- Entrenar un reward model y saber cuándo lo necesitas vs RLVR.
- Derivar el objetivo de GRPO desde policy gradient/PPO y explicar por qué no necesita crítico.
- Reproducir la emergencia de razonamiento (el "aha moment") con GRPO en tu 5090.
- Entrenar un agente con recompensas verificables que bate a un baseline SFT en un benchmark.
- Evaluar con rigor (BFCL, detección de reward hacking, contaminación).
Prerrequisitos
- C0 y C1 cerrados. Lente roofline y presupuesto VRAM (N0) frescos; sabes servir con vLLM (N1).
- Backprop y gradiente (si flojean, repasa N5·L1 / nn-zero-to-hero antes).
Mapa de lecciones
| Documento | Lección | Checkpoint |
|---|---|---|
N2_L1_panorama_posttraining.md | 1. Mapa del post-training: ¿qué etapa para qué? | — |
N2_L2_peft.md | 2. PEFT: LoRA/QLoRA/DoRA + experimento controlado | C2a |
N2_L3_datos_y_sft.md | 3. Datos y SFT (formatos, máscaras, packing) | — |
N2_L4_preferencias_dpo_kto.md | 4. Preference optimization: DPO, SimPO, KTO | — |
N2_L5_reward_modeling.md | 5. Reward modeling y cuándo lo necesitas | — |
N2_L6_de_ppo_a_grpo.md | 6. Teoría: de policy gradient a GRPO + RLVR | — |
N2_L7_grpo_hands_on.md | 7. GRPO hands-on: reproducir el "aha moment" | C2b(a) |
N2_L8_rl_agentico_y_eval.md | 8. RL agéntico verificable + evaluación rigurosa | C2b(b) → cierra C2 |
Checkpoints del nivel
- C2a: tabla controlada full/LoRA/QLoRA/DoRA (mismo modelo y dataset) con score+VRAM+wall-clock y explicación del tradeoff con TUS números.
- C2b(a): reproduces el "aha moment" (emergencia de razonamiento) con GRPO en un modelo pequeño.
- C2b(b): un agente con verifiable rewards bate a su baseline SFT por margen medible en BFCL v4 / tu benchmark verificable.
Reto integrador del nivel (genérico, reutilizable)
Toma un modelo pequeño (Qwen3-4B), llévalo por toda la cadena: SFT en una tarea verificable (p.ej. texto→SQL o problemas de matemáticas), luego DPO con pares de preferencia, luego GRPO con una recompensa verificable, y compara cada etapa con eval rigurosa. Al final tienes un razonador/agente entrenado por ti de principio a fin, y los adaptadores que servirás con el gateway del Nivel 1.