NIVEL 2 — Post-training + RL para agentes ★ SPINE PRINCIPAL ★

Índice y guía del nivel · Checkpoints C2a y C2b

Tercer nivel desarrollado hoja por hoja, autónomo y sin condicionamiento a proyectos. Es el corazón del curso: aquí debes llegar a Nivel 4 (innovador) de la rúbrica. Asume C0 y C1 cerrados (sabes servir; ahora aprendes a crear lo que sirves). En el Nivel 1 serviste adaptadores LoRA; aquí los entrenarás, y cerrarás el círculo entrenar↔servir.

La receta que estructura todo el nivel

Modelo base preentrenado
   │  (SFT)            → enseña FORMATO y comportamiento base con ejemplos
   ▼
Modelo instruido
   │  (DPO/KTO/SimPO)  → alinea con PREFERENCIAS sin reward model explícito
   ▼
Modelo alineado
   │  (GRPO + RLVR)    → optimiza contra RECOMPENSAS VERIFICABLES; emerge el razonamiento
   ▼
Modelo razonador / agente

PPO clásico aparece solo para entender de dónde viene GRPO. La frontera 2026 es GRPO/DAPO con RLVR, la receta de DeepSeek-R1.

Qué vas a saber hacer al terminar

Elegir entre full / LoRA / QLoRA / DoRA con argumentos numéricos propios.
Construir datasets de SFT y de preferencias correctos (formato, máscaras, packing).
Entrenar DPO/KTO y entender el "reward implícito".
Entrenar un reward model y saber cuándo lo necesitas vs RLVR.
Derivar el objetivo de GRPO desde policy gradient/PPO y explicar por qué no necesita crítico.
Reproducir la emergencia de razonamiento (el "aha moment") con GRPO en tu 5090.
Entrenar un agente con recompensas verificables que bate a un baseline SFT en un benchmark.
Evaluar con rigor (BFCL, detección de reward hacking, contaminación).

Prerrequisitos

C0 y C1 cerrados. Lente roofline y presupuesto VRAM (N0) frescos; sabes servir con vLLM (N1).
Backprop y gradiente (si flojean, repasa N5·L1 / nn-zero-to-hero antes).

Mapa de lecciones

Documento	Lección	Checkpoint
`N2_L1_panorama_posttraining.md`	1. Mapa del post-training: ¿qué etapa para qué?	—
`N2_L2_peft.md`	2. PEFT: LoRA/QLoRA/DoRA + experimento controlado	C2a
`N2_L3_datos_y_sft.md`	3. Datos y SFT (formatos, máscaras, packing)	—
`N2_L4_preferencias_dpo_kto.md`	4. Preference optimization: DPO, SimPO, KTO	—
`N2_L5_reward_modeling.md`	5. Reward modeling y cuándo lo necesitas	—
`N2_L6_de_ppo_a_grpo.md`	6. Teoría: de policy gradient a GRPO + RLVR	—
`N2_L7_grpo_hands_on.md`	7. GRPO hands-on: reproducir el "aha moment"	C2b(a)
`N2_L8_rl_agentico_y_eval.md`	8. RL agéntico verificable + evaluación rigurosa	C2b(b) → cierra C2

Checkpoints del nivel

C2a: tabla controlada full/LoRA/QLoRA/DoRA (mismo modelo y dataset) con score+VRAM+wall-clock y explicación del tradeoff con TUS números.
C2b(a): reproduces el "aha moment" (emergencia de razonamiento) con GRPO en un modelo pequeño.
C2b(b): un agente con verifiable rewards bate a su baseline SFT por margen medible en BFCL v4 / tu benchmark verificable.

Reto integrador del nivel (genérico, reutilizable)

Toma un modelo pequeño (Qwen3-4B), llévalo por toda la cadena: SFT en una tarea verificable (p.ej. texto→SQL o problemas de matemáticas), luego DPO con pares de preferencia, luego GRPO con una recompensa verificable, y compara cada etapa con eval rigurosa. Al final tienes un razonador/agente entrenado por ti de principio a fin, y los adaptadores que servirás con el gateway del Nivel 1.