GRATÍCULAinstrumento de maestría
BancoRTX 5090 · GB202
Rev2026.06
Entrar
N2 · Post-training + RL/L0

NIVEL 2 — Post-training + RL para agentes ★ SPINE PRINCIPAL ★

Índice y guía del nivel · Checkpoints C2a y C2b

Tercer nivel desarrollado hoja por hoja, autónomo y sin condicionamiento a proyectos. Es el corazón del curso: aquí debes llegar a Nivel 4 (innovador) de la rúbrica. Asume C0 y C1 cerrados (sabes servir; ahora aprendes a crear lo que sirves). En el Nivel 1 serviste adaptadores LoRA; aquí los entrenarás, y cerrarás el círculo entrenar↔servir.


La receta que estructura todo el nivel

Modelo base preentrenado
   │  (SFT)            → enseña FORMATO y comportamiento base con ejemplos
   ▼
Modelo instruido
   │  (DPO/KTO/SimPO)  → alinea con PREFERENCIAS sin reward model explícito
   ▼
Modelo alineado
   │  (GRPO + RLVR)    → optimiza contra RECOMPENSAS VERIFICABLES; emerge el razonamiento
   ▼
Modelo razonador / agente

PPO clásico aparece solo para entender de dónde viene GRPO. La frontera 2026 es GRPO/DAPO con RLVR, la receta de DeepSeek-R1.


Qué vas a saber hacer al terminar

  1. Elegir entre full / LoRA / QLoRA / DoRA con argumentos numéricos propios.
  2. Construir datasets de SFT y de preferencias correctos (formato, máscaras, packing).
  3. Entrenar DPO/KTO y entender el "reward implícito".
  4. Entrenar un reward model y saber cuándo lo necesitas vs RLVR.
  5. Derivar el objetivo de GRPO desde policy gradient/PPO y explicar por qué no necesita crítico.
  6. Reproducir la emergencia de razonamiento (el "aha moment") con GRPO en tu 5090.
  7. Entrenar un agente con recompensas verificables que bate a un baseline SFT en un benchmark.
  8. Evaluar con rigor (BFCL, detección de reward hacking, contaminación).

Prerrequisitos

  • C0 y C1 cerrados. Lente roofline y presupuesto VRAM (N0) frescos; sabes servir con vLLM (N1).
  • Backprop y gradiente (si flojean, repasa N5·L1 / nn-zero-to-hero antes).

Mapa de lecciones

DocumentoLecciónCheckpoint
N2_L1_panorama_posttraining.md1. Mapa del post-training: ¿qué etapa para qué?
N2_L2_peft.md2. PEFT: LoRA/QLoRA/DoRA + experimento controladoC2a
N2_L3_datos_y_sft.md3. Datos y SFT (formatos, máscaras, packing)
N2_L4_preferencias_dpo_kto.md4. Preference optimization: DPO, SimPO, KTO
N2_L5_reward_modeling.md5. Reward modeling y cuándo lo necesitas
N2_L6_de_ppo_a_grpo.md6. Teoría: de policy gradient a GRPO + RLVR
N2_L7_grpo_hands_on.md7. GRPO hands-on: reproducir el "aha moment"C2b(a)
N2_L8_rl_agentico_y_eval.md8. RL agéntico verificable + evaluación rigurosaC2b(b) → cierra C2

Checkpoints del nivel

  • C2a: tabla controlada full/LoRA/QLoRA/DoRA (mismo modelo y dataset) con score+VRAM+wall-clock y explicación del tradeoff con TUS números.
  • C2b(a): reproduces el "aha moment" (emergencia de razonamiento) con GRPO en un modelo pequeño.
  • C2b(b): un agente con verifiable rewards bate a su baseline SFT por margen medible en BFCL v4 / tu benchmark verificable.

Reto integrador del nivel (genérico, reutilizable)

Toma un modelo pequeño (Qwen3-4B), llévalo por toda la cadena: SFT en una tarea verificable (p.ej. texto→SQL o problemas de matemáticas), luego DPO con pares de preferencia, luego GRPO con una recompensa verificable, y compara cada etapa con eval rigurosa. Al final tienes un razonador/agente entrenado por ti de principio a fin, y los adaptadores que servirás con el gateway del Nivel 1.