NIVEL 4 — World models (curso completo)
La frontera-stretch · Índice y guía · Checkpoint C4
Quinto nivel hoja por hoja. Es la frontera: máxima diferenciación y máxima varianza de ROI. Aquí "percentil top" significa reproducir resultados de papers recientes en tu 5090 y entender las tres familias de world models. Entra con C2 cerrado (es lo último que separa "élite" de "frontera"; no lo abras a costa del spine).
Qué es un world model (en una frase)
Un modelo que aprende la dinámica del mundo —cómo evoluciona un estado dado lo que ocurre o lo que un agente hace— para entender, predecir y planificar. Es el sustrato de la inteligencia que va más allá de "predecir el siguiente token de texto".
Qué vas a saber hacer al terminar
- Ubicar cualquier enfoque de world model en una de tres familias y saber qué cabe en 32 GB.
- Usar V-JEPA 2 y entrenar un attentive probe que bata a un baseline supervisado en una tarea downstream.
- Entrenar DIAMOND (diffusion world model) en Atari y reproducir su Human-Normalized Score.
- Entender model-based RL con DreamerV3 (planificar "soñando").
- Correr e iterar mundos interactivos generativos (Oasis, Cosmos).
Prerrequisitos
- C2 cerrado. Difusión (N3·C) muy recomendable para DIAMOND/Cosmos. RL (N2·L6) para DreamerV3.
Mapa de lecciones
| Documento | Lección | Checkpoint |
|---|---|---|
N4_L1_panorama_world_models.md | 1. Las tres familias + qué cabe en 32 GB | — |
N4_L2_vjepa2.md | 2. V-JEPA 2: representaciones predictivas + probe | C4(a) |
N4_L3_diamond_dreamer.md | 3. DIAMOND (diffusion WM) + DreamerV3 (MBRL) | C4(b) |
N4_L4_oasis_cosmos.md | 4. Mundos interactivos: Oasis y Cosmos | — (stretch) |
Checkpoint del nivel
- C4(a): un attentive probe sobre features congeladas de V-JEPA 2 bate a un baseline supervisado en una tarea downstream propia.
- C4(b): DIAMOND iguala el HNS del paper en al menos un juego de Atari 100k.
Caveat de compute (honesto)
Mucho de este nivel cabe en la 5090: V-JEPA 2 inferencia + probe, DIAMOND en Atari (~12 GB, días por juego), Oasis-500M, Cosmos 0.6B/2B. El pretraining de V-JEPA 2 o Cosmos grandes y el RL multi-juego a escala van a cloud (B200 spot). El nivel está diseñado para que reproduzcas resultados en local; escala a cloud solo lo que no quepa.
Licencias (audita antes de derivados comerciales)
V-JEPA 2: licencia FAIR research. Cosmos: NVIDIA Open Model License (no Apache puro). Oasis: revisa términos. DIAMOND/DreamerV3: código de investigación. Para uso comercial, lee cada licencia.