NIVEL 4 — World models (curso completo)

La frontera-stretch · Índice y guía · Checkpoint C4

Quinto nivel hoja por hoja. Es la frontera: máxima diferenciación y máxima varianza de ROI. Aquí "percentil top" significa reproducir resultados de papers recientes en tu 5090 y entender las tres familias de world models. Entra con C2 cerrado (es lo último que separa "élite" de "frontera"; no lo abras a costa del spine).

Qué es un world model (en una frase)

Un modelo que aprende la dinámica del mundo —cómo evoluciona un estado dado lo que ocurre o lo que un agente hace— para entender, predecir y planificar. Es el sustrato de la inteligencia que va más allá de "predecir el siguiente token de texto".

Qué vas a saber hacer al terminar

Ubicar cualquier enfoque de world model en una de tres familias y saber qué cabe en 32 GB.
Usar V-JEPA 2 y entrenar un attentive probe que bata a un baseline supervisado en una tarea downstream.
Entrenar DIAMOND (diffusion world model) en Atari y reproducir su Human-Normalized Score.
Entender model-based RL con DreamerV3 (planificar "soñando").
Correr e iterar mundos interactivos generativos (Oasis, Cosmos).

Prerrequisitos

C2 cerrado. Difusión (N3·C) muy recomendable para DIAMOND/Cosmos. RL (N2·L6) para DreamerV3.

Mapa de lecciones

Documento	Lección	Checkpoint
`N4_L1_panorama_world_models.md`	1. Las tres familias + qué cabe en 32 GB	—
`N4_L2_vjepa2.md`	2. V-JEPA 2: representaciones predictivas + probe	C4(a)
`N4_L3_diamond_dreamer.md`	3. DIAMOND (diffusion WM) + DreamerV3 (MBRL)	C4(b)
`N4_L4_oasis_cosmos.md`	4. Mundos interactivos: Oasis y Cosmos	— (stretch)

Checkpoint del nivel

C4(a): un attentive probe sobre features congeladas de V-JEPA 2 bate a un baseline supervisado en una tarea downstream propia.
C4(b): DIAMOND iguala el HNS del paper en al menos un juego de Atari 100k.

Caveat de compute (honesto)

Mucho de este nivel cabe en la 5090: V-JEPA 2 inferencia + probe, DIAMOND en Atari (~12 GB, días por juego), Oasis-500M, Cosmos 0.6B/2B. El pretraining de V-JEPA 2 o Cosmos grandes y el RL multi-juego a escala van a cloud (B200 spot). El nivel está diseñado para que reproduzcas resultados en local; escala a cloud solo lo que no quepa.

Licencias (audita antes de derivados comerciales)

V-JEPA 2: licencia FAIR research. Cosmos: NVIDIA Open Model License (no Apache puro). Oasis: revisa términos. DIAMOND/DreamerV3: código de investigación. Para uso comercial, lee cada licencia.