Las tres familias de world models

Objetivo de maestría

tener un mapa claro del campo para ubicar cualquier paper o modelo nuevo, y saber al instante qué puedes correr en tu 5090. El campo es ruidoso y lleno de demos; este mapa te da la estructura.

1.1El encuadre: predecir la dinámica

Todos los world models comparten un objetivo: dado un estado (y opcionalmente una acción), predecir el siguiente estado. Difieren en dónde predicen y para qué:

¿Predicen en píxeles o en espacio latente?
¿Están condicionados por acción (un agente actúa) o son pasivos (observan)?
¿El fin es representación (entender), generación (simular) o control (planificar)?

Estas preguntas definen tres familias.

1.2Familia 1 — Predictivos latentes (JEPA)

Idea: aprender prediciendo en espacio latente, no reconstruyendo píxeles. Predecir cada píxel del futuro es derrochar capacidad en detalles irrelevantes (¿la textura exacta de cada hoja?); predecir en latente captura la estructura que importa.

Exponente: V-JEPA 2 (Meta, 2025). Encoder self-supervised entrenado pasivamente sobre >1M h de vídeo + 1M imágenes. Aprende representaciones que, congeladas, resuelven tareas downstream con solo un attentive probe ligero encima (SSv2: 77.3 top-1). Una segunda fase action-conditioned (V-JEPA 2-AC, 300M) entrenada con 62 h de datos de robot (Droid) permite planificar manipulación en un brazo Franka zero-shot.

Por qué importa: es la apuesta de LeCun a que la inteligencia se construye sobre modelos predictivos del mundo en latente, no sobre generación de píxeles ni sobre texto. Cabe en tu 5090 para inferencia + entrenar probes.

1.3Familia 2 — Generativos / mundos interactivos

Idea: predecir frames futuros (en píxeles o latente) condicionados a acciones → un "motor de juego neuronal" o un simulador.

Exponentes:

Oasis (Decart+Etched, 500M, pesos abiertos): Minecraft autoregresivo jugable a ~20 fps. Trivial en la 5090. Demuestra que un modelo es el motor del juego (no hay engine debajo).
NVIDIA Cosmos (cosmos-predict2): world foundation models para "Physical AI" (robótica, conducción). Variantes 0.6B/2B caben en la 5090 para inferencia.
Genie 3 (DeepMind) y Marble (World Labs / Fei-Fei Li): mundos generados navegables, cerrados → solo estudio conceptual.

Por qué importa: conecta difusión (N3·C) con simulación; es la vía hacia generación de entornos y datos sintéticos para entrenar agentes.

1.4Familia 3 — Model-based RL (world model para planificar)

Idea: un agente aprende un world model interno y planifica imaginando trayectorias dentro de él, en vez de (o además de) actuar en el mundo real. Brutalmente eficiente en muestras.

Exponentes:

DreamerV3 (Hafner et al., Nature 2025): usa un RSSM (Recurrent State-Space Model) que codifica observaciones en estados latentes y predice futuros. Primer agente que consigue diamantes en Minecraft desde cero sin demos humanas. Escala de 12M a 200M params; entrenable a escala Atari/control en una 5090.
DIAMOND (Alonso et al., NeurIPS 2024): el world model es un modelo de difusión que predice el siguiente frame (en píxeles, preservando detalle visual). Récord en Atari 100k (HNS 1.46). El world model de Atari es minúsculo (~4.4M params, ~12 GB de VRAM en training) → cabe de sobra.

Por qué importa: es la fusión directa de tu spine (RL, Nivel 2) con world models. "Soñar" para aprender es una de las ideas más potentes del campo.

1.5Qué cabe en tu 5090 (tabla operativa)

Modelo	Local en 5090	Notas
V-JEPA 2 ViT-L/ViT-g inferencia	✅	extrae embeddings; ViT-g pesa pero entra
V-JEPA 2 attentive probe (backbone congelado)	✅	solo entrenas el probe (ligero)
V-JEPA 2 pretraining	❌ cloud	escala internet
DIAMOND Atari (train)	✅	~12 GB, días por juego×seed
DIAMOND CS:GO (381M)	⚠️	inferencia sí; train pesado
DreamerV3 (12M–200M)	✅	Atari/control/Crafter
Oasis-500M	✅	inferencia tiempo real + fine-tune ligero
Cosmos-Predict2 0.6B/2B	✅ inferencia	post-train tight; grande → cloud

1.6La taxonomía funcional (para situarte en el debate)

Fei-Fei Li / World Labs proponen pensar los world models por función: percepción (¿qué hay?), predicción (¿qué pasará?), y acción/planificación (¿qué hago?). Cruza esto con las tres familias: JEPA es fuerte en percepción+predicción latente; los generativos en predicción+simulación; el MBRL en predicción+acción. No hay un "world model" único: hay enfoques optimizados para funciones distintas. Saber situar cada paper en esta rejilla es lo que demuestra que dominas el campo y no solo un repo.

1.7Ejercicios

E1. Clasifica en las tres familias: (a) un modelo que genera el siguiente frame de Doom condicionado a las teclas; (b) un encoder de vídeo congelado + probe que clasifica acciones; (c) un agente que aprende a jugar imaginando rollouts. ¿Cuál usa píxeles, cuál latente, cuál planifica?

Solución

(a) Generativo/interactivo (píxeles, condicionado a acción) — estilo Oasis/GameNGen. (b) Predictivo latente (JEPA) — representación. (c) Model-based RL (DreamerV3) — planifica soñando.

E2. ¿Por qué V-JEPA predice en latente y no en píxeles? ¿Qué problema evita?

E3. Para un robot que debe planificar manipulación con poca data de interacción, ¿qué familia y por qué? (Pista: V-JEPA 2-AC, 62 h de datos.)

1.8Referencias

V-JEPA 2 (Assran et al. 2025; ai.meta.com/blog). DIAMOND (Alonso et al., NeurIPS 2024; diamond-wm.github.io). DreamerV3 (Hafner et al., Nature 2025). Oasis (Decart/Etched). NVIDIA Cosmos. Taxonomía: World Labs / Fei-Fei Li; charlas de LeCun sobre JEPA.