Las tres familias de world models
tener un mapa claro del campo para ubicar cualquier paper o modelo nuevo, y saber al instante qué puedes correr en tu 5090. El campo es ruidoso y lleno de demos; este mapa te da la estructura.
1.1El encuadre: predecir la dinámica
Todos los world models comparten un objetivo: dado un estado (y opcionalmente una acción), predecir el siguiente estado. Difieren en dónde predicen y para qué:
- ¿Predicen en píxeles o en espacio latente?
- ¿Están condicionados por acción (un agente actúa) o son pasivos (observan)?
- ¿El fin es representación (entender), generación (simular) o control (planificar)?
Estas preguntas definen tres familias.
1.2Familia 1 — Predictivos latentes (JEPA)
Idea: aprender prediciendo en espacio latente, no reconstruyendo píxeles. Predecir cada píxel del futuro es derrochar capacidad en detalles irrelevantes (¿la textura exacta de cada hoja?); predecir en latente captura la estructura que importa.
Exponente: V-JEPA 2 (Meta, 2025). Encoder self-supervised entrenado pasivamente sobre >1M h de vídeo + 1M imágenes. Aprende representaciones que, congeladas, resuelven tareas downstream con solo un attentive probe ligero encima (SSv2: 77.3 top-1). Una segunda fase action-conditioned (V-JEPA 2-AC, 300M) entrenada con 62 h de datos de robot (Droid) permite planificar manipulación en un brazo Franka zero-shot.
Por qué importa: es la apuesta de LeCun a que la inteligencia se construye sobre modelos predictivos del mundo en latente, no sobre generación de píxeles ni sobre texto. Cabe en tu 5090 para inferencia + entrenar probes.
1.3Familia 2 — Generativos / mundos interactivos
Idea: predecir frames futuros (en píxeles o latente) condicionados a acciones → un "motor de juego neuronal" o un simulador.
Exponentes:
- Oasis (Decart+Etched, 500M, pesos abiertos): Minecraft autoregresivo jugable a ~20 fps. Trivial en la 5090. Demuestra que un modelo es el motor del juego (no hay engine debajo).
- NVIDIA Cosmos (cosmos-predict2): world foundation models para "Physical AI" (robótica, conducción). Variantes 0.6B/2B caben en la 5090 para inferencia.
- Genie 3 (DeepMind) y Marble (World Labs / Fei-Fei Li): mundos generados navegables, cerrados → solo estudio conceptual.
Por qué importa: conecta difusión (N3·C) con simulación; es la vía hacia generación de entornos y datos sintéticos para entrenar agentes.
1.4Familia 3 — Model-based RL (world model para planificar)
Idea: un agente aprende un world model interno y planifica imaginando trayectorias dentro de él, en vez de (o además de) actuar en el mundo real. Brutalmente eficiente en muestras.
Exponentes:
- DreamerV3 (Hafner et al., Nature 2025): usa un RSSM (Recurrent State-Space Model) que codifica observaciones en estados latentes y predice futuros. Primer agente que consigue diamantes en Minecraft desde cero sin demos humanas. Escala de 12M a 200M params; entrenable a escala Atari/control en una 5090.
- DIAMOND (Alonso et al., NeurIPS 2024): el world model es un modelo de difusión que predice el siguiente frame (en píxeles, preservando detalle visual). Récord en Atari 100k (HNS 1.46). El world model de Atari es minúsculo (~4.4M params, ~12 GB de VRAM en training) → cabe de sobra.
Por qué importa: es la fusión directa de tu spine (RL, Nivel 2) con world models. "Soñar" para aprender es una de las ideas más potentes del campo.
1.5Qué cabe en tu 5090 (tabla operativa)
| Modelo | Local en 5090 | Notas |
|---|---|---|
| V-JEPA 2 ViT-L/ViT-g inferencia | ✅ | extrae embeddings; ViT-g pesa pero entra |
| V-JEPA 2 attentive probe (backbone congelado) | ✅ | solo entrenas el probe (ligero) |
| V-JEPA 2 pretraining | ❌ cloud | escala internet |
| DIAMOND Atari (train) | ✅ | ~12 GB, días por juego×seed |
| DIAMOND CS:GO (381M) | ⚠️ | inferencia sí; train pesado |
| DreamerV3 (12M–200M) | ✅ | Atari/control/Crafter |
| Oasis-500M | ✅ | inferencia tiempo real + fine-tune ligero |
| Cosmos-Predict2 0.6B/2B | ✅ inferencia | post-train tight; grande → cloud |
1.6La taxonomía funcional (para situarte en el debate)
Fei-Fei Li / World Labs proponen pensar los world models por función: percepción (¿qué hay?), predicción (¿qué pasará?), y acción/planificación (¿qué hago?). Cruza esto con las tres familias: JEPA es fuerte en percepción+predicción latente; los generativos en predicción+simulación; el MBRL en predicción+acción. No hay un "world model" único: hay enfoques optimizados para funciones distintas. Saber situar cada paper en esta rejilla es lo que demuestra que dominas el campo y no solo un repo.
1.7Ejercicios
E1. Clasifica en las tres familias: (a) un modelo que genera el siguiente frame de Doom condicionado a las teclas; (b) un encoder de vídeo congelado + probe que clasifica acciones; (c) un agente que aprende a jugar imaginando rollouts. ¿Cuál usa píxeles, cuál latente, cuál planifica?
Solución
(a) Generativo/interactivo (píxeles, condicionado a acción) — estilo Oasis/GameNGen. (b) Predictivo latente (JEPA) — representación. (c) Model-based RL (DreamerV3) — planifica soñando.E2. ¿Por qué V-JEPA predice en latente y no en píxeles? ¿Qué problema evita?
E3. Para un robot que debe planificar manipulación con poca data de interacción, ¿qué familia y por qué? (Pista: V-JEPA 2-AC, 62 h de datos.)
1.8Referencias
- V-JEPA 2 (Assran et al. 2025; ai.meta.com/blog). DIAMOND (Alonso et al., NeurIPS 2024; diamond-wm.github.io). DreamerV3 (Hafner et al., Nature 2025). Oasis (Decart/Etched). NVIDIA Cosmos. Taxonomía: World Labs / Fei-Fei Li; charlas de LeCun sobre JEPA.