Mundos interactivos: Oasis y Cosmos (stretch)

Objetivo de maestría

correr e iterar mundos generativos interactivos —un modelo que es el simulador— y entender Cosmos como world foundation model para Physical AI. Es la lección más exploratoria del curso; su valor es la frontera y el contenido escaso, no un checkpoint duro.

4.1Oasis: un modelo que es el juego

Oasis (Decart + Etched, 500M, pesos abiertos) genera Minecraft frame a frame en tiempo real (~20 fps), condicionado a las teclas del usuario. No hay engine debajo: el modelo predice cada frame dado el historial y tu input. Es la demostración pura de un world model generativo interactivo, y cabe sin problema en tu 5090.

bash

1# Inferencia de Oasis (repo abierto)
2git clone https://github.com/etched-ai/open-oasis && cd open-oasis
3uv venv && source .venv/bin/activate
4uv pip install -r requirements.txt
5# descarga los pesos (oasis500m) según el README
6python generate.py --model oasis500m --num-frames 200   # genera una trayectoria jugable

Qué observar: la coherencia temporal (¿el mundo se mantiene estable o "olvida" lo que había detrás al girar?) y la deriva (los errores se acumulan frame a frame). Son las limitaciones fundamentales de los world models autoregresivos en píxeles, y verlas de primera mano es la lección.

Laboratorio L4.1 (genérico): fine-tune ligero de Oasis sobre un dataset de gameplay propio (capturas de un juego sencillo con sus acciones). Patrón reutilizable: condicionar un world model generativo a tu dominio. Mide coherencia y deriva antes/después.

4.2Cosmos: world foundation models para Physical AI

NVIDIA Cosmos (cosmos-predict2) son modelos preentrenados pensados como base para robótica y conducción: predicen vídeo/mundo condicionado a estado y acción, para generar datos sintéticos y para planificar. Variantes 0.6B (cómoda en 5090) y 2B (inferencia OK; post-train tight).

bash

1# Inferencia con Cosmos-Predict2 (repo NVIDIA)
2git clone https://github.com/nvidia-cosmos/cosmos-predict2 && cd cosmos-predict2
3# sigue el setup del README (modelos en HF bajo nvidia/Cosmos-Predict2-*)
4# Video2World 2B: dada una imagen/estado inicial + acción, genera el futuro
5python examples/video2world.py --model 2B --input init_frame.png --prompt "..."

Caso de uso que importa: generar datos sintéticos de interacción para entrenar políticas (cierra el círculo con N3·C diffusion policies y con el RL del Nivel 2). En vez de recolectar millones de episodios reales, los "sueñas" con el world model. Es una de las direcciones más activas de 2026 en robótica.

Licencia: Cosmos bajo NVIDIA Open Model License — audita antes de cualquier derivado comercial.

4.3Por qué este nivel es "stretch" (expectativas honestas)

Los world models son la frontera: los resultados son impresionantes pero el campo cambia rápido, los modelos cerrados (Genie 3, Marble) marcan el techo y los abiertos van detrás, y reproducir resultados grandes requiere cloud. El ROI inmediato es menor que el de los spines (un agente RL verificable del Nivel 2 tiene aplicación directa; un world model es más exploratorio). Por eso entra después de C2 y se valora por C4(a)+C4(b) —reproducir lo que cabe en local—, no por entrenar un Genie desde cero.

Dicho esto, es donde está tu interés declarado y la máxima diferenciación: muy poca gente ha entrenado un DIAMOND y un probe de V-JEPA 2 en su propia GPU y sabe explicar las tres familias. Ese contenido —reproducciones honestas en una 5090— es escaso y muy valorado.

4.4Ejercicios

E1. Corre Oasis 200 frames y mide la deriva: ¿a partir de cuántos frames el mundo deja de ser coherente? ¿Qué lo causa (acumulación de error autoregresivo)?

E2. Con Cosmos, genera un futuro condicionado a dos acciones distintas desde el mismo frame inicial. ¿El modelo respeta la diferencia de acción? (Test de que es action-conditioned de verdad.)

E3. Diseña (en papel) cómo usarías un world model para generar datos sintéticos que entrenen una diffusion policy del N3·C. ¿Qué riesgos tiene entrenar sobre datos "soñados"? (Pista: sim-to-real gap, errores del world model que la policy aprende como reales.)

4.5Trampas comunes

Esperar coherencia infinita de un world model autoregresivo (la deriva es inherente).
Entrenar políticas solo sobre datos sintéticos sin validar en real → el agente aprende los errores del world model.
Ignorar licencias (Cosmos, Oasis) en usos comerciales.

4.6Referencias

Oasis (etched-ai/open-oasis; Decart). NVIDIA Cosmos (nvidia-cosmos/cosmos-predict2; nvidia/Cosmos-Predict2-* en HF). Genie 3 (DeepMind, conceptual). HF Robotics/LeRobot Course para el puente con control.

Cierre del Nivel 4

Has tocado las tres familias de world models con las manos: representaciones predictivas (V-JEPA 2 + probe que bate a supervisado), model-based RL (DIAMOND reproduciendo HNS, DreamerV3 conceptual), y mundos interactivos (Oasis, Cosmos). Esto es frontera real, reproducida en tu hardware. Con C4 cerrado, te queda el último nivel: bajar hasta los cimientos y pre-entrenar desde cero, que es lo que da autoridad sobre todo lo anterior.