NIVEL 5 — Pretraining desde cero + arquitecturas (curso completo)

El cierre · Índice y guía · Checkpoint C5

Sexto y último nivel hoja por hoja. Da autoridad sobre todo lo anterior: cuando has construido un LLM desde el tokenizer hasta la inferencia y lo has pre-entrenado, dejas de tratar los modelos como cajas negras. No requiere un checkpoint previo concreto, pero gana muchísimo si ya hiciste los Niveles 0–4 (entenderás por qué cada decisión de arquitectura importa para serving, fine-tuning y RL).

Qué vas a saber hacer al terminar

Implementar backprop y un transformer desde cero, sin frameworks de alto nivel.
Entender cada componente de un GPT (atención, MLP, normalización, residual, embeddings posicionales) construyéndolo.
Reproducir GPT-2 124M en tu 5090 hasta la val loss objetivo, con técnicas modernas (Muon, etc.).
Entender y entrenar Mamba-2 (state-space models) y compararlo con un Transformer.
Implementar un MoE desde cero (routing, balance de carga) y entender los híbridos de frontera.

Prerrequisitos

Cómodo con PyTorch y álgebra lineal básica. Si backprop está oxidado, esta es la lección que lo arregla (L1).

Mapa de lecciones

Documento	Lección	Checkpoint
`N5_L1_fundamentos_backprop.md`	1. Backprop y atención desde cero (autograd + self-attention)	—
`N5_L2_nanogpt_pipeline.md`	2. Un GPT desde cero + nanoGPT (cada componente)	—
`N5_L3_reproducir_gpt2.md`	3. Reproducir GPT-2 124M en la 5090 (speedrun)	C5(a)
`N5_L4_mamba_ssm.md`	4. Mamba-2 y state-space models	C5(b)
`N5_L5_moe_arquitecturas.md`	5. MoE desde cero + híbridos de frontera	—

Checkpoints del nivel

C5(a): reproduces GPT-2 124M alcanzando la val loss objetivo (~3.28 en FineWeb, estándar del speedrun moderno) con un writeup que justifica cada hiperparámetro.
C5(b): un Mamba-2 ~200M que iguala o supera la perplexity de un Transformer equivalente en tu dataset, con análisis del comportamiento en contexto largo.

Caveat de compute (honesto)

Reproducir GPT-2 124M en una 5090 lleva del orden de 1–4 horas con la receta moderna de speedrun (Muon + arquitectura modernizada sobre FineWeb-Edu), no días. El aprendizaje está en hacerlo tú y entender cada pieza, no en la velocidad. Pretraining serio (>1B params, >100B tokens) va a cloud; aquí trabajas a la escala que cabe y enseña.

Cierre del curso

Al terminar este nivel tienes el perfil T completo: dos spines world-class (serving N1, post-training/RL N2), breadth sólida (N3), frontera tocada (N4) y los cimientos (N5). Lo último es el capstone del programa maestro: encadenar varios niveles en un proyecto que solo es posible con la maestría adquirida.