GRATÍCULAinstrumento de maestría
BancoRTX 5090 · GB202
Rev2026.06
Entrar
N1 · Serving world-class/L0

NIVEL 1 — Serving / inferencia world-class (curso completo)

Índice y guía del nivel · Spine secundario · Checkpoint C1

Segundo nivel desarrollado hoja por hoja, autónomo y sin condicionamiento a proyectos concretos. Asume que cerraste C0 (tienes stack sano y tu número de referencia). El objetivo de este nivel es cerrar conscientemente el gap entre tu throughput real y el techo teórico, y llegar a Nivel 4 (innovador) de la rúbrica en serving.


Qué vas a saber hacer al terminar

  1. Leer y razonar las métricas que importan (TTFT, TPOT, throughput agregado) y entender PagedAttention y continuous batching por dentro.
  2. Ajustar vLLM conscientemente: memoria, concurrencia, chunked prefill, prefix caching determinista, KV-cache FP8.
  3. Aplicar speculative decoding (ngram / EAGLE / suffix) midiendo acceptance rate, y saber cuándo empeora.
  4. Cuantizar para serving (FP8, AWQ, NVFP4) midiendo tú el tradeoff calidad/velocidad, y sortear las trampas reales de NVFP4 en Blackwell.
  5. Decidir y demostrar cuándo SGLang (RadixAttention) gana a vLLM.
  6. Servir múltiples adaptadores LoRA con switching por petición y métricas de producción.

Prerrequisitos

  • Checkpoint C0 cerrado. Lente roofline (N0·L1) y presupuesto de VRAM (N0·L3) frescos.

Mapa de lecciones

DocumentoLecciónResultado
N1_L1_metricas_y_batching.md1. Métricas, PagedAttention, continuous batchingSabes qué medir y por qué escala con concurrencia
N1_L2_vllm_tuning.md2. Tuning de vLLM (memoria, prefijo, KV FP8, chunked)Cierras parte del gap conscientemente
N1_L3_speculative_decoding.md3. Speculative decoding (ngram/EAGLE/suffix)Aceleras decode midiendo acceptance rate
N1_L4_cuantizacion_serving.md4. FP8 / AWQ / NVFP4 para servingEliges precisión con tus números
N1_L5_sglang_radixattention.md5. SGLang y RadixAttentionDemuestras cuándo SGLang gana
N1_L6_multi_lora.md6. Multi-LoRA serving (+ Checkpoint C1)Sirves N adaptadores; cierras C1

Checkpoint del nivel (resumen)

C1 — aprobado cuando, reproducible: (1) sirves dentro del X% del roofline que calculaste y explicas el gap; (2) reproduces el speedup de RadixAttention en una workload prefix-heavy; (3) sirves múltiples LoRA con switching por petición y reportas latencia + hit-rate + throughput. Detalle en N1_L6_multi_lora.md.

Reto integrador del nivel (genérico, reutilizable)

Construye un "gateway de inferencia personal": un servidor que expone un modelo base con varios adaptadores LoRA especializados (p.ej. uno para SQL, uno para resúmenes, uno para clasificación), cuantizado, con prefix caching y speculative decoding activados, y un dashboard mínimo con sus métricas. No depende de ningún proyecto; es tu banco de pruebas de serving para el resto del curso.