A100 vs H100 vs H200 vs L40: qué GPU para tu carga

EEquipo Clodei18 de abril de 20265 min de lectura

Esta pregunta llega casi cada semana: "¿Qué GPU alquilo?". Las páginas de marketing de NVIDIA suenan todas igual (más rápida, más grande, más lista), así que esta es la versión útil cuando tienes una carga delante y quieres elegir la GPU más barata que la termine.

Las cuatro GPUs de un vistazo

GPU	VRAM	FP16 TFLOPs	Ancho de banda	Punto dulce
L40	48 GB	~362	864 GB/s	Inferencia, training pequeño, rendering
A100 80GB	80 GB	~312	2 TB/s	Training medio, inferencia largo contexto
H100 80GB	80 GB	~989 (FP8)	3,35 TB/s	Training grande, serving sensible a latencia
H200 141GB	141 GB	~989 (FP8)	4,8 TB/s	Serving largo contexto, cargas memory-bound

Son cifras nominales. El throughput real depende del batching, los kernels y cuánto memory-bound es la carga.

A100 80GB, la mula que aguanta

La A100 salió en 2020. Cinco años después sigue siendo la GPU más rentable para una porción enorme del trabajo real, por tres motivos.

Tiene 80 GB de VRAM, lo que aloja modelos 7B y 13B con holgura para la KV cache. Su HBM2e a 2 TB/s sobra para casi cualquier escenario de inferencia salvo escala frontier. Y su precio por hora es el más bajo de las cuatro con capacidad real de datacenter.

Elige A100 80GB si:

Sirves inferencia 7B–34B y miras €/token antes que tokens/s.
Haces fine-tuning estilo Llama con LoRA o QLoRA.
El modelo entra en 80 GB con margen.

Salta A100 si:

Necesitas FP8 nativo (no lo tiene).
Tropiezas con límites de ancho de banda (decode con batch grande).
Entrenas desde cero a escala.

H100 80GB, el salto a FP8

La H100 añadió dos cosas que importan. Soporte nativo FP8, que duplica aproximadamente el throughput de la A100 en kernels transformer que lo aprovechan, y ancho de banda de 3,35 TB/s, que hace que el decode con batch grande escale mucho mejor.

El €/h es alrededor de 2,5–3 veces el de la A100, así que las cuentas solo cuadran si de verdad extraes la ventaja FP8 y mantienes la GPU cerca de saturación. Para inferencia batch-1 en un 7B, la H100 es estrictamente peor valor que la A100, porque no puedes usar el throughput FP8.

Elige H100 si:

Sirves QPS medio-alto y FP8 te da más tokens por euro.
Entrenas un modelo cuyo presupuesto solo cuadra con throughput H100.
La latencia importa y la carga mantiene la GPU saturada.

Salta H100 si:

No estás en territorio FP8 (descarta mucha inferencia).
Eres memory-bandwidth bound. Usa H200 en ese caso.

H200 141GB, la jugada de largo contexto

La H200 es una H100 con memoria más grande y rápida. Mismo cómputo, 1,7 veces el ancho de banda, 1,75 veces la VRAM.

Lo que te compra en la práctica:

Modelos clase 70B sin gimnasia de paralelismo. Entran en una sola GPU.
Inferencia largo contexto (32k+ tokens), donde la KV cache domina la VRAM.
Batches mayores antes de pegar contra el ancho de banda.

Elige H200 si:

Sirves modelos 70B, o quieres hacerlo, sin sharding.
Eres memory-bound hoy y el ancho de banda es el cuello de botella.
El largo contexto está en tu hoja de ruta.

Salta H200 si:

Eres compute-bound. La H100 es más barata por FLOP.
La VRAM menor te sobra.

L40, la GPU de inferencia infravalorada

La L40 está construida sobre Ada Lovelace. Es una tarjeta workstation-derivada para datacenter, con 48 GB de VRAM, soporte FP8 fuerte y un €/h más bajo que la A100 en muchos escenarios de inferencia.

La L40 es la respuesta correcta para:

Serving en batches pequeños de modelos 7B–13B.
Generación de imagen (Stable Diffusion, Flux).
Rendering y trabajo gráfico que aprovecha RT cores.

La L40 es la respuesta incorrecta para:

Entrenar algo más grande que un fine-tune LoRA en una sola tarjeta.
Cargas que necesitan más de 48 GB de VRAM.
Training distribuido (NVLink de menor categoría que A100/H100).

Árbol de decisión simple

Si tu modelo cabe en 24 GB, mira tarjetas consumer antes que datacenter. Demasiado pequeño para esta comparativa.

Si entrenas desde cero o haces full fine-tune, por defecto H100. Sube a H200 si eres memory-bound, baja a A100 si eres budget-bound.

Si sirves inferencia: L40 para 7B–13B batch pequeño, H100 para 7B–34B cuando puedes usar FP8, H200 para largo contexto o clase 70B. Si no estás seguro, A100 80GB es el por defecto seguro.

Si haces gráficos, rendering o simulación, la L40 tiene RT cores. Las otras no.

La realidad del precio

Los ratios €/h en Clodei (y en la mayoría de especialistas europeos) son aproximadamente:

L40: 1x
A100 80GB: 1,5–2x
H100 80GB: 4–5x
H200 141GB: 6–8x

La GPU "correcta" es la más barata que termina tu trabajo en el tiempo del que dispones. Alquilar una H100 para un trabajo que la A100 termina de noche es gastar más para esperar las mismas horas. Alquilar una A100 para una carga que pega contra el ancho de banda es alquilar un coche pequeño cuando hacía falta un camión.

Empareja la GPU con el cuello de botella, no la marca con la insignia.

A100 vs H100 vs H200 vs L40: qué GPU para tu carga

Las cuatro GPUs de un vistazo

A100 80GB, la mula que aguanta

H100 80GB, el salto a FP8

H200 141GB, la jugada de largo contexto

L40, la GPU de inferencia infravalorada

Árbol de decisión simple

La realidad del precio

Leer a continuación

Egress cero explicado: cuánto cuesta de verdad el ancho de banda en hyperscalers

De registro a modelo corriendo en 60 segundos: walkthrough Clodei

GPU por minuto vs reservada: cuándo gana cada modelo