GPU por minuto vs reservada: cuándo gana cada modelo

EEquipo Clodei15 de abril de 20264 min de lectura

Las calculadoras de los proveedores dibujan la decisión por-minuto vs reservada como una línea limpia. Por encima del 60% de utilización gana reservada, por debajo gana por-minuto. Direccionalmente vale, en la práctica casi no sirve. La respuesta honesta depende de tres variables que las calculadoras suelen esconder.

Los números titulares

Una A100 80GB reservada a 1 año en un hyperscaler cuesta alrededor del 60% del precio por hora. Un compromiso de 3 años se queda cerca del 50%. Por minuto (o por hora, según el proveedor) es la línea base on-demand.

Si mantienes una A100 al 100% 24/7, la reserva a 3 años te ahorra alrededor del 50%. Es un ahorro real y la decisión correcta cuando la carga es genuinamente estable.

La trampa es que "100% 24/7" casi nunca coincide con lo que hacen los equipos.

Tres variables que cambian las cuentas

1. Utilización medida de verdad

La mayoría de equipos sobreestima la utilización por un factor de 2 a 4. Un modelo que "entrena de noche" suele entrenar unas 7 horas y la GPU queda parada las otras 14. Un cluster de serving dimensionado para el pico va al 30% del pico en valle.

La medición honesta es horas-GPU facturadas divididas entre horas-GPU reservadas. Cualquier cosa por debajo del 70% significa que tu reserva está subvencionando el precio on-demand del resto.

2. Cuánto varía la forma de la carga

Las reservas asumen que la carga se parece semana a semana. Muchas reales no lo hacen. Algunos ejemplos:

Equipo de investigación sin sprint fijo. Unas semanas 5 GPU-días, otras 0,5.
SaaS con campaña de marketing que cuadruplica el tráfico durante dos semanas y vuelve a la base.
Producto nuevo aún buscando tracción, sin baseline de demanda fiable.

Para cargas volátiles, el precio por minuto es un seguro que no pagas por adelantado. La prima sobre la reserva suele ser menor que el coste de pagar capacidad que nunca usas.

3. Coste de cambio

Las reservas son baratas en papel pero te encadenan. Si sale una GPU mejor (la transición H200 a B200 es un ejemplo de manual), la flota reservada en hardware antiguo se vuelve un pasivo a amortizar en lugar de una herramienta que puedes soltar en una semana.

Los equipos por-minuto cambian hardware en días. Los reservados negocian cláusulas de salida con cuentas comerciales.

Un marco más útil

Olvida la línea del 60%. Hazte tres preguntas en su lugar.

¿Puedes predecir la demanda GPU del próximo trimestre con ±10% de error? Si sí, eres candidato a reserva. Si no, no lo eres.

¿Cuál es el coste de oportunidad del dinero? Si lo gastarías en más plantilla o en un experimento mayor, el valor marginal del capital es alto. Las reservas consumen capital por adelantado.

¿Cuánto rota tu nivel de hardware? El cómputo de frontera ha rotado cada 18–24 meses. Una reserva a 3 años en la GPU de ayer rara vez es buen trato.

Si las respuestas son "no", "alto" o "rápido" en cualquiera de las tres, por-minuto por defecto. El ahorro titular de la reserva es real pero pequeño comparado con la opcionalidad que pierdes.

La jugada híbrida

La versión avanzada es reserva pequeña para la base predecible y por-minuto para el pico.

Reserva al nivel que tu carga sostiene de verdad. Normalmente 30–50% del pico. Salta a por-minuto para todo lo que excede la reserva. Reevalúa el tamaño de la reserva cada trimestre.

Esa configuración suele recortar 20–30% sobre la factura total manteniendo la opcionalidad donde importa. La pega es operativa: necesitas reportes de coste que separen el uso entre los dos canales, algo que la mayoría de equipos no tiene el día 1.

Economía por-minuto en especialistas europeos de GPU

Los proveedores especializados en por-minuto (nosotros incluidos) tienen una ventaja estructural sobre los hyperscalers. No cubrimos el pool spot a costa de los clientes on-demand. La tarifa por minuto es la tarifa. No hay multiplicador de subasta cuando el pool se calienta. No hay penalización de evicción cuando un postor mayor quiere el slot.

Esa previsibilidad pesa más de lo que parece. Las cargas con picos que intentan vivir en spot de hyperscaler acaban presupuestando el precio on-demand de todas formas, porque el spot se acaba justo cuando lo necesitas. Los especialistas europeos suelen quedarse a medio camino entre el spot y el on-demand del hyperscaler, con disponibilidad más cercana al on-demand.

La decisión en una frase

Reservada es lo correcto cuando la utilización es alta, predecible, y el hardware seguirá siendo relevante al final del periodo. Por minuto es lo correcto para todo lo demás, que es la mayoría de cargas la mayor parte del tiempo. No dejes que el porcentaje de ahorro titular te empuje a fingir que estás en la primera categoría cuando no lo estás.