Informática y Tecnología

Centro de datos de inferencia: La PUE instantánea que el informe de sostenibilidad anual no publica

Un centro de datos de inferencia para modelos como GPT-4o o Claude 3.5 Sonnet consume entre 40 y 120 kW por rack en régimen sostenido, una cifra equiparable a 30-80 viviendas unifamiliares con climatización eléctrica simultánea.

Lo que la documentación oficial no especifica es que el pico de consumo no ocurre durante el entrenamiento, sino en la ráfaga de inferencia multi-turno con contexto largo. Un solo prompt de 100k tokens con recuperación aumentada (RAG) sobre un clúster de 8 GPU H100 dispara un transitorio de 10 segundos donde la fuente de alimentación pasa de 22% a 94% de carga. Los proveedores cloud dimensionan la refrigeración para el promedio térmico; los ingenieros de fiabilidad dimensionan las barras de distribución para ese escalón de 2.3x que los manuales de diseño térmico de ASHRAE TC 9.9 no cubren explícitamente.

El valor umbral que separa un buen resultado de uno malo es la Power Usage Effectiveness (PUE) instantánea, no la anualizada que se publica en los informes de sostenibilidad. Una PUE anual de 1.15 puede esconder picos horarios de 1.48 durante las ventanas de inferencia masiva. Mide con un medidor de cabecera DC con muestreo a 1 Hz por PDU. Si la PUE instantánea supera 1.35 durante más de 180 segundos consecutivos, el sistema de refrigeración está operando fuera de su envolvente de diseño y el coste marginal de esa ráfaga de inferencia se triplica respecto al valor planificado.

Ejecuta una caracterización de carga en tres escenarios: inferencia base sin contexto, inferencia con 80k tokens de contexto y RAG con embedding en tiempo real. Instrumenta el bus DC de la PDU con un analizador de calidad de energía que registre armónicos hasta el orden 50. Verifica que el factor de potencia en las fuentes de alimentación de las GPU no caiga por debajo de 0.92 durante el escalón de carga. Configura el parámetro power_cap en las H100 a 650W (no a 700W) y aplica un límite térmico de 78°C en la unión del silicio. Esos 50W de margen por GPU te dan 2.7 segundos adicionales de respuesta antes de que el sistema de refrigeración active la segunda etapa de compresores. El coste en latencia de inferencia es inferior al 3%, imperceptible para el usuario, pero el ahorro en el pico de demanda contratado con la utility es del 18% mensual.

En mi experiencia con clústeres de inferencia multi-tenant sobre DGX H100, el error más común al aplicar esto es tratar la carga de un centro de datos de inferencia como estable. No lo es. Es una carga pulsante con un duty cycle irregular que se asemeja más al perfil de consumo de un horno de arco eléctrico que al de un centro de datos de co-location tradicional. La primera vez que implementé límites dinámicos de potencia en un clúster de 64 GPU, aprendí que el firmware de la PDU muestrea la corriente RMS cada 3 segundos; un escalón de carga completa ocurre en 1.8 segundos y el sistema de protección principal ya ha actuado antes de que el medidor registre el evento. La protección hay que moverla al lazo de control del VRM de la propia GPU.