Cómo los centros de datos están permitiendo la inteligencia artificial (IA)

El rápido crecimiento de la generación de datos impulsada por la inteligencia artificial (IA) ha transformado la forma en que se almacenan, procesan, gestionan y transfieren los datos, al tiempo que aumenta la demanda de potencia informática en los centros de datos en la nube y en el borde. Para satisfacer la demanda generada por la IA, los centros de datos están evolucionando y adaptando su diseño, infraestructura energética y equipos de refrigeración de diversas formas únicas.

Los centros de datos proporcionan vastos recursos informáticos y almacenamiento, lo que permite que la inteligencia artificial (IA) procese conjuntos de datos masivos para entrenamiento e inferencia. Al alojar hardware especializado, como GPU y TPU, los centros de datos aceleran cálculos complejos y admiten aplicaciones y cargas de trabajo de IA.

A medida que Centro Infra profundiza en la relación cambiante entre la inteligencia artificial y los centros de datos, ofrecemos información sobre el consumo de energía, los requisitos de refrigeración y el papel fundamental de los centros de datos en el soporte de la IA. También presentamos un estudio de caso intrigante sobre los centros de datos de IA de Meta Platforms y exploramos los diversos tipos de centros de datos utilizados para aplicaciones de IA.

La inteligencia artificial impulsa la necesidad de centros de datos

La inteligencia artificial (IA) se está convirtiendo rápidamente en la fuerza impulsora detrás de las tecnologías modernas en diversas industrias, con aplicaciones en optimización, mantenimiento preventivo, asistentes virtuales, detección de fraude y detección de anomalías. El éxito de estas aplicaciones de IA depende de la disponibilidad de grandes cantidades de datos, lo que en consecuencia genera una creciente demanda de centros de datos para almacenar y procesar esta información.

A medida que más organizaciones incorporan IA en sus operaciones, se produce un aumento correspondiente en la generación de datos. Por ejemplo, IA generativa, incluidos grandes modelos de lenguaje (LLM) como ChatGPT, emplea amplios datos de capacitación para generar contenido contextualmente relevante y coherente basado en las aportaciones del usuario.

De manera similar, los vehículos autónomos producen grandes cantidades de datos a través de sus sensores LiDAR, cámaras de alta resolución y sistemas de radar. Estos datos son esenciales para entrenar los modelos de aprendizaje automático (ML) que impulsan los sistemas de IA, lo que requiere almacenamiento, procesamiento y análisis en tiempo real en los centros de datos.

Papel de los centros de datos en el apoyo a la inteligencia artificial

Los centros de datos brindan una infraestructura segura, escalable y confiable para almacenar, procesar y analizar las grandes cantidades de datos generados por las aplicaciones de IA. Al mismo tiempo, las cargas de trabajo de IA suelen ser intensivas en datos y cómputo.

Los centros de datos respaldan la IA a través de computación de alto rendimiento (HPC), alojamiento de hardware especializado, almacenamiento de datos y redes. Al mismo tiempo, estos edificios especializados están equipados con infraestructura de energía y refrigeración (que se analiza en las siguientes secciones) para garantizar que todo su hardware interno funcione correctamente.

1) Computación de alto rendimiento (HPC)

Las aplicaciones de inteligencia artificial (IA) requieren enormes cantidades de potencia informática, impulsadas por las cargas de trabajo de entrenamiento y de inferencia asociadas con sus modelos de IA.

Los centros de datos admiten aplicaciones y cargas de trabajo de IA mediante clústeres de computación de alto rendimiento (HPC). Estos clústeres cuentan con múltiples servidores conectados a través de redes de alta velocidad, lo que permite un procesamiento paralelo y tiempos de capacitación más rápidos.

En un centro de datos, un sistema informático de alto rendimiento (HPC) suele diseñarse para caber en un bastidor estándar de cuatro postes de 19 pulgadas de ancho. Este es un factor de forma común para equipos de centros de datos, diseñados para acomodar servidores montados en bastidor (por ejemplo, servidores 1U), servidores blade, equipos de red y matrices de almacenamiento. Estos sistemas son modulares y escalables, lo que facilita la instalación y la actualización de la capacidad a medida que cambian las necesidades de las aplicaciones y cargas de trabajo de IA.

En este sistema HPC, la densidad de potencia de un solo bastidor puede oscilar entre 20 kilovatios (kW) y más de 60 kW. Por ejemplo, un rack de 42U lleno de servidores de 1U que consumía 500 vatios “estándar” cada uno consumiría un total de 21 kW de energía. Ampliando este ejemplo a una densidad “alta”, un rack de 42U lleno de servidores de 1U que consumía 1430 vatios cada uno consumiría un total de 60 kW de energía. Por el contrario, un servidor típico de bajo consumo, como los diseñados para alojamiento web, puede consumir sólo 100 vatios de energía, lo que implica un consumo total de energía de 4,2 kW para un rack de 42U lleno de servidores de 1U.


Tipo de servidor	HPC – Densidad estándar	HPC – Alta densidad	Típico de bajo consumo
Estantería	42U	42U	42U
Consumo de energía del servidor	500 vatios	1.430 vatios	100 vatios
Consumo de energía del bastidor	21 kilovatios	60 kilovatios	4,2 kilovatios

Suponiendo que los sistemas HPC de densidad “estándar” y “alta” se implementaran en un centro de datos con 400 racks, esto implicaría que la instalación necesitaría un suministro de energía total de entre 8,4 megavatios (MW) y 24,0 MW. En niveles de densidad de potencia muy altos, se utilizan entornos informáticos especializados conocidos como instalaciones dedicadas de computación de alto rendimiento (HPC) para ejecutar cargas de trabajo de IA computacionalmente intensivas a gran escala.

2) Hardware especializado utilizado en sistemas HPC

Los sistemas HPC utilizan una combinación de procesadores (CPU) de alta potencia, memoria de alta velocidad y hardware especializado, como GPU, para procesar de manera eficiente grandes cantidades de datos y admitir cargas de trabajo de IA. Estos procesadores de alta gama son capaces de realizar cálculos y análisis de datos complejos de forma rápida y eficiente. Con este fin, el uso de dichos procesadores garantiza que el sistema HPC pueda manejar cargas de trabajo exigentes, incluida la minería de datos, simulaciones científicas, análisis avanzados y tareas de aprendizaje automático (ML), con velocidades de procesamiento rápidos y latencia mínima.

Los modelos de aprendizaje profundo (DL) y la IA en tiempo real requieren aceleradores informáticos especializados para algoritmos de aprendizaje profundo. Inicialmente, este tipo de informática se basaba en unidades de procesamiento de gráficos (GPU) ampliamente implementadas. Sin embargo, desde entonces varios proveedores de servicios en la nube han desarrollado sus propios chips personalizados, como la Unidad de Procesamiento Tensor (TPU) de Google, que es un circuito integrado de aplicación específica (ASIC), y el Proyecto Catapulta de Microsoft que utiliza matrices de puertas programables en campo (FPGA). para satisfacer la creciente demanda de estas cargas de trabajo de IA.

El hardware especializado, como GPU, ASIC y FPGA, puede acelerar los algoritmos de aprendizaje automático, lo que los convierte en un componente esencial de los sistemas HPC modernos. Estos procesadores especializados están diseñados para realizar cálculos matriciales, lo que los hace particularmente efectivos para tareas de aprendizaje automático que implican el procesamiento de grandes cantidades de datos en paralelo. Al aprovechar estos procesadores especializados, los sistemas HPC pueden acelerar significativamente el procesamiento de cargas de trabajo de IA.

LEER MÁS: Computación acelerada: ¿Qué es? y ¿Cómo funciona?

3) Almacenamiento de datos

Los modelos de inteligencia artificial (IA) requieren grandes cantidades de datos para entrenamiento e inferencia, y los centros de datos proporcionan la capacidad de almacenamiento necesaria para albergar estos conjuntos de datos. Además, las aplicaciones de IA realizan una gran cantidad de operaciones de entrada/salida (E/S), como leer o escribir datos en dispositivos de almacenamiento e intercambiar información entre dispositivos a través de una red de comunicaciones.

El acceso al almacenamiento de alta velocidad es esencial para cargas de trabajo de IA como el aprendizaje automático, el aprendizaje profundo y el procesamiento de datos, que exigen un acceso rápido a los datos y tasas de transferencia desde sus sistemas de almacenamiento. Este acceso rápido permite que los modelos de IA lean, escriban y procesen datos de manera eficiente (en tiempo real o casi en tiempo real), lo que resulta en un rendimiento mejorado y una latencia reducida en tareas como entrenamiento, inferencia y análisis de datos.

Los centros de datos suelen utilizar dispositivos de almacenamiento de alta capacidad, como unidades de disco duro (HDD), unidades de estado sólido (SSD) y almacenamiento conectado a la red (NAS) para albergar y gestionar grandes conjuntos de datos de IA. Mientras que los proveedores de servicios en la nube (CSP), incluidos Amazon Web Services (AWS), Microsoft Azure y Google Cloud, ofrecen soluciones de almacenamiento de baja latencia y alto rendimiento como servicios consumibles. Por ejemplo, Amazon FSx for Lustre es un sistema de archivos de alto rendimiento diseñado para cargas de trabajo con uso intensivo de computación, incluido el aprendizaje automático, la computación de alto rendimiento (HPC) y el procesamiento de big data.

4) Redes

Las cargas de trabajo de IA implican grandes cálculos matriciales, que se distribuyen en cientos y millas de procesadores, como CPU, GPU y TPU. Estos intensos cálculos ocurren durante un cierto período de tiempo y exigen una red de alta capacidad, escalable y libre de errores para soportar eficazmente estas cargas de trabajo. Además, la creciente prevalencia de casos de uso como los clústeres de IA continúa ampliando los límites de las redes en términos de ancho de banda y requisitos de capacidad.

Las redes de alto rendimiento para cargas de trabajo de IA implican las siguientes características clave:

Rendimiento: cuando se ejecutan aplicaciones de IA a gran escala, las capacidades de ancho de banda de la red tienen implicaciones significativas para el rendimiento de un centro de datos y, en última instancia, afectan la eficiencia y la velocidad del procesamiento. Generalmente, los clústeres de GPU requieren aproximadamente 3 veces más ancho de banda que las redes informáticas tradicionales.
Aplicaciones de IA desagregadas: con la llegada de las aplicaciones de IA desagregadas, las redes de alto rendimiento se vuelven aún más críticas. En esta configuración, varios componentes de las aplicaciones de IA se distribuyen en diferentes recursos de hardware y software, que residen en diferentes servidores y sistemas de almacenamiento dentro de un centro de datos. Se requiere una comunicación perfecta entre estos componentes, lo que solo se puede lograr con una infraestructura de red sólida, como una red con capacidad de 400 gigabits por segundo (Gbps) como la NVIDIA Mellanox 400G InfiniBand.
Eficiencia: la eficiencia de una infraestructura de IA está directamente relacionada con el rendimiento de su red. Una red lenta puede crear un cuello de botella en la infraestructura general, reduciendo la eficiencia de las aplicaciones de IA implementadas. Por lo tanto, un tejido de IA sin pérdidas, que conecte la infraestructura distribuida e integre características como el control de la congestión y la gestión del ancho de banda, es crucial para garantizar el perfecto funcionamiento de las cargas de trabajo de IA.

Consumo de energía de los centros de datos de IA

Las aplicaciones de inteligencia artificial (IA) están aumentando el uso de energía y la densidad de energía en los centros de datos, ya que requieren cálculos de servidores y sistemas de almacenamiento que consumen más energía que las cargas de trabajo tradicionales. Este aumento de la demanda de energía puede ejercer presión sobre la infraestructura del centro de datos existente.

Para abordar el creciente problema del consumo de energía, las nuevas arquitecturas de centros de datos están centrando sus esfuerzos de ingeniería en la densidad de potencia y el diseño escalable:

Densidad de potencia

En promedio, la densidad de potencia en un centro de datos tradicional oscila entre 4 kW por rack y 6 kW por rack. Sin embargo, este rango ha ido aumentando constantemente a medida que una mayor cantidad de cargas de trabajo de IA y ML han comenzado a implementarse con mayor frecuencia en los centros de datos. Además, se espera que la densidad de potencia promedio de los centros de datos siga aumentando, impulsada por el rápido crecimiento del tráfico de datos y la potencia informática.

En los centros de datos de hiperescala más grandes, que son instalaciones con capacidades de energía de 5 a 100 megavatios (MW), las densidades de energía suelen ser más altas que en los centros de datos tradicionales. Estas instalaciones respaldan principalmente a proveedores de servicios en la nube (CSP), como Amazon Web Services (AWS), y grandes empresas de Internet, como Meta Platforms, y operan a niveles de densificación de energía de 10 kW por rack a 14 kW por rack. Las organizaciones más grandes suelen tener requisitos de TI más complejos, benefician de economías de escala y contar con presupuestos sustanciales para implementar una infraestructura de IA sofisticada y computación de alta densidad que consume mucha energía.

Además, la potencia para las nuevas cargas de trabajo de IA de densidad extrema está elevando los rangos de densificación a entre 20 kW por rack y 40 kW por rack, y en algunas operaciones informáticas especializadas, densidades de puntos de acceso de 60 kW por rack o más. Por ejemplo, estas densidades están siendo implementadas por empresas de servicios financieros, empresas de efectos visuales (VFX) y estudios cinematográficos, así como por ciertos hyperscalers, como las MetaPlataformas (ver próxima sección).

En general, cuando la densidad de los racks alcanza estos niveles extremos, el equipo genera una cantidad significativa de calor. Como resultado, los altos niveles de densificación de potencia requieren enfoques de ingeniería de centros de datos únicos. A menudo, el operador de la instalación crea un área dedicada o una sección especializada dentro de un centro de datos más grande diseñado específicamente para soportar estas cargas de trabajo de IA que consumen muchos recursos.

Diseño escalable

Los diseños de los centros de datos se están diseñando estratégicamente para dar cabida a una expansión escalable, permitiendo un gasto de capital rentable a largo plazo. Teniendo en cuenta que el ciclo de vida típico de un centro de datos abarca entre 10 y 15 años, mientras que los equipos de TI (por ejemplo, servidores y equipos de red) tienen una vida útil significativamente más corta, de 3 a 5 años, es crucial desarrollar un diseño preparado para el futuro que aborde las demandas cambiantes de densidad de potencia de las aplicaciones y cargas de trabajo de IA.

Para lograr esto, los diseños de centros de datos más nuevos admitirán la implementación híbrida de dispositivos de TI, incorporando una variedad de densidades de energía para atender a una amplia gama de clientes. Además, al obtener capacidad de energía adicional no utilizada de su compañía de servicios eléctricos, los operadores de centros de datos pueden asegurarse de tener un suministro de energía confiable para futuras expansiones. Este enfoque garantiza que a medida que los requisitos para las aplicaciones de IA se vuelvan más complejas e intensas, la infraestructura del centro de datos pueda adaptarse sin problemas sin la necesidad de actualizaciones frecuentes y costosas.

Requisitos de refrigeración de los centros de datos de IA

Las aplicaciones y cargas de trabajo de inteligencia artificial (IA) requieren que los equipos de TI funcionen con altas densidades de potencia, lo que genera una cantidad significativa de calor, lo que lleva a un aumento de los requisitos de refrigeración de los servidores. En consecuencia, los centros de datos enfrentan mayores desafíos de enfriamiento y, a menudo, necesitan ser rediseñados o rediseñados para mantener niveles de temperatura adecuados dentro de las instalaciones. La refrigeración ineficiente puede dar como resultado una vida útil reducida del equipo, un rendimiento informático deficiente y una mayor demanda de sistemas de refrigeración.

Dos métodos de enfriamiento utilizados para abordar estos mayores desafíos de enfriamiento son el enfriamiento por líquido y el enfriamiento por inmersión. En particular, los niveles de densificación de energía superiores a 30 kW por rack son donde los puntos críticos comienzan a hacerse presentes y se necesitan estrategias únicas, como la refrigeración líquida. Con densidades de potencia de 60 kW por rack a 80 kW por rack, la refrigeración líquida directa al chip se vuelve más común.

Refrigeracion liquida

La refrigeración líquida es un método que implica hacer circular un refrigerante, como agua o fluidos especializados como 3M Novec o Fluorinert, a través de placas frías en contacto directo con componentes electrónicos, como CPU o GPU. El calor es absorbido por el líquido refrigerante, transportado a través de un intercambiador de calor o radiador donde el calor se disipa en el aire. A continuación, el líquido enfriado se recircula.

La refrigeración líquida es particularmente eficaz en la gestión de cargas de trabajo de IA de alta densidad, ya que puede disipar el calor de manera más eficiente que los sistemas tradicionales de refrigeración por aire. En particular, los líquidos son millas de veces más eficientes por unidad de volumen que el aire para eliminar el calor. Esto hace que sea lógico enfriar los componentes electrónicos internos del hardware con líquido circulante que pueda eliminar grandes volúmenes de calor en espacios pequeños y transferir el calor a otro medio, como el aire fuera del hardware.

En general, los sistemas refrigerados por líquido son deseables para altas densidades de potencia. Sin embargo, la refrigeración líquida normalmente enfría solo la CPU o la GPU, dejando algo de calor en la habitación, lo que puede presentar una carga de refrigeración significativa. Por lo tanto, los sistemas refrigerados por líquido requieren aire acondicionado adicional para enfriar otros componentes.

Enfriamiento por inmersión

El enfriamiento por inmersión es un método en el que los componentes electrónicos se sumergen en un líquido refrigerante no conductor, como 3M Novec o Fluorinert. El refrigerante absorbe el calor generado por los componentes y circula a un intercambiador de calor para enfriarlo antes de la recirculación. El enfriamiento por inmersión no solo enfría la CPU sino también otros componentes de la placa de circuito impreso (PCB) o la placa base.

El enfriamiento por inmersión está ganando terreno debido a su capacidad para permitir una mayor densidad de energía y una menor efectividad del uso de energía (PUE) para los centros de datos que operan entornos de computación de alto rendimiento (HPC). A diferencia de la refrigeración líquida, que enfría sólo la CPU y/o GPU, la refrigeración por inmersión reduce la temperatura de toda la placa en la que están montados estos componentes.

LEER MÁS: Refrigeración del centro de datos: una guía completa

Estudio de caso: Centros de datos de IA de metaplataformas

Meta Platforms, anteriormente conocida como Facebook, es una empresa de tecnología que ofrece servicios de redes sociales y redes sociales. Para respaldar este negocio, Meta posee y opera 21 campus de centros de datos en todo el mundo, que abarcan más de 50 millones de pies cuadrados, además de alquilar varios centros de datos más a operadores externos. En 2023, la compañía centrará una parte importante de sus más de 30 mil millones de dólares en gastos de capital (CapEx) en expandir su capacidad de inteligencia artificial (IA), principalmente a través de inversiones en GPU, servidores y centros de datos.

Meta está “construyendo nuevos centros de datos específicamente equipados para soportar hardware de IA de próxima generación”. Las inversiones y la capacidad de IA de la empresa benefician a varios productos y servicios, como Ads, Feed, Reels y Metaverse. Hasta la fecha, Meta ha visto “resultados talentosos” para estos servicios mediante el uso de “clústeres de GPU a escala”, que son grupos de GPU que trabajan juntas para manejar cargas de trabajo complejas de IA de manera más eficiente y efectiva.

La plataforma de hardware basada en GPU Grand Teton de Meta cuenta con varias mejoras de rendimiento con respecto a su predecesor, Zion. Estos incluyen 4 veces el ancho de banda de host a GPU, 2 veces el ancho de banda de la red de datos y computación y 2 veces la envolvente de energía. Grand Teton ha sido diseñado con una mayor capacidad informática para admitir de manera más efectiva cargas de trabajo limitadas por ancho de banda de memoria, como el modelo de recomendación de aprendizaje profundo (DLRM) de Meta.

En general, Meta pretende estandarizar su diseño en todos los centros de datos para dar cabida a cargas de trabajo de IA de alta densidad de potencia, que pueden oscilar entre 25 kW por rack y 40 kW por rack. A su vez, Meta ahora se está asociando con operadores de centros de datos capaces de construir una infraestructura de IA rentable y de alta densidad de potencia.

Refrigeración líquida mediante metaplataformas

Meta ha estado utilizando tecnología de refrigeración líquida para mantener temperaturas operativas óptimas para sus servidores, que permitan cargas de trabajo de IA de alta densidad de potencia. En particular, Meta emplea refrigeración líquida asistida por aire (AALC) a través de un sistema de circuito cerrado y un intercambiador de calor en la puerta trasera, lo que permite la refrigeración del servidor sin la necesidad de un piso elevado o tuberías externas. Este avance forma parte de la transición de Meta hacia un diseño más robusto para sus centros de datos, lo que requiere un mayor uso de tecnologías de refrigeración líquida.

Tipos de centros de datos utilizados para IA

Las aplicaciones y cargas de trabajo de inteligencia artificial (IA) utilizan bastidores de alta densidad de potencia, que se pueden implementar en varios tipos de instalaciones, desde grandes centros de datos de hiperescala/nube hasta pequeños centros de datos de frontera.

Centros de datos de hiperescala/nube: los proveedores de servicios en la nube, como Amazon Web Services (AWS), Microsoft Azure y Google Cloud, ofrecen servicios específicos de IA que se pueden utilizar para crear e implementar modelos de IA. Dado el gran tamaño de estas instalaciones, son particularmente adecuados para aplicaciones de IA y cargas de trabajo que involucran capacitación en aprendizaje automático (ML) y aprendizaje profundo (DL), análisis de big data, procesamiento del lenguaje natural (NLP) y visión por computadora.
Centros de datos perimetrales: son instalaciones descentralizadas más pequeñas que brindan computación y almacenamiento en una ubicación más cercana a donde se generan y utilizan los datos. Los centros de datos perimetrales están diseñados para aplicaciones de IA de baja latencia que requieren tiempos de respuesta rápidos, como análisis de vídeo en tiempo real, realidad aumentada (AR) y realidad virtual (VR), vehículos autónomos y drones.

No todos los centros de datos se pueden optimizar para un único caso de uso debido a los diversos requisitos de las diferentes aplicaciones y sistemas de IA. Por ejemplo, los sistemas de aprendizaje profundo y entrenamiento de IA generalmente requieren GPU de alto rendimiento con una gran cantidad de núcleos para reducir el tiempo de entrenamiento. Por el contrario, los motores de inferencia utilizados en la IA a menudo pueden funcionar de manera eficiente con menos núcleos, priorizando una menor latencia y un mayor rendimiento.

Una nueva generación de empresas de GPU como servicio (GPUaaS), incluidas CoreWeave, Lambda Labs, Denvr Dataworks, Applied Digital y Crusoe, están surgiendo para cumplir esta función.

LEER MÁS: Tipos de centros de datos: empresarial, colocación, hiperescala