Microsoft inaugura su primera 'superfábrica' de IA

Microsoft ha inaugurado su primera 'superfábrica' de IA, conectando centros de datos distantes.
Este sistema utiliza fibra óptica de alta velocidad y diseño denso para optimizar el entrenamiento de modelos de IA.
La infraestructura avanzada incluye sistemas de refrigeración líquida para gestionar el calor de los clústeres de GPU.

Microsoft ha presentado su innovadora primera 'superfábrica' de inteligencia artificial, unificando sus grandes centros de datos de IA en Wisconsin y Atlanta a través de una red de fibra dedicada. Este diseño busca facilitar el movimiento de datos a alta velocidad, esencial para las tareas de entrenamiento de modelos de IA a gran escala. La configuración innovadora acerca los chips, distribuidos en dos plantas, para aumentar la densidad computacional y minimizar la latencia. Además, se emplean extensos sistemas de cableado y circuitos líquidos para gestionar de manera eficiente el peso y el calor generados por los densos clústeres de hardware.

Infraestructura para el entrenamiento de IA a gran escala

La compañía ha adaptado los protocolos y la arquitectura de red para acortar las rutas de comunicación y mantener un flujo de datos constante con el mínimo retraso posible. Microsoft afirma que esta configuración permite que sitios geográficamente distantes colaboren en el mismo proceso de entrenamiento de modelos de IA casi en tiempo real, donde cada ubicación aporta su capacidad de cómputo. El objetivo principal es asegurar la actividad continua de grandes cantidades de unidades de procesamiento gráfico (GPU), evitando pausas innecesarias mientras esperan resultados de otras ubicaciones. Scott Guthrie, vicepresidente ejecutivo de Cloud + AI de Microsoft, destacó que liderar en IA no solo implica añadir más GPUs, sino construir la infraestructura que las haga funcionar como un único sistema.

Diseño y refrigeración avanzados

Microsoft utiliza el diseño 'Fairwater' para soportar sistemas de racks de alto rendimiento, incluyendo las unidades Nvidia GB200 NVL72, concebidas para escalar a clústeres muy grandes de GPUs Blackwell. La empresa complementa este hardware con sistemas de refrigeración líquida que transportan el fluido caliente fuera del edificio y lo devuelven a temperaturas más bajas. Según Microsoft, este sistema de refrigeración operativa consume muy poca agua nueva, más allá de reemplazos periódicos necesarios para el control químico. El sitio de Atlanta replica la disposición de Wisconsin, asegurando una arquitectura consistente a medida que se incorporan más instalaciones.

El futuro de la computación con IA

Mark Russinovich, CTO de Microsoft Azure, señaló que para mejorar las capacidades de la IA, se requiere una infraestructura cada vez mayor. «La cantidad de infraestructura necesaria ahora para entrenar estos modelos no es solo un centro de datos, ni dos, sino múltiples de ellos», explicó. La compañía posiciona estas instalaciones como construidas específicamente para entrenar herramientas avanzadas de IA, citando el aumento en el número de parámetros y el tamaño de los conjuntos de datos de entrenamiento como presiones clave que impulsan esta expansión. Las instalaciones incorporan exabytes de almacenamiento y millones de núcleos de CPU para dar soporte a las tareas que rodean los flujos de trabajo de entrenamiento principales. Microsoft sugiere que esta escala es fundamental para que socios como OpenAI y su propio equipo de Superinteligencia Artificial continúen el desarrollo de modelos.