Amazon Web Services (AWS) ha levantado discretamente uno de sus proyectos tecnológicos más ambiciosos hasta la fecha: Project Rainier, una gigantesca supercomputadora diseñada para entrenar modelos de inteligencia artificial de próxima generación y fortalecer su posición frente a Nvidia, líder indiscutible en chips para IA.
El UltraCluster, como lo ha denominado AWS, se despliega en múltiples centros de datos distribuidos por Estados Unidos y está destinado principalmente a Anthropic, aliado clave de Amazon en la carrera por la IA generativa.
El corazón de este coloso tecnológico son los chips Trainium2, desarrollados por Annapurna Labs, subsidiaria de Amazon. Aunque se desconoce la cifra exacta, se estima que se utilizarán cientos de miles de estos aceleradores, lo que lo convierte en la mayor implementación de silicio propio de la compañía.
Uno de los campus principales se ubica en Indiana y contará con 30 centros de datos de más de 18.000 m² cada uno, con un consumo energético estimado de 2,2 gigavatios, superando el gasto de muchas ciudades medianas.
Esta infraestructura contrasta con megaproyectos como Stargate de OpenAI o Colossus de xAI, al apostar por un sistema distribuido y escalable.
Rendimiento y escalabilidad frente a Nvidia
Los Trainium2 no compiten por velocidad bruta individual frente a los poderosos chips Blackwell de Nvidia, pero sí destacan por su eficiencia y escalabilidad. Cada chip ofrece hasta 5,2 petaFLOPS en FP8 con sparsity, mientras que su arquitectura modular permite agrupar 16 aceleradores por instancia y escalar hasta UltraServers de 64 chips, interconectados con NeuronLink v3 y una red óptica con latencias inferiores a 10 microsegundos.
Con miles de estos UltraServers, Amazon construye un clúster capaz de alcanzar cientos de exaFLOPS en rendimiento agregado. Además, la refrigeración por aire reduce la complejidad operativa y los costos frente a sistemas rivales que requieren refrigeración líquida. -
Project Rainier no es un proyecto aislado: Amazon ya trabaja en Trainium3, la siguiente generación de chips que promete cuatro veces más potencia y un 40% de eficiencia adicional, gracias a la tecnología de 3 nanómetros de TSMC. Si llega a tiempo, cada UltraServer podría superar el exaFLOP, acercando a Amazon a la frontera de la supercomputación exaescala.
Gadi Hutt, director de producto e ingeniería de atención al cliente en Annapurna Labs, la división especializada en chips de AWS, dijo sobre el rendimiento del clúster:
“Rainier ofrecerá cinco veces más poder de cómputo en comparación con el clúster de entrenamiento más grande que utiliza actualmente Anthropic. Para un modelo de frontera como Claude, mientras más capacidad de cómputo se invierta en su entrenamiento, más inteligente y preciso será. Estamos construyendo poder computacional a una escala nunca antes vista y lo estamos haciendo con una velocidad y agilidad sin precedentes.”
Con una inversión de 8.000 millones de dólares en Anthropic, Amazon consolida su apuesta por una IA generativa que no dependa de Nvidia ni de proveedores externos.
Al ofrecer el poder de Rainier como API en la nube, AWS busca democratizar el acceso a cómputo de entrenamiento masivo para startups y empresas de todo el mundo.
Project Rainier no es solo una supercomputadora: es la piedra angular de la estrategia de Amazon para dominar la infraestructura de la próxima era de la inteligencia artificial, donde el rendimiento, la escalabilidad y la independencia tecnológica marcarán la diferencia.