
Amazon Web Services (AWS) は、Nvidia の最新 GPU の要求に対応するために設計された独自の冷却システムを発表しました。
In-Row Heat Exchanger (IRHX) は、Nvidia GB200 NVL72 などのハードウェアの電力と熱の需要の高まりに応じて開発されました。
AWS は既存の液体冷却ソリューションを評価しましたが、それが同社のニーズを満たしていないことがわかりました。
次の AWS Graviton でしょうか?
「それらはデータセンターの床面積をあまりにも多く占有し、依然としてデータセンターの大規模な改修を必要とし、あるいは水の使用量を大幅に増やすことになるだろう」とAWSのコンピューティングおよびMLサービス担当副社長デイブ・ブラウン氏はYouTubeに投稿されたプレゼンテーションで述べている。プレゼンテーションは以下から見ることができる。
「これらのソリューションの一部は、他のサプライヤーでは少量生産には有効かもしれませんが、当社の規模には到底不十分です。」
IRHX システムは、ポンプ装置、配水キャビネット、ファンコイルユニットで構成されています。
液体はAWSとNvidiaが共同設計した冷却プレートを介してチップを冷却し、その後IRHXに戻って循環し、そこで冷却されて放出されます。
「IRHX を使用すれば、ラックに合わせてデータ センターを設計する必要はありません」とブラウン氏は述べています。
このシステムは、GB200 NVL72 を含む AWS の最も強力な EC2 インスタンスである P6e UltraServer をサポートしています。このラックレベルのセットアップにより、72 個の Blackwell GPU を 1 つのユニットとして連携させることができます。
GB200 NVL72 は「72 個の Nvidia Blackwell GPU を 1 つの大型 GPU として動作させることが可能になります」とブラウン氏は述べた。
Amazon はこれまでにも、チップやネットワークシステムなどのカスタムハードウェアを構築してきた。 IRHX はその戦略を冷却にも拡張し、AWS が施設を再設計することなく新しい GPU ラックを導入できるようにしました。
同社によれば、このシステムは既存のラックサイズとインフラストラクチャに適合し、世界中のデータセンターに拡張できるという。
IRHXは現在NvidiaのBlackwellベースのシステムとペアになっていますが、冷却ニーズが高まった場合にはAmazon独自のGravitonチップでも動作するようになると思われます。
現在、このシステムは規模と速度が求められる AI ワークロードに活用されています。