HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

NVDIA A100搭載水冷静音ワークステーションの検証を始めました。(1)

はじめに

昨今、HPCにおいてはCPU・GPUの演算性能が向上し、それに伴い必要な消費電力も増加しています。これにより、筐体内の熱を効果的に排熱する方法が課題となっています。この課題に対処する一つの方法として、水冷式が注目されており、当社でもデスクサイドに設置可能な水冷式ワークステーション『HPC5000-XSRGPU4TS-LC』の販売を開始しました。

今回は、この装置の外観・内観、およびGPU BurnにおけるGPUの検証結果をご紹介いたします。

スペック情報

プロセッサー 第4世代 インテル® Xeon® スケーラブル・プロセッサー
(最大TDP 270W)
プロセッサー搭載数 最大2CPU(最大64コア)
プロセッサー冷却方式 水冷式(ダイレクト・ツー・CPU(D2C)水冷)
チップセット インテル® C741
メモリスロット 16DIMMスロット/
DDR5-4800 ECC (16, 32, 64GB)
GPUカード NVIDIA A100 PCIe(水冷式)
GPUカード搭載数 最大4基
グラフィックス オンボードVGA(AST2600)
インタフェース VGA [D-sub15 ピン] ( 背面) × 1 ※ビデオカード搭載時は出力機能をOFFに設定します。
USB3.0 ( 前面 × 2)
USB3.0 ( 背面 × 3)、USB3.0 Type-C ( 背面 × 1)
10Gbase-Tポート [RJ45] (背面) ×2
シリアルポート (背面 ×1)
IPMI2.0 ポート [RJ45] (背面) × 1
全長 218.4mm×454.7mm×701mm

 

外観

前面には、USB 3.0が2つ搭載され、ディスクの交換が可能です。2.5インチのNVMeおよびSATAのHDD/SSDを8本まで搭載でき、ホットスワップに対応しています。

 

後面では、先述のインタフェースに加えて、PSU(電源ユニット)および水冷ユニットが確認できます。PSUは100V環境で最大1200W、200V環境で最大1800Wまで冗長構成が可能です。

 

 

水冷ユニットには、白いキャップで保護された冷却液の充填・排出を行うバルブが備わっており、内側には緑色の特長の冷却水の水位を確認する窓があります。交換の頻度は、液体を常時供給するのではなく、1年に1回、バルブを通じて冷却液を交換する程度です。

 

内観

前面にはラジエーターが搭載され、冷却液はこのラジエーターで冷却された後、冷却管を通ってCPU、GPU、メモリーモジュールに供給されます。CPUとGPUに搭載されたチップは、不誘電性の冷却液によって直接冷却されます。この方法は通称「Direct to Chip(D2C)」と呼ばれ、熱を吸収して蒸発し、蒸気となることで熱を放出する仕組みを活かし、最も効率的な熱除去の一つとされています。

 

水冷式のA100は通常のA100と比較して半分のサイズですが、性能は変わらず、さらにNVLinkも利用可能です。

 

NVMeSSDを2本、メモリが16本、水冷式のA100が4本搭載している状態で、ワークステーションとして使用する構成で計測した所、このマシンの重量は、44.65kgでした。

 

 

負荷テスト

水冷式のA100を4枚を使用し、GPUへの負荷テストを12時間実行しました。テストツールはGPU burnを使用しています。

 

GPU負荷テスト中の電力グラフです。負荷中に電力が約1600W記録しました。

負荷テスト中のnvidia-smiでのGPUの出力結果です。4つのA100が全て使用率100%で約300Wの電力を消費している中、温度はそれぞれ62度、61度、61度、62度でした。従来の空冷式のA100では計算時に70度や80度近くになることがありましたが、水冷式を使用することでかなり温度が抑えられることを確認できました。

 

 

いかがでしたでしょうか。今後も子の筐体の検証結果について投稿していきます。
次回は、静穏性の検証(騒音測定)の結果について投稿する予定です。