NVIDIA GH200 MLベンチマーク公開 | HPCシステムズ Tech Blog

NVIDIA GH200 の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA H100-PCIEと A6000 を加えた計3種のGPUで、機械学習の学習性能を比較評価しています。

スペック情報

NVIDIA GH200、NVIDIA H100-PCIE、NVIDIA A6000 のスペック比較表は次のとおりです。

GPU型番	NVIDIA GH200	NVIDIA H100-PCIE	NVIDIA A6000
アーキテクチャ	Hopper	Hopper	Ampere
GPU ベースクロック		990 MHz
GPU Boost 時クロック		1755 MHz
CUDA コア数		14592	10752
TensorCore 数		456	336
メモリ仕様	HBM3e	HBM2e	GDDR6
メモリインタフェース	5120 bit	5120 bit	384 bit
メモリ帯域	4000 GB/sec	2000 GB/sec	768 GB/s
メモリ容量	96 GB	80 GB	48 GB
最大消費電力	1000 W	350 W	300 W
FP64 理論性能	34 TFLOPS	48 TFLOPS	38.7 TFLOPS
FP32 理論性能	67 TFLOPS	48 TFLOPS	38.7 TFLOPS
FP16 理論性能	134 TFLOPS	96 TFLOPS	19.4 TOPS
TensorCore FP64 理論性能	67 TFLOPS	48 TFLOPS
TensorCore FP16 理論性能（スパース性機能）	990 TFLOPS (1979 TFLOPS)	800 TFLOPS (1600 TFLOPS)	154.8 TFLOPS (309.6 TFLOPS)
TensorCore TF32 理論性能（スパース性機能）	494 TFLOPS (989 TFLOPS)	400 TFLOPS (800 TFLOPS)	77.4 TFLOPS (154.8 TFLOPS)
TensorCore FP8 理論性能（スパース性機能）	1979 TFLOPS (3958 TFLOPS)	1600 TFLOPS (3200 TFLOPS)	309.7 TOPS (619.4 TOPS)

抜粋：CNNベンチマーク結果

NVIDIA GPU Cloud（以下、NGC）よりダウンロードしたTensorFlow のDocker イメージを使用してCNNのベンチマークを取得しました。NVIDIA H100-PCIE は、nvcr.io/nvidia/tensorflow:22.09-tf1-py3 をフレームワークとして使用したデータ、NVIDIA GH200 は、nvcr.io/nvidia/tensorflow:24.03-tf1-py3 をフレームワークとしてベンチマークを取得しました。ベンチマークには、コンテナイメージに同梱のnvidia-example/cnn を用いました。その中の2条件のベンチマーク結果を示します。ベンチマークを取得した際のバッチサイズは、inception v4 はバッチサイズ256、inception_resnet v2 はバッチサイズ128 です。

GH200 の性能が、H100-PCIE と同じ程度ということが分かりました。また、このベンチマークではCPU側のメモリを使用している様子は見られず、H100-PCIE と同程度のバッチサイズの下で、メモリエラーで落ちることを確認しました。検証した時点では、CPU メモリは何かしらの特別な方法を使用しない限り使用できないようです。