HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

NVIDIA GH200 MLベンチマーク公開

NVIDIA GH200 の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA H100-PCIEと A6000 を加えた計3種のGPUで、機械学習の学習性能を比較評価しています。

ベンチマーク報告書のダウンロードはこちら >>

スペック情報

NVIDIA GH200、NVIDIA H100-PCIE、NVIDIA A6000 のスペック比較表は次のとおりです。

GPU型番 NVIDIA GH200 NVIDIA H100-PCIE NVIDIA A6000
アーキテクチャ Hopper Hopper Ampere
GPU ベースクロック   990 MHz  
GPU Boost 時クロック   1755 MHz  
CUDA コア数   14592 10752
TensorCore 数   456 336
メモリ仕様 HBM3e HBM2e GDDR6
メモリインタフェース 5120 bit 5120 bit 384 bit
メモリ帯域 4000 GB/sec 2000 GB/sec 768 GB/s
メモリ容量 96 GB 80 GB 48 GB
最大消費電力 1000 W 350 W 300 W
FP64 理論性能 34 TFLOPS 48 TFLOPS 38.7 TFLOPS
FP32 理論性能 67 TFLOPS 48 TFLOPS 38.7 TFLOPS
FP16 理論性能 134 TFLOPS 96 TFLOPS 19.4 TOPS
TensorCore FP64 理論性能 67 TFLOPS 48 TFLOPS  
TensorCore FP16 理論性能
(スパース性機能)
990 TFLOPS
(1979 TFLOPS)
800 TFLOPS
(1600 TFLOPS)
154.8 TFLOPS
(309.6 TFLOPS)
TensorCore TF32 理論性能
(スパース性機能)
494 TFLOPS
(989 TFLOPS)
400 TFLOPS
(800 TFLOPS)
77.4 TFLOPS
(154.8 TFLOPS)
TensorCore FP8 理論性能
(スパース性機能)
1979 TFLOPS
(3958 TFLOPS)
1600 TFLOPS
(3200 TFLOPS)
309.7 TOPS
(619.4 TOPS)

抜粋:CNNベンチマーク結果

NVIDIA GPU Cloud(以下、NGC)よりダウンロードしたTensorFlow のDocker イメージを使用してCNNのベンチマークを取得しました。NVIDIA H100-PCIE は、nvcr.io/nvidia/tensorflow:22.09-tf1-py3 をフレームワークとして使用したデータ、NVIDIA GH200 は、nvcr.io/nvidia/tensorflow:24.03-tf1-py3 をフレームワークとしてベンチマークを取得しました。ベンチマークには、コンテナイメージに同梱のnvidia-example/cnn を用いました。その中の2条件のベンチマーク結果を示します。ベンチマークを取得した際のバッチサイズは、inception v4 はバッチサイズ256、inception_resnet v2 はバッチサイズ128 です。

GH200 の性能が、H100-PCIE と同じ程度ということが分かりました。また、このベンチマークではCPU側のメモリを使用している様子は見られず、H100-PCIE と同程度のバッチサイズの下で、メモリエラーで落ちることを確認しました。検証した時点では、CPU メモリは何かしらの特別な方法を使用しない限り使用できないようです。

続きはベンチマーク報告書で

ベンチマーク報告書では、CNNに加えて、LoRAにおけるCPU offload有効無効の影響についてもベンチマークを取得・報告しています。

公開されている情報だけからでは、性能を予測するのは困難です。実際の性能が気になる方は、こちらのリンクからベンチマーク報告書をダウンロードしてご確認ください。