HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。

HPCシステムズのエンジニア達による技術ブログ

Tech Blog

NVIDIA A800 MLベンチマーク公開

2024.02.062024.03.14

NVIDIA A800(40GB Active) の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。

ベンチマーク報告書のダウンロードはこちら >>

スペック情報

NVIDIA A800、NVIDIA A100 のスペック比較表は次のとおりです。

GPU型番	NVIDIA A800 40GB Active	NVIDIA A100 80GB PCIe
アーキテクチャ	Ampere	Ampere
GPUベースクロック	765 MHz	765 MHz
GPU Boost時クロック	2100 MHz	1410 MHz
CUDAコア数	6912	6912
TensorCore数	432	432
メモリ仕様	HBM2e	HBM2e
メモリインタフェース	5120 bit	5120 bit
メモリ帯域	1555.2 GB/sec	1935 GB/sec
メモリ容量	40 GB	80 GB
最大消費電力	240 W	300 W
FP64理論性能	9.7 TFLOPS	9.7 TFLOPS
FP32理論性能	19.5 TFLOPS	19.5 TFLOPS
FP16理論性能	78 TFLOPS	78 TFLOPS
INT32理論性能
TensorCore FP64 理論性能	19.5 TFLOPS	19.5 TFLOPS
TensorCore FP16 理論性能（スパース性機能）	312 TFLOPS （624 TFLOPS）	312 TFLOPS （624 TFLOPS）
TensorCore TF32 理論性能（スパース性機能）	156 TFLOPS （312 TFLOS）	156 TFLOPS （312 TFLOS）
TensorCore FP8 理論性能（スパース性機能）

抜粋：CNNモデル別 GPU世代間性能比

様々なモデルで、精度を変更しながら、NVIDIA A800 40GB Active、NVIDIA A100 80GB PCIeについて、学習速度をベンチマーク取得しました。

続きはベンチマーク報告書で

ベンチマーク報告書では、CNNに加えて、BERTのpretrainingについてもベンチマークを取得・報告しています。

公開されている情報だけからでは、性能を予測するのは困難です。実際の性能が気になる方は、こちらのリンクからベンチマーク報告書をダウンロードしてご確認ください。