NVIDIA A800(40GB Active) の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。
スペック情報
NVIDIA A800、NVIDIA A100 のスペック比較表は次のとおりです。
GPU型番 |
NVIDIA A800 40GB Active |
NVIDIA A100 80GB PCIe |
アーキテクチャ |
Ampere |
Ampere |
GPUベースクロック |
765 MHz |
765 MHz |
GPU Boost時クロック |
2100 MHz |
1410 MHz |
CUDAコア数 |
6912 |
6912 |
TensorCore数 |
432 |
432 |
メモリ仕様 |
HBM2e |
HBM2e |
メモリインタフェース |
5120 bit |
5120 bit |
メモリ帯域 |
1555.2 GB/sec |
1935 GB/sec |
メモリ容量 |
40 GB |
80 GB |
最大消費電力 |
240 W |
300 W |
FP64理論性能 |
9.7 TFLOPS |
9.7 TFLOPS |
FP32理論性能 |
19.5 TFLOPS |
19.5 TFLOPS |
FP16理論性能 |
78 TFLOPS |
78 TFLOPS |
INT32理論性能 |
|
|
TensorCore FP64 理論性能 |
19.5 TFLOPS |
19.5 TFLOPS |
TensorCore FP16 理論性能 (スパース性機能) |
312 TFLOPS (624 TFLOPS) |
312 TFLOPS (624 TFLOPS) |
TensorCore TF32 理論性能 (スパース性機能) |
156 TFLOPS (312 TFLOS) |
156 TFLOPS (312 TFLOS) |
TensorCore FP8 理論性能 (スパース性機能) |
|
抜粋:CNNモデル別 GPU世代間性能比
様々なモデルで、精度を変更しながら、NVIDIA A800 40GB Active、NVIDIA A100 80GB PCIeについて、学習速度をベンチマーク取得しました。
続きはベンチマーク報告書で
ベンチマーク報告書では、CNNに加えて、BERTのpretrainingについてもベンチマークを取得・報告しています。
公開されている情報だけからでは、性能を予測するのは困難です。実際の性能が気になる方は、こちらのリンクからベンチマーク報告書をダウンロードしてご確認ください。