HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

NVIDIA A800 MLベンチマーク公開

NVIDIA A800(40GB Active) の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。

ベンチマーク報告書のダウンロードはこちら >>

スペック情報

NVIDIA A800、NVIDIA A100 のスペック比較表は次のとおりです。

GPU型番

NVIDIA A800

40GB Active

NVIDIA A100

80GB PCIe

アーキテクチャ

Ampere

Ampere

GPUベースクロック

765 MHz

765 MHz

GPU Boost時クロック

2100 MHz

1410 MHz

CUDAコア数

6912

6912

TensorCore数

432

432

メモリ仕様

HBM2e

HBM2e

メモリインタフェース

5120 bit

5120 bit

メモリ帯域

1555.2 GB/sec

1935 GB/sec

メモリ容量

40 GB

80 GB

最大消費電力

240 W

300 W

FP64理論性能

9.7 TFLOPS

9.7 TFLOPS

FP32理論性能

19.5 TFLOPS

19.5 TFLOPS

FP16理論性能

78 TFLOPS

78 TFLOPS

INT32理論性能

 

 

TensorCore FP64

理論性能

19.5 TFLOPS

19.5 TFLOPS

TensorCore FP16

理論性能

(スパース性機能)

312 TFLOPS

(624 TFLOPS)

312 TFLOPS

(624 TFLOPS)

TensorCore TF32

理論性能

(スパース性機能)

156 TFLOPS

(312 TFLOS)

156 TFLOPS

(312 TFLOS)

TensorCore FP8

理論性能

(スパース性機能)

 

 

抜粋:CNNモデル別 GPU世代間性能比

様々なモデルで、精度を変更しながら、NVIDIA A800 40GB Active、NVIDIA A100 80GB PCIeについて、学習速度をベンチマーク取得しました。

続きはベンチマーク報告書で

ベンチマーク報告書では、CNNに加えて、BERTのpretrainingについてもベンチマークを取得・報告しています。

公開されている情報だけからでは、性能を予測するのは困難です。実際の性能が気になる方は、こちらのリンクからベンチマーク報告書をダウンロードしてご確認ください。