HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

NVIDIA A100 ベンチマーク公開

Nvidia A100 のベンチマーク情報を公開しました。 今回は、CNNだけでなくBERTでもベンチマークしました。下からダウンロードページに飛びます。

NVIDIA A100 機械学習ベンチマーク報告書 ダウンロード | HPCシステムズはすべての研究開発者に計算力を提供します。
HPCシステムズのベンチマーク資料ダウンロード用フォームです。

今回、アーキテクチャがAmpereへと更新され、性能向上だけでなく、様々な機能が搭載されました。

スペック情報

NVIDIA A100-PCIEと、NVIDIA V100S-PCIEのスペック比較です。

TensorCore、FP16の性能が大きく伸びました。

GPU型番

NVIDIA A100-PCIE

NVIDIA Tesla V100S-PCIE

アーキテクチャ

Ampere

Volta

GPUベースクロック

765 MHz

1245 MHz

GPU Boost時クロック

1410 MHz

1597 MHz

CUDAコア数

6912

5120

TensorCore数

432

640

メモリ仕様

HBM2

HBM2

メモリインタフェース

5120 bit

4096 bit

メモリ帯域

1555 GB/sec

1134 GB/sec

メモリ容量

40 GB

32 GB

最大消費電力

250 W

250 W

FP64理論性能

9.7 TFLOPS

8.2 TFLOPS

FP32理論性能

19.5 TFLOPS

16.4 TFLOPS

FP16理論性能

78 TFLOPS

31.4 TFLOPS

TensorCore FP64理論性能

19.5 TFLOPS

 

TensorCore FP16理論性能

(スパース性機能)

312 TFLOPS

(624 TFLOPS)

130 TFLOPS

TensorCore FP32理論性能

(スパース性機能)

156 TFLOPS

(312 TFLOS)

 

TF32、BF16、FP64へのTensorCoreの適用

 TensorCoreは、Voltaでは、FP16(半精度)、Turingでは、INT8、INT4まで適用できましたが、Ampereからは、TF32、BF16という精度も扱えるようになります。

 今まで、FP16では、表現できる数値の範囲がFP32に比べて、小さくなってしまい、範囲を超えてしまった数値が出てきて学習の結果に影響が表れることがありました。NVIDIAは混合精度やロス・スケーリングといった手法によって、FP16の有効性を主張していました。TF32やBF16は、FP32と同等の数値範囲を表現できるので、そういった欠点を解消できます。

 

MIGの導入

 MIG(マルチインスタンスGPU)により、GPUを分割して使用することが可能になります。1人が1つのGPUを占有して使用しているが、オーバースペックだという意見がありました。

 NVIDIA A100は、最大7つのGPUに分割でき、分割した場合、OSからは7つのGPUが存在するように見えます。GPUを持て余してしまう方に最適です。

まとめ

 NVIDIA A100の簡単な紹介でした。実際の性能が気になる方は、下のリンクからベンチマークレポートをダウンロードしてみてください。

NVIDIA A100 機械学習ベンチマーク報告書 ダウンロード | HPCシステムズはすべての研究開発者に計算力を提供します。
HPCシステムズのベンチマーク資料ダウンロード用フォームです。