NVIDIA L40S の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。
スペック情報
NVIDIA L40S、NVIDIA A100 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。
GPU型番 |
NVIDIA L40S |
NVIDIA A100 |
アーキテクチャ |
Ada Lovelace |
Ampere |
GPUベースクロック |
|
765 MHz |
GPU Boost時クロック |
2520 MHz |
1410 MHz |
CUDAコア数 |
18176 |
6912 |
TensorCore数 |
568 |
432 |
メモリ仕様 |
GDDR6 |
HBM2e |
メモリインタフェース |
|
5120 bit |
メモリ帯域 |
864 GB/sec |
1935 GB/sec |
メモリ容量 |
48 GB |
80 GB |
最大消費電力 |
350 W |
300 W |
FP64理論性能 |
|
9.7 TFLOPS |
FP32理論性能 |
91.6 TFLOPS |
19.5 TFLOPS |
FP16理論性能 |
91.6 TFLOPS |
78 TFLOPS |
INT32理論性能 |
|
|
TensorCore FP64 理論性能 |
|
19.5 TFLOPS |
TensorCore FP16 理論性能 (スパース性機能) |
362.05 TFLOPS (733 TFLOPS) |
312 TFLOPS (624 TFLOPS) |
TensorCore TF32 理論性能 (スパース性機能) |
183 TFLOPS (366 TFLOPS) |
156 TFLOPS (312 TFLOS) |
TensorCore INT8 理論性能 (スパース性機能) |
733 TOPS (1466 TOPS) |
624 TOPS (1248 TOPS) |
TensorCore FP8 理論性能 (スパース性機能) |
733 TFLOPS (1466 TFLOPS) |
|
抜粋:CNNモデル別 GPU世代間性能比
様々なモデルで、精度を変更しながら、NVIDIA L40S、NVIDIA A100について、学習速度をベンチマーク取得しました。
理論性能と実効性能の差についてはベンチマーク報告書の中で詳細に記載しています。
続きはベンチマーク報告書で
ベンチマーク報告書では、CNNに加えて、BERTのpretraining、そしてファインチューニングの一つLoRA(Low-Rank Adaptation)についてもベンチマークを取得・報告しています。
公開されている情報だけからでは、性能を予測するのは困難です。実際の性能が気になる方は、こちらのリンクからベンチマーク報告書をダウンロードしてご確認ください。