HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

NVIDIA L40S MLベンチマーク公開

NVIDIA L40S の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。

ベンチマーク報告書のダウンロードはこちら >>

スペック情報

NVIDIA L40S、NVIDIA A100 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。

GPU型番

NVIDIA

L40S

NVIDIA

A100

アーキテクチャ

Ada Lovelace

Ampere

GPUベースクロック

 

765 MHz

GPU Boost時クロック

2520 MHz

1410 MHz

CUDAコア数

18176

6912

TensorCore数

568

432

メモリ仕様

GDDR6

HBM2e

メモリインタフェース

 

5120 bit

メモリ帯域

864 GB/sec

1935 GB/sec

メモリ容量

48 GB

80 GB

最大消費電力

350 W

300 W

FP64理論性能

 

9.7 TFLOPS

FP32理論性能

91.6 TFLOPS

19.5 TFLOPS

FP16理論性能

91.6 TFLOPS

78 TFLOPS

INT32理論性能

 

 

TensorCore FP64

理論性能

 

19.5 TFLOPS

TensorCore FP16

理論性能

(スパース性機能)

362.05 TFLOPS

(733 TFLOPS)

312 TFLOPS

(624 TFLOPS)

TensorCore TF32

理論性能

(スパース性機能)

183 TFLOPS

(366 TFLOPS)

156 TFLOPS

(312 TFLOS)

TensorCore INT8

理論性能

(スパース性機能)

733 TOPS

(1466 TOPS)

624 TOPS

(1248 TOPS)

TensorCore FP8

理論性能

(スパース性機能)

733 TFLOPS

(1466 TFLOPS)

 

抜粋:CNNモデル別 GPU世代間性能比

様々なモデルで、精度を変更しながら、NVIDIA L40S、NVIDIA A100について、学習速度をベンチマーク取得しました。

理論性能と実効性能の差についてはベンチマーク報告書の中で詳細に記載しています。

続きはベンチマーク報告書で

ベンチマーク報告書では、CNNに加えて、BERTのpretraining、そしてファインチューニングの一つLoRA(Low-Rank Adaptation)についてもベンチマークを取得・報告しています。

公開されている情報だけからでは、性能を予測するのは困難です。実際の性能が気になる方は、こちらのリンクからベンチマーク報告書をダウンロードしてご確認ください。