HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

RTX A5500、RTX 5000 Ada MLベンチマーク公開

NVIDIA RTX A5500 と RTX 5000 Ada の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、これらのGPUに NVIDIA A6000 と RTX 4090 を加えた計4種のGPUで、機械学習の学習性能を比較評価しています。

スペック情報

NVIDIA RTX A5500、RTX 5000 Ada、RTX A6000、GeForce RTX 4090 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。

GPU型番

NVIDIA

RTX A5500

NVIDIA

RTX 5000 Ada

NVIDIA

RTX A6000

GeForce

RTX 4090

アーキテクチャ

Ampere

Ada Lovelace

Ampere

Ada Lovelace

GPUベースクロック

 

 

 

 

GPU Boost時クロック

1665 MHz

2550 MHz

1800 MHz

2520 MHz

CUDAコア数

10240

12800

10752

16384

TensorCore数

320

400

336

512

メモリ仕様

GDDR6

GDDR6

GDDR6

GDDR6X

メモリインタフェース

384 bit

256 bit

384 bit

384 bit

メモリ帯域

768 GB/sec

576 GB/sec

768 GB/sec

1008 GB/sec

メモリ容量

24 GB

32 GB

48 GB

24 GB

最大消費電力

230 W

250 W

300 W

450 W

FP64理論性能

 

 

 

 

FP32理論性能

34.1 TFLOPS

65.3 TFLOPS

38.7 TFLOPS

82.6 TFLOPS

FP16理論性能

34.1 TFLOPS

65.3 TFLOPS

38.7 TFLOPS

82.6 TFLOPS

INT32理論性能

17.1 TOPS

32.7 TOPS

19.4 TOPS

41.3 TOPS

TensorCore FP64

理論性能

 

 

 

 

TensorCore FP16

理論性能

(スパース性機能)

136.4 TFLOPS

(272.8 TFLOPS)

261.1 TFLOPS

(522.2 TFLOPS)

154.8 TFLOPS

(309.6 TFLOPS)

330.3 TFLOPS

(660.6 TFLOPS)

TensorCore TF32

理論性能

(スパース性機能)

68.2 TFLOPS

(136.4 TFLOPS)

130.6 TFLOPS

(261.2 TFLOPS)

77.4 TFLOPS

(154.8 TFLOPS)

82.6 TFLOPS

(165.2TFLOPS)

TensorCore INT8

理論性能

(スパース性機能)

272.8 TOPS

(545.6 TFLOPS)

522.2 TOPS

(1044.4 TOPS)

309.7 TOPS

(619.4 TOPS)

660 TOPS

(1321.2 TOPS)

TensorCore FP8

理論性能

(スパース性機能)

 

522.2 TFLOPS

(1044.4 TFLOPS)

 

660 TFLOPS

(1321.2 TFLOPS)

抜粋:CNNモデル別 GPU世代間性能比

様々なモデルで、精度を変更しながら、NVIDIA RTX A5500、RTX 5000 Ada、RTX A6000、GeForce RTX 4090について、学習速度をベンチマーク取得しました。

理論性能と実効性能の差についてはベンチマーク報告書の中で詳細に記載しています。

続きはベンチマーク報告書で

ベンチマーク報告書では、CNNに加えて、BERTのpretraining、そしてファインチューニングの一つLoRA(Low-Rank Adaptation)についてもベンチマークを取得・報告しています。

公開されている情報だけからでは、性能を予測するのは困難です。実際の性能が気になる方は、こちらのリンクからベンチマーク報告書をダウンロードしてご確認ください。