NVIDIA RTX A5500 と RTX 5000 Ada の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、これらのGPUに NVIDIA A6000 と RTX 4090 を加えた計4種のGPUで、機械学習の学習性能を比較評価しています。
スペック情報
NVIDIA RTX A5500、RTX 5000 Ada、RTX A6000、GeForce RTX 4090 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。
GPU型番 |
NVIDIA RTX A5500 |
NVIDIA RTX 5000 Ada |
NVIDIA RTX A6000 |
GeForce RTX 4090 |
アーキテクチャ |
Ampere |
Ada Lovelace |
Ampere |
Ada Lovelace |
GPUベースクロック |
|
|
|
|
GPU Boost時クロック |
1665 MHz |
2550 MHz |
1800 MHz |
2520 MHz |
CUDAコア数 |
10240 |
12800 |
10752 |
16384 |
TensorCore数 |
320 |
400 |
336 |
512 |
メモリ仕様 |
GDDR6 |
GDDR6 |
GDDR6 |
GDDR6X |
メモリインタフェース |
384 bit |
256 bit |
384 bit |
384 bit |
メモリ帯域 |
768 GB/sec |
576 GB/sec |
768 GB/sec |
1008 GB/sec |
メモリ容量 |
24 GB |
32 GB |
48 GB |
24 GB |
最大消費電力 |
230 W |
250 W |
300 W |
450 W |
FP64理論性能 |
|
|
|
|
FP32理論性能 |
34.1 TFLOPS |
65.3 TFLOPS |
38.7 TFLOPS |
82.6 TFLOPS |
FP16理論性能 |
34.1 TFLOPS |
65.3 TFLOPS |
38.7 TFLOPS |
82.6 TFLOPS |
INT32理論性能 |
17.1 TOPS |
32.7 TOPS |
19.4 TOPS |
41.3 TOPS |
TensorCore FP64 理論性能 |
|
|
|
|
TensorCore FP16 理論性能 (スパース性機能) |
136.4 TFLOPS (272.8 TFLOPS) |
261.1 TFLOPS (522.2 TFLOPS) |
154.8 TFLOPS (309.6 TFLOPS) |
330.3 TFLOPS (660.6 TFLOPS) |
TensorCore TF32 理論性能 (スパース性機能) |
68.2 TFLOPS (136.4 TFLOPS) |
130.6 TFLOPS (261.2 TFLOPS) |
77.4 TFLOPS (154.8 TFLOPS) |
82.6 TFLOPS (165.2TFLOPS) |
TensorCore INT8 理論性能 (スパース性機能) |
272.8 TOPS (545.6 TFLOPS) |
522.2 TOPS (1044.4 TOPS) |
309.7 TOPS (619.4 TOPS) |
660 TOPS (1321.2 TOPS) |
TensorCore FP8 理論性能 (スパース性機能) |
|
522.2 TFLOPS (1044.4 TFLOPS) |
|
660 TFLOPS (1321.2 TFLOPS) |
抜粋:CNNモデル別 GPU世代間性能比
様々なモデルで、精度を変更しながら、NVIDIA RTX A5500、RTX 5000 Ada、RTX A6000、GeForce RTX 4090について、学習速度をベンチマーク取得しました。
理論性能と実効性能の差についてはベンチマーク報告書の中で詳細に記載しています。
続きはベンチマーク報告書で
ベンチマーク報告書では、CNNに加えて、BERTのpretraining、そしてファインチューニングの一つLoRA(Low-Rank Adaptation)についてもベンチマークを取得・報告しています。
公開されている情報だけからでは、性能を予測するのは困難です。実際の性能が気になる方は、こちらのリンクからベンチマーク報告書をダウンロードしてご確認ください。