HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。

HPCシステムズのエンジニア達による技術ブログ

Tech Blog

RTX A5500、RTX 5000 Ada MLベンチマーク公開

2023.12.05

NVIDIA RTX A5500 と RTX 5000 Ada の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、これらのGPUに NVIDIA A6000 と RTX 4090 を加えた計4種のGPUで、機械学習の学習性能を比較評価しています。

スペック情報

NVIDIA RTX A5500、RTX 5000 Ada、RTX A6000、GeForce RTX 4090 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。

GPU型番	NVIDIA RTX A5500	NVIDIA RTX 5000 Ada	NVIDIA RTX A6000	GeForce RTX 4090
アーキテクチャ	Ampere	Ada Lovelace	Ampere	Ada Lovelace
GPUベースクロック
GPU Boost時クロック	1665 MHz	2550 MHz	1800 MHz	2520 MHz
CUDAコア数	10240	12800	10752	16384
TensorCore数	320	400	336	512
メモリ仕様	GDDR6	GDDR6	GDDR6	GDDR6X
メモリインタフェース	384 bit	256 bit	384 bit	384 bit
メモリ帯域	768 GB/sec	576 GB/sec	768 GB/sec	1008 GB/sec
メモリ容量	24 GB	32 GB	48 GB	24 GB
最大消費電力	230 W	250 W	300 W	450 W
FP64理論性能
FP32理論性能	34.1 TFLOPS	65.3 TFLOPS	38.7 TFLOPS	82.6 TFLOPS
FP16理論性能	34.1 TFLOPS	65.3 TFLOPS	38.7 TFLOPS	82.6 TFLOPS
INT32理論性能	17.1 TOPS	32.7 TOPS	19.4 TOPS	41.3 TOPS
TensorCore FP64 理論性能
TensorCore FP16 理論性能（スパース性機能）	136.4 TFLOPS (272.8 TFLOPS)	261.1 TFLOPS (522.2 TFLOPS)	154.8 TFLOPS (309.6 TFLOPS)	330.3 TFLOPS (660.6 TFLOPS)
TensorCore TF32 理論性能（スパース性機能）	68.2 TFLOPS (136.4 TFLOPS)	130.6 TFLOPS (261.2 TFLOPS)	77.4 TFLOPS (154.8 TFLOPS)	82.6 TFLOPS (165.2TFLOPS)
TensorCore INT8 理論性能（スパース性機能）	272.8 TOPS (545.6 TFLOPS)	522.2 TOPS (1044.4 TOPS)	309.7 TOPS (619.4 TOPS)	660 TOPS (1321.2 TOPS)
TensorCore FP8 理論性能（スパース性機能）		522.2 TFLOPS (1044.4 TFLOPS)		660 TFLOPS (1321.2 TFLOPS)

抜粋：CNNモデル別 GPU世代間性能比

様々なモデルで、精度を変更しながら、NVIDIA RTX A5500、RTX 5000 Ada、RTX A6000、GeForce RTX 4090について、学習速度をベンチマーク取得しました。

理論性能と実効性能の差についてはベンチマーク報告書の中で詳細に記載しています。

続きはベンチマーク報告書で

ベンチマーク報告書では、CNNに加えて、BERTのpretraining、そしてファインチューニングの一つLoRA(Low-Rank Adaptation)についてもベンチマークを取得・報告しています。

公開されている情報だけからでは、性能を予測するのは困難です。実際の性能が気になる方は、こちらのリンクからベンチマーク報告書をダウンロードしてご確認ください。