HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。

HPCシステムズのエンジニア達による技術ブログ

Tech Blog

RTX A5000、NVIDIA A10 ベンチマーク公開

2021.09.022021.10.20

先日のNVIDIA RTX A6000のベンチマークに続いて、NVIDIA RTX A5000、NVIDIA A10のベンチマーク情報を公開しました。

RTX A5000、NVIDIA A10 機械学習ベンチマーク報告書ダウンロード | HPCシステムズはすべての研究開発者に計算力を提供します。

HPCシステムズのベンチマーク資料ダウンロード用フォームです。

NVIDIA RTX A5000、NVIDIA A10のDeep Learning学習性能を、NVIDIA RTX A6000、Geforce RTX3090と比較し、検証しています。

スペック情報

NVIDIA RTX A6000、NVIDIA RTX A5000、Geforce RTX3090、NVIDIA A10のスペック比較です。

(※公開情報などからの推測値です)

GPU型番	RTX A6000	RTX A5000	Geforce RTX 3090	NVIDIA A10
アーキテクチャ	Ampere	Ampere	Ampere	Ampere
GPU Boost時クロック	1800 MHz	1695 MHz※	1695 MHz	1695 MHz※
CUDAコア数	10752	8192	10496	9216※
TensorCore数	336	256	328	288※
メモリ仕様	GDDR6	GDDR6	GDDR6	GDDR6
メモリインタフェース	384 bit	384 bit	384 bit	384 bit
メモリ帯域	768 GB/sec	768 GB/sec	936 GB/sec	600 GB/sec
メモリ容量	48 GB	24 GB	24 GB	24 GB
最大消費電力	300 W	230 W	350 W	150 W
FP32理論性能	38.7 TFLOPS	27.8 TFLOPS	35.6 TFLOPS	31.2 TFLOPS
FP16理論性能	38.7 TFLOPS	27.8 TFLOPS※	35.6 TFLOPS	31.2 TFLOPS※
TensorCore FP16理論性能（スパース性機能）	154.8 TFLOPS （309.7 TFLOPS）	111.1 TFLOPS※ （222.2 TFLOPS）	142 TFLOPS (284 TFLOPS)	125 TFLOPS (250 TFLOPS)
TensorCore TF32理論性能（スパース性機能）	77.4 TFLOPS （154.8 TFLOS）	未公開	35.6 TFLOPS (71 TFLOPS)	62.5 TFLOPS (125 TFLOPS)

NVIDIA RTX A5000 、NVIDIA A10 の特長

　NVIDIA RTX A5000、NVIDIA A10 の特長は、

第3世代TensorCore

　新しくTF32とBF16のデータ型をサポートしました。しかし、RTX A5000は、そのパフォーマンスデータが公開されていません。RTX A6000と同様であれば、前世代と比較して、5倍、スパース性機能により10倍まで性能を向上が見込めます。

　また、NVIDIA A10の前世代を、NVIDIA T4とすると、パフォーマンスは、約8倍に、スパース性機能により約16倍にまで向上します。

新しいCUDAコア

　RTX A5000は、前世代に比べて、FP32のスループットが２倍になりました。また、NVIDIA A10の前世代を、NVIDIA T4とすると、スループットは約4倍になります。

PCIe Gen4対応

　PCI Express Gen4 に対応しました。これにより、PCIe通信帯域は、Gen3に比べて、2倍に向上しました。

続きはベンチマークレポート

　公開されている情報だけでは、性能を予測するのは難しいです。実際の性能が気になる方は、リンクよりベンチマークレポートをダウンロードしてみてください。

RTX A5000、NVIDIA A10 機械学習ベンチマーク報告書ダウンロード | HPCシステムズはすべての研究開発者に計算力を提供します。

HPCシステムズのベンチマーク資料ダウンロード用フォームです。