先日のNVIDIA RTX A6000のベンチマークに続いて、NVIDIA RTX A5000、NVIDIA A10のベンチマーク情報を公開しました。

NVIDIA RTX A5000、NVIDIA A10のDeep Learning学習性能を、NVIDIA RTX A6000、Geforce RTX3090と比較し、検証しています。
スペック情報
NVIDIA RTX A6000、NVIDIA RTX A5000、Geforce RTX3090、NVIDIA A10のスペック比較です。
(※公開情報などからの推測値です)
GPU型番 |
RTX A6000 |
RTX A5000 |
Geforce RTX 3090 |
NVIDIA A10 |
アーキテクチャ |
Ampere |
Ampere |
Ampere |
Ampere |
GPU Boost時クロック |
1800 MHz |
1695 MHz※ |
1695 MHz |
1695 MHz※ |
CUDAコア数 |
10752 |
8192 |
10496 |
9216※ |
TensorCore数 |
336 |
256 |
328 |
288※ |
メモリ仕様 |
GDDR6 |
GDDR6 |
GDDR6 |
GDDR6 |
メモリインタフェース |
384 bit |
384 bit |
384 bit |
384 bit |
メモリ帯域 |
768 GB/sec |
768 GB/sec |
936 GB/sec |
600 GB/sec |
メモリ容量 |
48 GB |
24 GB |
24 GB |
24 GB |
最大消費電力 |
300 W |
230 W |
350 W |
150 W |
FP32理論性能 |
38.7 TFLOPS |
27.8 TFLOPS |
35.6 TFLOPS |
31.2 TFLOPS |
FP16理論性能 |
38.7 TFLOPS |
27.8 TFLOPS※ |
35.6 TFLOPS |
31.2 TFLOPS※ |
TensorCore FP16理論性能 (スパース性機能) |
154.8 TFLOPS (309.7 TFLOPS) |
111.1 TFLOPS※ (222.2 TFLOPS) |
142 TFLOPS (284 TFLOPS) |
125 TFLOPS (250 TFLOPS) |
TensorCore TF32理論性能 (スパース性機能) |
77.4 TFLOPS (154.8 TFLOS) |
未公開 |
35.6 TFLOPS (71 TFLOPS) |
62.5 TFLOPS (125 TFLOPS) |
NVIDIA RTX A5000 、NVIDIA A10 の特長
NVIDIA RTX A5000、NVIDIA A10 の特長は、
- 第3世代TensorCore
新しくTF32とBF16のデータ型をサポートしました。しかし、RTX A5000は、そのパフォーマンスデータが公開されていません。RTX A6000と同様であれば、前世代と比較して、5倍、スパース性機能により10倍まで性能を向上が見込めます。
また、NVIDIA A10の前世代を、NVIDIA T4とすると、パフォーマンスは、約8倍に、スパース性機能により約16倍にまで向上します。
- 新しいCUDAコア
RTX A5000は、前世代に比べて、FP32のスループットが2倍になりました。また、NVIDIA A10の前世代を、NVIDIA T4とすると、スループットは約4倍になります。
- PCIe Gen4対応
PCI Express Gen4 に対応しました。これにより、PCIe通信帯域は、Gen3に比べて、2倍に向上しました。
続きはベンチマークレポート
公開されている情報だけでは、性能を予測するのは難しいです。実際の性能が気になる方は、リンクよりベンチマークレポートをダウンロードしてみてください。
