先日の、NVIDIA A100のベンチマークに続いて、NVIDIA RTX A6000 のベンチマーク情報を公開しました。
NVIDIA RTX A6000の Deep Learning 学習性能を、NVIDIA A100、Tesla V100Sと比較し、検証しています。
スペック情報
NVIDIA A100-PCIE、NVIDIA RTX A6000、NVIDIA V100S-PCIEのスペック比較です。
NVIDIA RTX A6000は、一部公開されていません。
GPU型番 |
NVIDIA A100-PCIE |
NVIDIA RTX A6000 |
NVIDIA Tesla V100S-PCIE |
アーキテクチャ |
Ampere |
Ampere |
Volta |
GPUベースクロック |
765 MHz |
? |
1245 MHz |
GPU Boost時クロック |
1410 MHz |
? |
1597 MHz |
CUDAコア数 |
6912 |
10752 |
5120 |
TensorCore数 |
432 |
336 |
640 |
メモリ仕様 |
HBM2 |
GDDR6 |
HBM2 |
メモリインタフェース |
5120 bit |
384 bit |
4096 bit |
メモリ帯域 |
1555 GB/sec |
768 GB/sec |
1134 GB/sec |
メモリ容量 |
40 GB |
48 GB |
32 GB |
最大消費電力 |
250 W |
300 W |
250 W |
FP64理論性能 |
9.7 TFLOPS |
|
8.2 TFLOPS |
FP32理論性能 |
19.5 TFLOPS |
38.7 TFLOPS |
16.4 TFLOPS |
FP16理論性能 |
78 TFLOPS |
? |
31.4 TFLOPS |
TensorCore FP64理論性能 |
19.5 TFLOPS |
|
|
TensorCore FP16理論性能 (スパース性機能) |
312 TFLOPS (624 TFLOPS) |
154.8 TFLOPS (309.7 TFLOPS) |
130 TFLOPS |
TensorCore TF32理論性能 (スパース性機能) |
156 TFLOPS (312 TFLOS) |
? |
|
NVIDIA RTX A6000 の特長
https://blogs.nvidia.com/blog/2020/10/05/nvidia-ampere-pro-graphics/ から、NVIDIA RTX A6000の特長を抜粋します。
- 第3世代TensorCore
新しくTF32とBF16のデータ型をサポートしました。それにより、全世代と比較して、5倍、スパース性機能により10倍まで性能を向上しました。
- 新しいCUDAコア
全世代に比べて、FP32のスループットが2倍になりました。
- PCIe Gen4対応
PCI Express Gen4 に対応しました。これにより、PCIe通信帯域は、Gen3に比べて、2倍に向上しました。
続きはベンチマークレポート
公開されている情報だけでは、性能を予測するのは難しいです。実際の性能が気になる方は、リンクよりベンチマークレポートをダウンロードしてみてください。