HPCシステムズでは独自にNVIDIA A800(40GB Active)、NVIDIA A100の計2種のGPUで機械学習の学習性能を比較評価しています。検討にあたって是非ご活用ください。
ベンチマーク報告書をダウンロードする
NVIDIA Aシリーズに関連する記事を読む
アーキテクチャ | Ampere |
---|---|
プロセスルール | 7nm(TSMC) |
倍精度性能 | FP64 : 9.7TFLOPS FP64 Tensor Core : 19.5TFLOPS |
単精度性能 | FP32 : 19.5TFLOPS Tensor Float 32(TF32) : 156TFLOPS(Structural sparsity有効時312TFLOPS) |
半精度性能 | 312TFLOPS(Structural sparsity有効時624TFLOPS) |
Bfloat16 | 312TFLOPS(Structural sparsity有効時624TFLOPS) |
整数性能 | INT8 : 624TOPS(Structural sparsity有効時1,248TOPS) INT4 :1,248TOPS(Structural sparsity有効時2,496TOPS) |
GPUメモリ | 40GB HBM2 |
メモリ帯域 | 1.555TB/s |
ECC | 有効 |
グラフィックス バス | PCI-Express 4.0 x16 : 64GB/s |
マルチインスタンスGPU(MIG) | 最大7GPU |
最大消費電力 | 240W |
実アプリ性能 | 0.9 |
冷却方法 | Active |
API | CUDA、DirectCompute、OpenCL、OpenACC |
概形寸法 | 2スロットサイズ |
アーキテクチャ | Ampere |
---|---|
プロセスルール | 7nm(TSMC) |
倍精度性能 | FP64 : 9.7TFLOPS FP64 Tensor Core : 19.5TFLOPS |
単精度性能 | FP32 : 19.5TFLOPS Tensor Float 32(TF32) : 156TFLOPS(Structural sparsity有効時312TFLOPS) |
半精度性能 | 312TFLOPS(Structural sparsity有効時624TFLOPS) |
Bfloat16 | 312TFLOPS(Structural sparsity有効時624TFLOPS) |
整数性能 | INT8 : 624TOPS(Structural sparsity有効時1,248TOPS) INT4 :1,248TOPS(Structural sparsity有効時2,496TOPS) |
GPUメモリ | 80GB HBM2 |
メモリ帯域 | 1.935TB/s |
ECC | 有効 |
グラフィックス バス | PCI-Express 4.0 x16 : 64GB/s |
マルチインスタンスGPU(MIG) | 最大7GPU |
最大消費電力 | 300W |
実アプリ性能 | 90% |
冷却方法 | Passive |
API | CUDA、DirectCompute、OpenCL、OpenACC |
概形寸法 | 2スロットサイズ |
アーキテクチャ | Ampere |
---|---|
CUDAコア数 | 10752コア |
Tensorコア数 | 336コア |
RTコア数 | 84コア |
FP32 | 37.4 teraFLOPS |
TF32 Tensor コア | 74.8 teraFLOPS | 150 teraFLOPS ※疎性あり |
BFLOAT16 Tensor コア | 150 teraFLOPS | 299 teraFLOPS ※疎性あり |
FP16 Tensor コア | 150 teraFLOPS | 299 teraFLOPS ※疎性あり |
INT8 Tensor コア | 299 TOPS | 599 TOPS ※疎性あり |
INT4 Tensor コア | 599 TOPS | 1,197 TOPS ※疎性あり |
GPU メモリ | 48 GB GDDR6 |
メモリバス | 384 bit |
メモリバンド幅 | 696GB/s |
ディスプレイ ポート | 4x DisplayPort 1.4* |
最大消費電力 | 300 W |
グラフィックス バス | PCI Express Gen 4 x 16 |
ECC機能 | あり |
冷却方法 | Passive |
NVLink | NVIDIA NVLink Bridge 2-way low profile(2slot) |
vGPU ソフトウェア対応 | NVIDIA GRID®、NVIDIA Quadro® 仮想データ センター ワークステーション、NVIDIA 仮想コンピュート サーバー |
サポートされている vGPU プロファイル | 1 GB, 2 GB, 3 GB, 4 GB, 6 GB, 8 GB, 12 GB, 16 GB, 24 GB, 48 GB |
外形寸法 | 266.7mm(幅)× 111.15mm(高さ)× 37mm(厚さ) 2スロットサイズ |
アーキテクチャ | Ampere |
---|---|
CUDAコア数 | 9216 |
Tensorコア数 | 288 |
RTコア数 | 72 RT コア |
FP32 | 31.2 teraFLOPS |
TF32 Tensor コア | 62.5 teraFLOPS | 125 teraFLOPS ※疎性あり |
BFLOAT16 Tensor コア | 125 teraFLOPS | 250 teraFLOPS ※疎性あり |
FP16 Tensor コア | 125 teraFLOPS | 250 teraFLOPS ※疎性あり |
INT8 Tensor コア | 250 TOPS | 500 TOPS ※疎性あり |
INT4 Tensor コア | 500 TOPS | 1,000 TOPS ※疎性あり |
GPU メモリ | 24 GB GDDR6 |
メモリバンド幅 | 600GB/s |
最大消費電力 | 150 W |
グラフィックス バス | PCI Express Gen 4 x 16 |
ECC機能 | あり |
冷却方法 | Passive |
vGPU ソフトウェア対応 | NVIDIA 仮想 PC、NVIDIA 仮想アプリケーション、NVIDIA RTX 仮想ワークステーション、NVIDIA 仮想コンピューティング サーバー |
外形寸法 | 268.60mm(幅)× 111.15mm(高さ)× 18mm(厚さ) 1スロットサイズ |
※会社名及び製品名等は、当社及び各社の商標または登録商標です。価格、写真、仕様等は予告なく変更する場合があります。製品の色調及び仕様は実際と異なる場合があります。
平日9:30~17:30 (土曜日、日曜日、祝祭日、年末年始、夏期休暇は、休日とさせていただきます。)