NVIDIA® A シリーズ

ホーム > HPC・DL・AI > HPC製品＆サービス > ハードウェア > GPU > NVIDIA® A シリーズ

Ampere世代のGPU
次世代のデータサイエンス、AI、データ分析、HPC アプリケーションを加速

NVIDIA A800 40GB Active

NVIDIA A800 40GB Activeの特長

NVIDIA Ampere アーキテクチャを搭載
540 億個のトランジスタを搭載した NVIDIA Ampere アーキテクチャは、これまでに製造されてきた中で最大の 7 ナノメートル (nm) チップ。HPC・AIに劇的な高速化、優れたスケーラビリティを提供します。
第3世代 Tensor コア
倍精度 (FP64) および Tensor Float 32(TF32) 精度のサポートにより、様々なAI・HPC アプリケーションに対応する性能と汎用性を備えます。また、前世代と比較して最大2倍のパフォーマンスと効率を実現しました。
HPCアプリケーションのパフォーマンスを向上
H100は倍精度Tensorコアの演算速度を3倍に向上させ、HPCでは60 teraFLOPSのFP64コンピューティングを実現。AIと統合されたHPCアプリケーションでは、TF32精度を利用し、単精度行列乗算演算で1 petaFLOPのスループットを達成。さらにDPX命令を備え、前世代から飛躍的な高速化を実現しています。
第 3 世代 NVIDIA NVLink
GPU間の相互接続帯域幅が増加し、単一のスケーラブルメモリで処理が高速化され、より大規模なデータセットに対処できます。NVIDIA NVLink®を使用してNVIDIA A800 40GB Active GPUのペアを接続することで、80GBのメモリを持つマルチGPUに拡張され、実効メモリフットプリントが80GBに増加し、最大400GB/秒（双方向）の速度でGPU間のデータ転送が可能です。こ
超高速 HBM2 メモリ
40GBの高速HBM2メモリと40MBのレベル2キャッシュを備えたオンチップメモリにより、大規模な計算スループットを実現し、AIやHPCの高負荷ワークロードを効率的に高速化します。/span>

製品検証やベンチマークについて情報発信中

HPCシステムズでは独自にNVIDIA A800(40GB Active)、NVIDIA A100の計2種のGPUで機械学習の学習性能を比較評価しています。検討にあたって是非ご活用ください。
ベンチマーク報告書をダウンロードする
 NVIDIA Aシリーズに関連する記事を読む

Ampere

40GB HBM2

PCI-Express 4.0 x16 : 64GB/s

A800 40GB Activeの製品仕様を見る

比較表をダウンロードする

NVIDIA A100 for PCIe: Ampere

80GB HBM2

PCI-Express 4.0 x16 : 64GB/s; 製品仕様はこちら

NVIDIA A40: Ampere

48GB GDDR6

PCI Express Gen 4 x 16; 製品仕様はこちら

NVIDIA A10: Ampere

24GB GDDR6

PCI Express Gen 4 x 16; 製品仕様はこちら

製品仕様

NVIDIA A800 40GB Active

アーキテクチャ	Ampere
プロセスルール	7nm(TSMC)
倍精度性能	FP64 : 9.7TFLOPS FP64 Tensor Core : 19.5TFLOPS
単精度性能	FP32 : 19.5TFLOPS Tensor Float 32(TF32) : 156TFLOPS(Structural sparsity有効時312TFLOPS)
半精度性能	312TFLOPS(Structural sparsity有効時624TFLOPS)
Bfloat16	312TFLOPS(Structural sparsity有効時624TFLOPS)
整数性能	INT8 : 624TOPS(Structural sparsity有効時1,248TOPS) INT4 :1,248TOPS(Structural sparsity有効時2,496TOPS)
GPUメモリ	40GB HBM2
メモリ帯域	1.555TB/s
ECC	有効
グラフィックスバス	PCI-Express 4.0 x16 : 64GB/s
マルチインスタンスGPU(MIG)	最大7GPU
最大消費電力	240W
実アプリ性能	0.9
冷却方法	Active
API	CUDA、DirectCompute、OpenCL、OpenACC
概形寸法	2スロットサイズ

NVIDIA A100 for PCIe

アーキテクチャ	Ampere
プロセスルール	7nm(TSMC)
倍精度性能	FP64 : 9.7TFLOPS FP64 Tensor Core : 19.5TFLOPS
単精度性能	FP32 : 19.5TFLOPS Tensor Float 32(TF32) : 156TFLOPS(Structural sparsity有効時312TFLOPS)
半精度性能	312TFLOPS(Structural sparsity有効時624TFLOPS)
Bfloat16	312TFLOPS(Structural sparsity有効時624TFLOPS)
整数性能	INT8 : 624TOPS(Structural sparsity有効時1,248TOPS) INT4 :1,248TOPS(Structural sparsity有効時2,496TOPS)
GPUメモリ	80GB HBM2
メモリ帯域	1.935TB/s
ECC	有効
グラフィックスバス	PCI-Express 4.0 x16 : 64GB/s
マルチインスタンスGPU(MIG)	最大7GPU
最大消費電力	300W
実アプリ性能	90%
冷却方法	Passive
API	CUDA、DirectCompute、OpenCL、OpenACC
概形寸法	2スロットサイズ

NVIDIA A40

アーキテクチャ	Ampere
CUDAコア数	10752コア
Tensorコア数	336コア
RTコア数	84コア
FP32	37.4 teraFLOPS
TF32 Tensor コア	74.8 teraFLOPS \| 150 teraFLOPS ※疎性あり
BFLOAT16 Tensor コア	150 teraFLOPS \| 299 teraFLOPS ※疎性あり
FP16 Tensor コア	150 teraFLOPS \| 299 teraFLOPS ※疎性あり
INT8 Tensor コア	299 TOPS \| 599 TOPS ※疎性あり
INT4 Tensor コア	599 TOPS \| 1,197 TOPS ※疎性あり
GPU メモリ	48 GB GDDR6
メモリバス	384 bit
メモリバンド幅	696GB/s
ディスプレイポート	4x DisplayPort 1.4*
最大消費電力	300 W
グラフィックスバス	PCI Express Gen 4 x 16
ECC機能	あり
冷却方法	Passive
NVLink	NVIDIA NVLink Bridge 2-way low profile（2slot）
vGPU ソフトウェア対応	NVIDIA GRID®、NVIDIA Quadro® 仮想データセンターワークステーション、NVIDIA 仮想コンピュートサーバー
サポートされている vGPU プロファイル	1 GB, 2 GB, 3 GB, 4 GB, 6 GB, 8 GB, 12 GB, 16 GB, 24 GB, 48 GB
外形寸法	266.7mm（幅）× 111.15mm（高さ）× 37mm（厚さ） 2スロットサイズ

NVIDIA A10

アーキテクチャ	Ampere
CUDAコア数	9216
Tensorコア数	288
RTコア数	72 RT コア
FP32	31.2 teraFLOPS
TF32 Tensor コア	62.5 teraFLOPS \| 125 teraFLOPS ※疎性あり
BFLOAT16 Tensor コア	125 teraFLOPS \| 250 teraFLOPS ※疎性あり
FP16 Tensor コア	125 teraFLOPS \| 250 teraFLOPS ※疎性あり
INT8 Tensor コア	250 TOPS \| 500 TOPS ※疎性あり
INT4 Tensor コア	500 TOPS \| 1,000 TOPS ※疎性あり
GPU メモリ	24 GB GDDR6
メモリバンド幅	600GB/s
最大消費電力	150 W
グラフィックスバス	PCI Express Gen 4 x 16
ECC機能	あり
冷却方法	Passive
vGPU ソフトウェア対応	NVIDIA 仮想 PC、NVIDIA 仮想アプリケーション、NVIDIA RTX 仮想ワークステーション、NVIDIA 仮想コンピューティングサーバー
外形寸法	268.60mm（幅）× 111.15mm（高さ）× 18mm（厚さ） 1スロットサイズ