ホーム > HPC・DL・AI > HPC製品&サービス > アプライアンス > NVIDIA® DGX A100™ ディープラーニングシステム

NVIDIA® DGX A100™

NVIDIA A100上に構築された世界初のAIシステム

8基のNVIDIA A100 TensorコアGPUにより5 PFLOPS のAI演算性能を発揮

NVIDIA DGX ™ A100は、全てのAIワークロードに対応するユニバーサルシステムであり、世界初の5ペタフロップスAIシステムでこれまでにない計算密度、パフォーマンス、柔軟性を提供します。
また、世界で最も先進的なアクセラレータであるNVIDIA A100 Tensor Core GPUを備えており、企業はトレーニング、推論、分析を統合して、NVIDIA AIエキスパートへの直接アクセスを含む、統合が容易な導入AIインフラストラクチャに統合できます。

「Ampere」 アーキテクチャ A100 GPU を搭載した AI/ハイパフォーマンスコンピューティング製品「DGX A100」

NVIDIA「DGX A100」の概要

  • ■ 科学技術計算、クラウドグラフィックス、データ分析用に構築された、最新Ampere世代 NVIDIA A100 GPUを搭載。A100 GPUは540億を超えるトランジスタを7nm製造プロセスで実装。TensorFloat32 に対応しさらにSparseデータに最適化された新たな第3世代 TensorCore と容量40GBで1.6TB/s もの高帯域なHBM2メモリを備え、PetaOPS級の理論性能を誇ります。
  • ■ NVIDIA A100 GPUによりDeep Learningの劇的な加速が期待されます。さらに、Multi-Instance GPU(MIG)機能によってGPUサーバーのマルチテナント運用における集約率向上に貢献します。
  • ■ NVIDIA 技術によって加速される Spark 3.0を搭載。GPUDirect ストレージ、GPUとGPUメモリを意識したSparkスケジューラ、GPU最適化されたSpark SQLアクセラレータを備えます。Spark3.0を使ってデータセンタースケールのデータ処理(学習・推論)をハイスループットに実行します。
  • ■ DGX A100にはシステムボード上に8つのNVIDIA A100 GPUを搭載し、それらを第3世代NVLink とNVSwitchにより 600GB/s の帯域で結合。9枚のMellanox ConnectX-6 200Gbpsカードで高スケーラビリティを実現します。ソフトウェアスタックにSpark 3.0、RAPIDS、TensorFlow、PyTorch、Tritonを構成し、5PFLOPSを1台で実現する統合AIシステムです。

NVIDIA GTC 2020

すべてのAIワークロードに対応するユニバーサルシステム

NVIDIA DGX A100は、分析からトレーニング、推論まで、すべてのAIインフラストラクチャのユニバーサルシステムです。コンピューティング密度の新たな基準を設定し、5ペタフロップスのAIパフォーマンスを6Uフォームファクターにパッキングし、従来のインフラストラクチャサイロをすべてのAIワークロード用の1つのプラットフォームに置き換えます。

DGXperts:AI専門知識への統合アクセス

DGXpertsは、規範的なガイダンスと設計の専門知識を提供するAIに精通した施術者が、AIの変革を加速させています。彼らは過去10年間に豊富な経験を積み、DGXへの投資の価値を最大化する14,000人以上のAIに堪能なプロフェッショナルのグローバルチームです。
重要なアプリケーションを迅速に立ち上げて実行し、稼働を維持できるようにし、スムーズに洞察までの時間を飛躍的に向上させます。

最速での解決

NVIDIA DGX A100は、NVIDIA A100 TensorコアGPU上に構築された世界初のAIシステムです。8つのA100 GPUを統合するこのシステムは、これまでにない加速を提供し、NVIDIA CUDA-X ™ソフトウェアとエンドツーエンドのNVIDIAデータセンターソリューションスタック向けに完全に最適化されています。

比類のないデータセンターのスケーラビリティ

DGXシステムの中で最速のI/Oアーキテクチャを備えています。
NVIDIA DGX A100は、毎秒450ギガバイト(GB / s)のピーク双方向帯域幅を備えたMellanox ConnectX-6 VPI HDR InfiniBand / Ethernetネットワークアダプターを備えています。これは、DGX A100 をスケーラブルAIインフラストラクチャのエンタープライズブループリントであるNVIDIA DGX SuperPOD ™などの大規模AIクラスターの基盤となる多くの機能の1つです。大規模な最先端のネットワーキング・ハードウェアでGPUアクセラレーションされたコンピュートソフトウェアの最適化により、何千ものノードを使用してAIと大規模画像分類します。

NVIDIA A100 TensorコアGPU

NVIDIA A100 TensorコアGPUは、AI、データ分析、高性能コンピューティング(HPC)にこれまでにない加速を提供し、世界で最も困難なコンピューティングの課題に取り組みます。
また、パフォーマンスを大幅に向上させる第3世代NVIDIA Tensorコアにより、数千まで効率的に拡張できます。
第3世代TensorCore:
DLやHPCのデータ形式に十分な取り扱いサポートを持ちつつ、Sparsity(データ中のゼロの多さ)を意識した機能を備えたことで、V100を超えるスループットを実現(理想的にはV100の2倍のスループット)。
DLの学習が進むと、学習された出力を決定するのに意味のある重みは一部(約半分)となって、残りは不要(重み値がゼロ)になります。
そこでゼロでないデータの番地をインデックス化し、意味のある部分だけ計算してしまえば、学習結果を変えずに無用な計算を省いて高速化できます。

NVIDIA DGX A100紹介

A100のTensorCoreに搭載された新しいTensorFloat-32[TF32]

3:35頃で説明されている、FP32(単精度浮動小数点数)の入出力データをDLフレームワークやHPCで扱う際に、その取扱い処理を加速する簡単な方法。TensorCore内部で、FP32に比べて13ビット少ない ビット数でFP32の範囲をFP16の精度で表現し、入力をFP32で受けて 取りまとめをFP32で行う。
コード変更の必要なしに使えて、学習計算を高速化できる。V100のFP32積和演算に比べて10倍以上、ゼロが多いデータの場合は20倍以上高速化する。
FP16/FP32の混合精度のDLの場合では、A100 TensorCoreはV100の2.5倍性能、ゼロが多いデータの場合は5倍性能を実現する。

A100のTensorCoreに搭載された新しいBfloat16[BF16]/FP32混合精度演算

FP16/FP32の混合精度演算と同じ流量で実行できる。DL推論におけるINT8、INT4、2値丸めについてTensorCoreは高速化し、V100のINT8に比べてA100のゼロの多い場合のINT8は20倍以上高速化する。HPCについては、新しいIEEE準拠のFP64処理にTensorCoreは対応していて、V100のFP64性能の2.5倍を実現する。

V100とA100の学習・推論性能ベンチ結果

V100とA100のHPC計算ベンチ結果

ホワイトペーパーダウンロード

https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf

システム仕様

NVIDIA DGX A100 仕様

GPUs8x NVIDIA A100
演算性能 [Tensor演算性能] 5PFLOPS
GPU メモリ 320GB total system [GPU8基の合計]
NVIDIA Tensor コア10240
NVIDIA CUDA コア81920
CPU2x AMD Rome
7742 (128コア, 2.25GHz(base), 3.4 GHz (max boost) )
システムメモリ 1TB
ストレージ 2X 1.92TB M.2 NVME
内部ストレージ: 15TB
(4x 3.84TB) U.2 NVME
ネットワーク 8x Single-Port Mellanox
ConnectX-6 VPI
200Gb/s HDR InfiniBand
1x Dual-Port Mellanox
ConnectX-6 VPI
10/25/50/100/200Gb/s
Ethernet
システム重量 123 kg
システムサイズ 全高: 264.0mm
全幅: 482.3mm
奥行: 897.1mm
梱包重量143kg
最大消費電力 6500W
運用温度 5℃ - 30℃
ソフトウェアUbuntu Linux Host OS
DGX 推奨 GPU ドライバ
CUDA Toolkit

DGX A100 tensor コアGPU GA100

Data Center GPUNVIDIA A100
GPU CodenameGA100
GPU ArchitectureNVIDIA Ampere
GPU Board Form FactorSXM4
SMs108
TPCs54
FP32 Cores / SM64
FP32 Cores / GPU6912
FP64 Cores / SM32
FP64 Cores / GPU3456
INT32 Cores / SM64
INT32 Cores / GPU6912
Tensor Cores / GPU432
GPU Boost Clock1410 MHz
Peak FP16 Tensor TFLOPS with
FP16 Accumulate
312/624
Peak FP16 Tensor TFLOPS with
FP32 Accumulate
312/624
Peak BF16 Tensor TFLOPS with
FP32 Accumulate
312/624
Peak TF32 Tensor TFLOPS156/312
Peak FP64 Tensor TFLOPS19.5
Peak INT8 Tensor TOPS624/1248
Peak INT4 Tensor TOPS1248/2496
Peak FP16 TFLOPS78
Peak BF16 TFLOPS39
Peak FP32 TFLOPS19.5
Peak FP64 TFLOPS9.7
Peak INT32 TOPS19.5
Texture Units432
Memory Interface5120-bit HBM2
Memory Size40 GB
Memory Data Rate1215 MHz DDR
Memory Bandwidth1.6 TB/sec
L2 Cache Size40960 KB
Shared Memory Size / SMConfigurable up to
164  KB
Register File Size / SM256 KB
Register File Size / GPU27648 KB
TDP400 Watts
Transistors54.2 billion
GPU Die Size826 mm2
TSMC Manufacturing Process7 nm N7

DGX-2 は NVIDIA Advanced Technology Program (ATP) パートナーを通じて提供されます

HPCシステムズはNVIDIA社のパートナー認定制度 NVIDIA Partner Network (NPN) においてHigh Performance Computing (HPC) ならびに Deep Learning の ELITE PARTNER に認定されています。
また、DGX製品の販売資格である Advanced Technology Program (ATP) のメンバーに認定されています。

NPNとは、NVIDIA社 の Solution Provider 向けの Program です。Solution Providerは、VAR(Value Added Reseller:付加価値再販業者)と呼ばれるパートナー企業が対象となります。

■ NVIDIA Partner Network(NPN)(NVIDIA社 Website)

  • キャンペーン情報
    現在開催されているお得なキャンペーン情報はこちらから。
    詳細
  • ご購入前のお問合せ
    フォームにご入力いただければ後ほど営業よりご連絡させていただきます。
    詳細
  • 見積り依頼
    フォームにご入力いただければ後ほど営業よりご連絡させていただきます。
    詳細
CONTACT

お問い合わせ

お客様に最適な製品をご提案いたします。まずは気軽にお問い合わせ下さい。
03-5446-5531

平日9:30~17:30 (土曜日、日曜日、祝祭日、年末年始、夏期休暇は、休日とさせていただきます。)