ホーム > HPC・DL・AI > HPC製品&サービス > アプライアンス > NVIDIA DGX A100 ディープラーニングシステム

NVIDIA DGX A100

NVIDIA A100上に構築された世界初のAIシステム

8基のNVIDIA A100 TensorコアGPUにより5 PFLOPS のAI演算性能を発揮

NVIDIA DGX ™ A100は、全てのAIワークロードに対応するユニバーサルシステムであり、世界初の5ペタフロップスAIシステムでこれまでにない計算密度、パフォーマンス、柔軟性を提供します。
また、世界で最も先進的なアクセラレータであるNVIDIA A100 Tensor Core GPUを備えており、企業はトレーニング、推論、分析を統合して、NVIDIA AIエキスパートへの直接アクセスを含む、統合が容易な導入AIインフラストラクチャに統合できます。

■NEWS

「NVIDIA DGX A100」に、このNVIDIA A100 80GBを搭載した「NVIDIA DGX A100 640GB System」も発表されました。
従来のDGX A100をご利用のお客様にはGPUボードのアップグレードサービスも提供される予定です。

「Ampere」 アーキテクチャ A100 GPU を搭載した AI/ハイパフォーマンスコンピューティング製品「DGX A100」

NVIDIA「DGX A100」の概要

  • ■ 科学技術計算、クラウドグラフィックス、データ分析用に構築された、最新Ampere世代 NVIDIA A100 GPUを搭載。A100 GPUは540億を超えるトランジスタを7nm製造プロセスで実装。TensorFloat32 に対応しさらにSparseデータに最適化された新たな第3世代 TensorCore と容量40GBで1.6TB/s もの高帯域なHBM2メモリを備え、PetaOPS級の理論性能を誇ります。
  • ■ NVIDIA A100 GPUによりDeep Learningの劇的な加速が期待されます。さらに、Multi-Instance GPU(MIG)機能によってGPUサーバーのマルチテナント運用における集約率向上に貢献します。
  • ■ NVIDIA 技術によって加速される Spark 3.0を搭載。GPUDirect ストレージ、GPUとGPUメモリを意識したSparkスケジューラ、GPU最適化されたSpark SQLアクセラレータを備えます。Spark3.0を使ってデータセンタースケールのデータ処理(学習・推論)をハイスループットに実行します。
  • ■ DGX A100にはシステムボード上に8つのNVIDIA A100 GPUを搭載し、それらを第3世代NVLink とNVSwitchにより 600GB/s の帯域で結合。9枚のMellanox ConnectX-6 200Gbpsカードで高スケーラビリティを実現します。ソフトウェアスタックにSpark 3.0、RAPIDS、TensorFlow、PyTorch、Tritonを構成し、5PFLOPSを1台で実現する統合AIシステムです。

NVIDIA GTC 2020

すべてのAIワークロードに対応するユニバーサルシステム

NVIDIA DGX A100は、分析からトレーニング、推論まで、すべてのAIインフラストラクチャのユニバーサルシステムです。コンピューティング密度の新たな基準を設定し、5ペタフロップスのAIパフォーマンスを6Uフォームファクターにパッキングし、従来のインフラストラクチャサイロをすべてのAIワークロード用の1つのプラットフォームに置き換えます。

DGXperts:AI専門知識への統合アクセス

DGXpertsは、規範的なガイダンスと設計の専門知識を提供するAIに精通した施術者が、AIの変革を加速させています。彼らは過去10年間に豊富な経験を積み、DGXへの投資の価値を最大化する14,000人以上のAIに堪能なプロフェッショナルのグローバルチームです。
重要なアプリケーションを迅速に立ち上げて実行し、稼働を維持できるようにし、スムーズに洞察までの時間を飛躍的に向上させます。

最速での解決

NVIDIA DGX A100は、NVIDIA A100 TensorコアGPU上に構築された世界初のAIシステムです。8つのA100 GPUを統合するこのシステムは、これまでにない加速を提供し、NVIDIA CUDA-X ™ソフトウェアとエンドツーエンドのNVIDIAデータセンターソリューションスタック向けに完全に最適化されています。

比類のないデータセンターのスケーラビリティ

DGXシステムの中で最速のI/Oアーキテクチャを備えています。
NVIDIA DGX A100は、毎秒450ギガバイト(GB / s)のピーク双方向帯域幅を備えたMellanox ConnectX-6 VPI HDR InfiniBand / Ethernetネットワークアダプターを備えています。これは、DGX A100 をスケーラブルAIインフラストラクチャのエンタープライズブループリントであるNVIDIA DGX SuperPOD ™などの大規模AIクラスターの基盤となる多くの機能の1つです。大規模な最先端のネットワーキング・ハードウェアでGPUアクセラレーションされたコンピュートソフトウェアの最適化により、何千ものノードを使用してAIと大規模画像分類します。

NVIDIA A100 TensorコアGPU

NVIDIA A100 TensorコアGPUは、AI、データ分析、高性能コンピューティング(HPC)にこれまでにない加速を提供し、世界で最も困難なコンピューティングの課題に取り組みます。
また、パフォーマンスを大幅に向上させる第3世代NVIDIA Tensorコアにより、数千まで効率的に拡張できます。
第3世代TensorCore:
DLやHPCのデータ形式に十分な取り扱いサポートを持ちつつ、Sparsity(データ中のゼロの多さ)を意識した機能を備えたことで、V100を超えるスループットを実現(理想的にはV100の2倍のスループット)。
DLの学習が進むと、学習された出力を決定するのに意味のある重みは一部(約半分)となって、残りは不要(重み値がゼロ)になります。
そこでゼロでないデータの番地をインデックス化し、意味のある部分だけ計算してしまえば、学習結果を変えずに無用な計算を省いて高速化できます。

NVIDIA DGX A100紹介

A100のTensorCoreに搭載された新しいTensorFloat-32[TF32]

3:35頃で説明されている、FP32(単精度浮動小数点数)の入出力データをDLフレームワークやHPCで扱う際に、その取扱い処理を加速する簡単な方法。TensorCore内部で、FP32に比べて13ビット少ない ビット数でFP32の範囲をFP16の精度で表現し、入力をFP32で受けて 取りまとめをFP32で行う。
コード変更の必要なしに使えて、学習計算を高速化できる。V100のFP32積和演算に比べて10倍以上、ゼロが多いデータの場合は20倍以上高速化する。
FP16/FP32の混合精度のDLの場合では、A100 TensorCoreはV100の2.5倍性能、ゼロが多いデータの場合は5倍性能を実現する。

A100のTensorCoreに搭載された新しいBfloat16[BF16]/FP32混合精度演算

FP16/FP32の混合精度演算と同じ流量で実行できる。DL推論におけるINT8、INT4、2値丸めについてTensorCoreは高速化し、V100のINT8に比べてA100のゼロの多い場合のINT8は20倍以上高速化する。HPCについては、新しいIEEE準拠のFP64処理にTensorCoreは対応していて、V100のFP64性能の2.5倍を実現する。

V100とA100の学習・推論性能ベンチ結果

V100とA100のHPC計算ベンチ結果

ホワイトペーパーダウンロード

https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf

システム仕様

NVIDIA DGX A100 仕様

SYSTEMNVIDIA DGX A100 640GB
GPUs8x NVIDIA A100 80 GB GPUs
演算性能 [Tensor演算性能] 5 petaFLOPS AI
10 petaOPS INT8
GPU メモリ 640 GB total
NVIDIA NVSwitches6
System Power Usage6500W
CPUDual AMD Rome 7742, 128 cores total,
2.25 GHz (base), 3.4 GHz (max boost)
システムメモリ 2 TB
ネットワーク 8x SinglePort Mellanox
ConnectX-6 VPI
200Gb/s HDR
InfiniBand
2x Dual-Port
Mellanox
ConnectX-6 VPI
10/25/50/100/200
Gb/s Ethernet
内蔵ストレージ OS: 2x 1.92 TB M.2
NVME drives
Internal Storage:
30 TB (3.84 TB x 8)
U.2 NVMe drives
内蔵ストレージ最大容量 30 TB (3.84 TB x 8)
ソフトウェアUbuntu Linux OS
システム重量 123.16 kg
梱包重量163.16kg
システムサイズ 全高: 264.0mm
全幅: 482.3mm
奥行: 897.1mm
運用温度 5℃ - 30℃

DGX A100 tensor コアGPU GA100

Data Center GPUNVIDIA A100
GPU CodenameGA100
GPU ArchitectureNVIDIA Ampere
GPU Board Form FactorSXM4
SMs108
TPCs54
FP32 Cores / SM64
FP32 Cores / GPU6912
FP64 Cores / SM32
FP64 Cores / GPU3456
INT32 Cores / SM64
INT32 Cores / GPU6912
Tensor Cores / GPU432
GPU Boost Clock1410 MHz
Peak FP16 Tensor TFLOPS with
FP16 Accumulate
312/624
Peak FP16 Tensor TFLOPS with
FP32 Accumulate
312/624
Peak BF16 Tensor TFLOPS with
FP32 Accumulate
312/624
Peak TF32 Tensor TFLOPS156/312
Peak FP64 Tensor TFLOPS19.5
Peak INT8 Tensor TOPS624/1248
Peak INT4 Tensor TOPS1248/2496
Peak FP16 TFLOPS78
Peak BF16 TFLOPS39
Peak FP32 TFLOPS19.5
Peak FP64 TFLOPS9.7
Peak INT32 TOPS19.5
Texture Units432
Memory Interface5120-bit HBM2
Memory Size40 GB
Memory Data Rate1215 MHz DDR
Memory Bandwidth1.6 TB/sec
L2 Cache Size40960 KB
Shared Memory Size / SMConfigurable up to
164  KB
Register File Size / SM256 KB
Register File Size / GPU27648 KB
TDP400 Watts
Transistors54.2 billion
GPU Die Size826 mm2
TSMC Manufacturing Process7 nm N7

当社はNVIDIA Partner Network (NPN) においてHPCとディープラニングのELITE PARTNER

  • キャンペーン情報
    現在開催されているお得なキャンペーン情報はこちらから。
    詳細
  • ご購入前のお問合せ
    フォームにご入力いただければ後ほど営業よりご連絡させていただきます。
    詳細
  • 見積り依頼
    フォームにご入力いただければ後ほど営業よりご連絡させていただきます。
    詳細
CONTACT

お問い合わせ

お客様に最適な製品をご提案いたします。まずは気軽にお問い合わせ下さい。
03-5446-5531

平日9:30~17:30 (土曜日、日曜日、祝祭日、年末年始、夏期休暇は、休日とさせていただきます。)