NVIDIA DGX ™ A100は、全てのAIワークロードに対応するユニバーサルシステムであり、世界初の5ペタフロップスAIシステムでこれまでにない計算密度、パフォーマンス、柔軟性を提供します。
また、世界で最も先進的なアクセラレータであるNVIDIA A100 Tensor Core GPUを備えており、企業はトレーニング、推論、分析を統合して、NVIDIA AIエキスパートへの直接アクセスを含む、統合が容易な導入AIインフラストラクチャに統合できます。
「NVIDIA DGX A100」に、このNVIDIA A100 80GBを搭載した「NVIDIA DGX A100 640GB System」も発表されました。
従来のDGX A100をご利用のお客様にはGPUボードのアップグレードサービスも提供される予定です。
DGXpertsは、規範的なガイダンスと設計の専門知識を提供するAIに精通した施術者が、AIの変革を加速させています。彼らは過去10年間に豊富な経験を積み、DGXへの投資の価値を最大化する14,000人以上のAIに堪能なプロフェッショナルのグローバルチームです。
重要なアプリケーションを迅速に立ち上げて実行し、稼働を維持できるようにし、スムーズに洞察までの時間を飛躍的に向上させます。
DGXシステムの中で最速のI/Oアーキテクチャを備えています。
NVIDIA DGX A100は、毎秒450ギガバイト(GB / s)のピーク双方向帯域幅を備えたMellanox ConnectX-6 VPI HDR InfiniBand / Ethernetネットワークアダプターを備えています。これは、DGX A100 をスケーラブルAIインフラストラクチャのエンタープライズブループリントであるNVIDIA DGX SuperPOD ™などの大規模AIクラスターの基盤となる多くの機能の1つです。大規模な最先端のネットワーキング・ハードウェアでGPUアクセラレーションされたコンピュートソフトウェアの最適化により、何千ものノードを使用してAIと大規模画像分類します。
NVIDIA A100 TensorコアGPUは、AI、データ分析、高性能コンピューティング(HPC)にこれまでにない加速を提供し、世界で最も困難なコンピューティングの課題に取り組みます。
また、パフォーマンスを大幅に向上させる第3世代NVIDIA Tensorコアにより、数千まで効率的に拡張できます。
第3世代TensorCore:
DLやHPCのデータ形式に十分な取り扱いサポートを持ちつつ、Sparsity(データ中のゼロの多さ)を意識した機能を備えたことで、V100を超えるスループットを実現(理想的にはV100の2倍のスループット)。
DLの学習が進むと、学習された出力を決定するのに意味のある重みは一部(約半分)となって、残りは不要(重み値がゼロ)になります。
そこでゼロでないデータの番地をインデックス化し、意味のある部分だけ計算してしまえば、学習結果を変えずに無用な計算を省いて高速化できます。
3:35頃で説明されている、FP32(単精度浮動小数点数)の入出力データをDLフレームワークやHPCで扱う際に、その取扱い処理を加速する簡単な方法。TensorCore内部で、FP32に比べて13ビット少ない ビット数でFP32の範囲をFP16の精度で表現し、入力をFP32で受けて 取りまとめをFP32で行う。
コード変更の必要なしに使えて、学習計算を高速化できる。V100のFP32積和演算に比べて10倍以上、ゼロが多いデータの場合は20倍以上高速化する。
FP16/FP32の混合精度のDLの場合では、A100 TensorCoreはV100の2.5倍性能、ゼロが多いデータの場合は5倍性能を実現する。
FP16/FP32の混合精度演算と同じ流量で実行できる。DL推論におけるINT8、INT4、2値丸めについてTensorCoreは高速化し、V100のINT8に比べてA100のゼロの多い場合のINT8は20倍以上高速化する。HPCについては、新しいIEEE準拠のFP64処理にTensorCoreは対応していて、V100のFP64性能の2.5倍を実現する。
SYSTEM | NVIDIA DGX A100 640GB |
---|---|
GPUs | 8x NVIDIA A100 80 GB GPUs |
演算性能 [Tensor演算性能] | 5 petaFLOPS AI 10 petaOPS INT8 |
GPU メモリ | 640 GB total |
NVIDIA NVSwitches | 6 |
System Power Usage | 6500W |
CPU | Dual AMD Rome 7742, 128 cores total, 2.25 GHz (base), 3.4 GHz (max boost) |
システムメモリ | 2 TB |
ネットワーク | 8x SinglePort Mellanox ConnectX-6 VPI 200Gb/s HDR InfiniBand 2x Dual-Port Mellanox ConnectX-6 VPI 10/25/50/100/200 Gb/s Ethernet |
内蔵ストレージ | OS: 2x 1.92 TB M.2 NVME drives Internal Storage: 30 TB (3.84 TB x 8) U.2 NVMe drives |
内蔵ストレージ最大容量 | 30 TB (3.84 TB x 8) |
ソフトウェア | Ubuntu Linux OS |
システム重量 | 123.16 kg |
梱包重量 | 163.16kg |
システムサイズ | 全高: 264.0mm 全幅: 482.3mm 奥行: 897.1mm |
運用温度 | 5℃ - 30℃ |
Data Center GPU | NVIDIA A100 |
---|---|
GPU Codename | GA100 |
GPU Architecture | NVIDIA Ampere |
GPU Board Form Factor | SXM4 |
SMs | 108 |
TPCs | 54 |
FP32 Cores / SM | 64 |
FP32 Cores / GPU | 6912 |
FP64 Cores / SM | 32 |
FP64 Cores / GPU | 3456 |
INT32 Cores / SM | 64 |
INT32 Cores / GPU | 6912 |
Tensor Cores / GPU | 432 |
GPU Boost Clock | 1410 MHz |
Peak FP16 Tensor TFLOPS with FP16 Accumulate | 312/624 |
Peak FP16 Tensor TFLOPS with FP32 Accumulate | 312/624 |
Peak BF16 Tensor TFLOPS with FP32 Accumulate | 312/624 |
Peak TF32 Tensor TFLOPS | 156/312 |
Peak FP64 Tensor TFLOPS | 19.5 |
Peak INT8 Tensor TOPS | 624/1248 |
Peak INT4 Tensor TOPS | 1248/2496 |
Peak FP16 TFLOPS | 78 |
Peak BF16 TFLOPS | 39 |
Peak FP32 TFLOPS | 19.5 |
Peak FP64 TFLOPS | 9.7 |
Peak INT32 TOPS | 19.5 |
Texture Units | 432 |
Memory Interface | 5120-bit HBM2 |
Memory Size | 40 GB |
Memory Data Rate | 1215 MHz DDR |
Memory Bandwidth | 1.6 TB/sec |
L2 Cache Size | 40960 KB |
Shared Memory Size / SM | Configurable up to 164 KB |
Register File Size / SM | 256 KB |
Register File Size / GPU | 27648 KB |
TDP | 400 Watts |
Transistors | 54.2 billion |
GPU Die Size | 826 mm2 |
TSMC Manufacturing Process | 7 nm N7 |
平日9:30~17:30 (土曜日、日曜日、祝祭日、年末年始、夏期休暇は、休日とさせていただきます。)