Deep Learning (深層学習) 向け製品

ホーム » HPCソリューション » Deep Learning(深層学習)向け製品ラインナップ » HPC5000-XBWGPU8R2G-DL 特長

| 特長 | 仕様 | 価格 | 製品一覧 | 製品カタログ |

HPC5000-XBWGPU8R2G-DLの特長

2Uサイズの筐体にNVIDIA® Tesla® シリーズGPUを8基搭載可能
Deep Learning (深層学習) を加速するハイエンドマルチGPUサーバー
HPC5000-XBWGPU8R2G-DL_main_small HPC5000-XBWGPU8R2G-DL
HPC5000-XBWGPU8R2G-DLは、インテル® Xeon® プロセッサー E5-2600 v4 ファミリーと、NVIDIA® Tesla® シリーズGPUに対応したハイエンドマルチGPUサーバーです。
2Uサイズの省スペースなラックマウント筐体に、最大2CPU(44コア)、1.5TBメモリ、2.5型 SAS/SATA HDDを8台、GPUカードを8基搭載可能です。なお、本製品には深層学習に必要な主なソフトウェアのインストールサービス※が付属します。
※ライセンス許諾契約手続きはお客様ご自身でお願いいたします。詳しくはお問い合わせください。
HPC5000-XBWGPU8R2G-DL_main_banner HPC5000-XBWGPU8R2G-DL_front_banner HPC5000-XBWGPU8R2G-DL_rear_banner HPC5000-XBWGPU8R2G-DL_node_topview_banner HPC5000-XBWGPU8R2G-DL_GPU-slot_banner NVIDIA_Tesla_K80_banner

製品の特長

■ 2Uサイズの筐体にNVIDIA® Tesla® シリーズGPUを最大8基搭載可能8xTesla_image

HPC5000-XBWGPU8R2Gは、2Uサイズの省スペースなラックマウント筐体にNVIDIA® Tesla® シリーズGPUを最大8基搭載可能です。
本製品を用いることで、数時間から数日を要する深層学習の計算時間を大幅に短縮することができます。


■ インテル® Xeon® プロセッサー E5-2600 v4 ファミリーを最大2CPU(44コア)搭載可能badge-xeon

HPC5000-XBWGPU8R2G-DLは、14nm世代の最新CPU インテル® Xeon® プロセッサー E5-2600 v4 ファミリーを最大2CPU(44コア)搭載可能です。

インテル® Xeon® プロセッサー E5-2600 v4 ファミリーの仕様
プロセッサー・
ナンバー
コア数 動作周波数 AVX時
動作周波数
Last Level
Cache
QPIリンク速度 DDR4周波数 TDP 1CPUのピーク性能
(倍精度)
E5-2699A v4 22 2.4GHz N/A 55MB 9.6GT/s 2400 / 2133 / 1866 / 1600 145W N/A
E5-2699 v4 2.2GHz 1.8GHz 55MB 9.6GT/s 2400 / 2133 / 1866 / 1600 145W 633.6Gflops
E5-2697 v4 18 2.3GHz 2.0GHz 45MB 9.6GT/s 2400 / 2133 / 1866 / 1600 145W 576.0Gflops
E5-2695 v4 2.1GHz 1.7GHz 45MB 9.6GT/s 2400 / 2133 / 1866 / 1600 120W 489.6Gflops
E5-2697A v4 16 2.6GHz 2.2GHz 40MB 9.6GT/s 2400 / 2133 / 1866 / 1600 145W 563.2Gflops
E5-2683 v4 2.1GHz 1.7GHz 40MB 9.6GT/s 2400 / 2133 / 1866 / 1600 120W 435.2Gflops
E5-2690 v4 14 2.6GHz 2.1GHz 35MB 9.6GT/s 2400 / 2133 / 1866 / 1600 135W 470.4Gflops
E5-2680 v4 2.4GHz 1.9GHz 35MB 9.6GT/s 2400 / 2133 / 1866 / 1600 120W 425.6Gflops
E5-2660 v4 2.0GHz 1.7GHz 35MB 9.6GT/s 2400 / 2133 / 1866 / 1600 105W 380.8Gflops
E5-2687W v4 12 3.0GHz 2.6GHz 30MB 9.6GT/s 2400 / 2133 / 1866 / 1600 160W 499.2Gflops
E5-2650 v4 2.2GHz 1.8GHz 30MB 9.6GT/s 2400 / 2133 / 1866 / 1600 105W 345.6Gflops
E5-2640 v4 10 2.4GHz 2.0GHz 25MB 8.0GT/s 2133 / 1866 / 1600 90W 320.0Gflops
E5-2630 v4 2.2GHz 1.8GHz 25MB 8.0GT/s 2133 / 1866 / 1600 85W 288.0 Gflops
E5-2667 v4 8 3.2GHz 2.6GHz 25MB 9.6GT/s 2400 / 2133 / 1866 / 1600 135W 332.8Gflops
E5-2620 v4 2.1GHz 1.8GHz 20MB 8.0GT/s 2133 / 1866 / 1600 85W 230.4Gflops
E5-2609 v4 1.7GHz 1.7GHz 20MB 6.4GT/s 1866 / 1600 85W 217.6Gflops
E5-2643 v4 6 3.4GHz 2.8GHz 20MB 9.6GT/s 2400 / 2133 / 1866 / 1600 135W 268.8Gflops
E5-2603 v4 1.7GHz 1.7GHz 15MB 6.4GT/s 1866 / 1600 85W 163.2Gflops
E5-2637 v4 4 3.5GHz 3.2GHz 15MB 9.6GT/s 2400 / 2133 / 1866 / 1600 135W 204.8Gflops
E5-2623 v4 2.6GHz 2.2GHz 10MB 8.0GT/s 2133 / 1866 / 1600 85W 140.8Gflops

■ 最大1.5TBメモリ搭載可能

HPC5000-XBWGPU8R2G-DLは、DDR4-2400対応メモリスロットを24本搭載し、64GBメモリモジュールを使用すると最大1.5TBのメモリ容量を確保することができます。

■ 2.5型HDDを最大8台搭載可能

HPC5000-XBWGPU8R2G_hdd

HPC5000-XBWGPU8R2G-DLは、2.5型のHDDを8台まで搭載することができます。HDDは前面からアクセスできるホットスワップエンクロージャに収納され、レバー操作で交換が可能であるため、メインテナンス作業が容易に行えます。


■ 高い変換効率を誇る80PLUS PLATINUM認証取得電源を搭載80plus_platinum_logo

HPC5000-XBWGPU8R2G-DLは、80PLUS PLATINUM認証を取得した高効率な電源を搭載しています。80PLUS認証とは、交流から直流への変換効率を保証するものです。80PLUS PLATINUM認証は、負荷率20%/50%/100%でそれぞれ90%/92%/89%という高い変換効率基準をクリアしたものだけに与えられます。

■ IPMI2.0 (Intelligent Platform Management Interface 2.0) が高度な遠隔監視、操作を実現

標準搭載されたIPMI2.0機能は専用のLANポートを備え、リモートによる温度、電力、ファンの動作、CPUエラー、メモリーエラーの監視を可能にします。また電源のオンオフ、コンソール操作を遠隔から行うことができます。これらの機能によりシステムの信頼性、可用性を高め、ダウンタイムとメインテナンス費用を圧縮することを可能にします。


深層学習に必要な主なソフトウェアのインストールサービスが付属します

本製品には、深層学習に必要な主なソフトウェアのインストールサービス※が付属します。

※ライセンス許諾契約手続きはお客様ご自身でお願いいたします。詳しくはお問い合わせください。


Pascal アーキテクチャGPU NVIDIA® Tesla® P100

新しい NVIDIA® Pascal™ アーキテクチャの導入により、Tesla® P100はHPCやハイパースケールワークロードに対する最高水準の性能を獲得し、ディープラーニングの刺激的な可能性を切り拓くのに最適なアーキテクチャです。
また、Tesla® P100は半導体からソフトウェアまで新しい発想で構成され、随所に革新的な技術を使用しており、それぞれの先駆的テクノロジがパフォーマンスの劇的な飛躍をもたらし、世界最速の計算ノード開発を推進しています。

Tesla® P100 for PCI-e-Based Servers 仕様
CUDAコア 3584
CUDAコア周波数 1.126GHz(GPU Boost時最大1.303GHz)
半精度浮動小数点数演算性能 16.14TFLOPS(GPU Boost時 18.68TFLOPS)
単精度浮動小数点数演算性能 8.07TFLOPS(GPU Boost時 9.34TFLOPS)
倍精度浮動小数点数演算性能 4.04TFLOPS(GPU Boost時 4.67TFLOPS)
メモリ容量 (ECCオフ) 16 GB, 12 GB
メモリバンド幅 732GB/s (16GB), 549GB/s (12GB)
消費電力 250W
放熱機構 Passive(ファン無し)

Tesla® P100 アクセラレータの特徴と利点

Tesla® P100 は半導体からソフトウェアまで新しい発想で構成され、随所に革新的な技術を使用しています。それぞれの先駆的テクノロジがパフォーマンスの劇的な飛躍をもたらし、世界最速の計算ノード開発を推進しています。

Pascal アーキテクチャによる指数関数的なパフォーマンス向上
exponential-performance-leap

新しい NVIDIA Pascal™ アーキテクチャの導入により、Tesla P100 は HPC やハイパースケールワークロードに対する最高水準の性能を獲得しました。18.7 TFLOPSにも及ぶ半精度浮動小数点演算性能(FP16)を備えた本製品は、ディープラーニングの刺激的な可能性を切り拓きます。


CoWoS と HBM2 がもたらす、かつてない効率
unprecedented-efficiency

Tesla P100 は HBM2 テクノロジを実装した CoWoS (Chip on Wafer on Substrate) を組み込んで、コンピューティングとデータを同一パッケージに統合し、前世代の 3 倍を超えるメモリ性能を実現しています。


簡潔なプログラミングを可能にするページマイグレーションエンジン
page-migration-engine

ページマイグレーションエンジンのおかげで、開発者はデータの動きを管理することに気をとられず、コンピューティング性能のチューニングに集中できます。GPU の物理メモリサイズを超えて、最大 2 TBまでアプリケーションを展開できるようになりました。


NEW! 推論を加速する NVIDIA® Tesla® P40

Tesla® P40は、ディープラーニングのワークロードに最高のスループットを実現します。8ビット演算(INT8)命令で1秒あたり47テラ・オペレーション(TOPS)の推論パフォーマンスを誇り、Tesla® P40アクセラレーターを8個搭載したサーバーは、140個以上のCPUを搭載したサーバーと同等のパフォーマンスを発揮します。

Tesla® P40 仕様
CUDAコア 3840
単精度浮動小数点数演算性能 12TFLOPS ※GPU Boost時
Integer Operations (INT8) 47 TOPS(Tera-Operations per Second)
メモリ容量 (ECCオフ) 24GB
メモリバンド幅 346GB/s
消費電力 250W
放熱機構 Passive(ファン無し)

Tesla® P40 アクセラレータの特徴と利点

Tesla® P40は、ユーザーやデバイスからのクエリに反応して、トレーニングされたディープ・ニューラル・ネットワークを使って音声や画像、テキストを認識する「推論」を行うよう特別に設計されています。


CPUに対して30分の1のレイテンシ

Tesla-P40-BMT_NV01

Tesla M40に対して4倍のスループット

Tesla-P40-BMT_NV02

爆発的なデータ量に対応するCPUサーバ比140倍の高スループット
exponential-performance-leap

最新のPascal アーキテクチャが採用されたTesla® P40は、ディープラーニングの推論において47TOPS(Tera-Operations per Second)以上の性能を提供します。8基のTesla® P40を搭載した1台のサーバの性能は、CPUのみのサーバ140台に匹敵し、導入コストを抑えながらスループットを大幅に向上することができます。


リアルタイム推論
page-migration-engine

Tesla® P40は、複雑なディープラーニングモデルであっても、INT8オペレーションによって、リアルタイムに最大30倍の推論性能を提供します。



推論プラットフォームによる簡単な操作を実現
unprecedented-efficiency

今日、ディープラーニングモデルはGPUサーバでトレーニングされていますが、推論においてはCPUサーバで展開されています。Tesla® P40は大幅に単純化されたワークフローを提供するため、組織は同じサーバーを使用して反復および展開することができます。


NVIDIA DEEP LEARNING SDK
page-migration-engine

NVIDIA Deep Learning SDK および Deep Stream SDKに含まれる TensorRT は、新しいINT8オペレーションやビデオトランスコーディングのような推論機能をシームレスに活用するのに役立ちます。



NVIDIA® Tesla® M40
TeslaM40_small.png

Tesla® M40 は、米NVIDIA社が2015年11月10日に、Deep Learning (深層学習) 向けGPUとして発表したNVIDIA® Tesla® シリーズの最新製品です。Tesla® シリーズは大規模な科学技術計算やCAE/CFD解析、HPC(ハイパフォーマンスコンピューティング)を実現すべく開発されてきましたが、Tesla® M40 は、近年、多方面で進められている深層学習の研究において必要となる正確な動画/画像の判定や、音声認識、個人識別などを実現する製品として新たにラインナップに加わりました。

Tesla® M40の主な特長
NVIDIA® Tesla® M40 仕様
CUDAコア 3072
CUDAコア周波数 948MHz(GPU Boost時、最大周波数1114MHzを選択可能)※1
単精度浮動小数点数演算性能 5.82TFLOPS(GPU Boost時 6.84TFLOPS)
倍精度浮動小数点数演算性能 0.18TFLOPS(GPU Boost時 0.21TFLOPS)
メモリ容量 (ECCオフ) ※2 12GB
メモリ・インターフェース 384-bit GDDR5
メモリバンド幅 288GB/sec
放熱機構 Passive
消費電力 250W

※1 GPU Boostの最大周波数値は、NVIDIAドライバに含まれているnvidia-smiツールにて設定します。
※2 ECC機能を有効にすると使用可能なメモリは10%減少します。

4基のTesla® M40で5日間かかる深層学習処理を9.6時間に短縮

fasterperformance-than-cpu

4基のTesla® M40を用いることで、Caffe+AlexNetによる深層学習処理がCPU処理に比べ13倍高速化されています。


Deep Learning(深層学習)とは

neuron_image

Deep Learning(深層学習)とは、多層構造のニューラルネットワークの機械学習の事を指します。ニューラルネットワークは、人の神経細胞(ニューロン)のネットワークのことです。

機械学習とは、「ある程度の数のサンプルデータ集合を入力して解析を行い、そのデータから有用な規則、ルール、知識表現、判断基準などを抽出し、アルゴリズムを発展させる。」ということをコンピュータが行うことです。

DeepLearning_image

学習課程を簡単に説明すると、まずモデル化したニューラルネットワークにサンプルデータを入力します。次に出力データと実際の分類との誤差を算出し、誤差が小さくなるように、すべてのパーセプトロン(モデル化したニューロン)に対して重みと閾値を計算していきます。これを繰り返していくことで、ニューラルネットワークがサンプルデータの分類ルールを学習していきます。

多量の画像データが手軽に手に入るインターネットの拡充、多量の画像データを処理するコンピュータの処理速度の向上と普及が、最近の深層学習研究を盛り上げています。

関連情報

【免責事項:外部リンクについて】弊社は本サイトへリンクを張っている第三者のサイト(以下、外部リンクといいます)の確認を行っておりません。また弊社は外部リンクの内容およびお客さまの外部リンクの使用に関連して発生したいかなる損害に対しても責任を負いません。 本サイトから第三者のサイトへリンクしていることが、当該サイトの商品やサービスを保証するものでもなく、また外部リンクにある情報は、 弊社が保証したものでも、認めたものでもありません。あらかじめご了承くださいますようお願いします。

お問い合わせ

■ フォームからのお問い合わせ

お問い合わせは以下のフォームよりお願いいたします。うまく送信されない場合は、メールでお問い合わせください。

お問い合わせフォーム

■ 電話・FAXでのお問い合わせ

number

【免責事項】