NVIDIA社GPUの2012年目玉製品であるKeplerアーキテクチャのTesla GPU製品が注目されています。流通間近のTesla K20も見据えて、Tesla K10の性能を分子動力学アプリケーションAmberで明らかにします。弊社では、Tesla K10でAmber12 Benchmark Suiteを実行し、インテル社CPU E5-2600シリーズと計算速度を比較しました。結果、E5-2600シリーズの16プロセス並列よりもTesla K10の1GPUが十分に速いと示されました。また、2GPU並列では性能の律速が見られました。
次の環境でベンチマークを実行しました。
評価環境 | 仕様 | 製品 |
---|---|---|
製品 | HPC5000-XSGPU4R2S-KPL | ![]() |
ノード数 | 1 | |
フォームファクター | ラックマウントタイプ (2U) | |
プロセッサー | インテル Xeon プロセッサー E5-2680 @ 2.70GHz x2CPUs | |
メモリ | 128GB DDR3 | |
GPU | NVIDIA Tesla K10(2GPU搭載) | |
コンパイラー | インテル Composer XE 2011 SP1 | |
MPI | MPICH2 1.4.1p1 | |
CUDA | 4.2 | |
OS | CentOS 6.2 x86_64 | |
Amber | 12 patch 9 | |
AmberTools | 12 patch 24 | |
インプット | AMBER 12 Benchmark Suite http://ambermd.org/gpus/benchmarks.htm |
TRPCageとNucleosomeについて、Elapsed timeをグラフで示します。なお、浮動小数点数のPrecision ModelにはSPFPをGPUに、Double PrecisionをCPUに、それぞれ適用しました。比較参照用に、NVIDIA Tesla C1060(CPUはインテルE5540)での同バージョンのAmber12の測定値も付記しています。
JAC(DHFR) NVEとCellulose NPTについて、Elapsed timeをグラフで示します。浮動小数点数のPrecision ModelはGBと同様です。
Tesla K10の1GPUでE5-2680 x2CPUを超える計算速度が得られました。また、2GPUを使用したところ、計算速度が律速し、TRPCageでは逆に性能劣化しました。全般的に、2GPUを一つのAmber計算に並列使用するのではなく、1GPUずつ別のAmber計算を割り当てて使う方が、システム全体のスループットが高い傾向にあります。
高い計算性能が学会報告されているTesla K20が、2013年、ついに市場流通し始めます。弊社はTesla K20をHPC向け次世代GPGPU計算基盤として注目し、引き続きAmberや他のGPGPUプログラムにおいても性能を明らかにしていきます。
弊社では、更新の多いAmberの最新パッチに追随し、最新ハードウェアにて動作検証とチューニングを行っています。弊社の計算機をお買い上げいただきますと、高速、かつ、計算精度を保持したAmber計算環境を、すぐにお使いいただける状態でお届けいたします。一秒でも多く大切なご研究・ご業務にご注力いただけますように、Amber計算環境のセットアップは弊社にお任せください。
・Intel、インテル、Intelロゴ、Xeon、Xeon Inside は、米国およびその他の国におけるIntel Corporationの商標です。
・NVIDIA、NVIDIAロゴ、CUDAおよびTeslaは、米国及びその他の国におけるNVIDIA Corporationの商標または登録商標です。
・その他、記載されている会社名、製品名、サービス名等は、各社の商標または登録商標です。
(平日9:30~17:30土曜日、日曜日、祝祭日、年末年始、夏期休暇は、休日とさせていただきます。)