HPLはスーパーコンピュータの性能ランキング『Top 500 Supercomputer Sites』で用いられているベンチマークプログラムです。HPLは連立方程式の解を求めるプログラムで、浮動小数点演算の性能を計測することができます。計算機の性能比較に広く用いられており、CPU性能について把握することができます。FLOPS単位、つまり1秒間に処理できる浮動小数点演算命令の数で計測結果を比較します。
CPU | Xeon E5-4650 (2.70GHz, 8コア, 20MB Cache, 8GT/s Intel QPI, TDP130W) | Xeon E5-2667 v2 (3.30GHz, 8コア, 25MB Cache, 8GT/s Intel QPI, TDP130W) | Xeon E5-2697 v2 (2.70GHz, 12コア, 30MB Cache, 8GT/s Intel QPI, TDP130W) | Xeon E7-4890 v2 (2.80GHz, 15コア, 37.5MB Cache, 8GT/s Intel QPI, TDP155W) |
---|---|---|---|---|
CPU数 | 4 (計32コア) | 2 (計16コア) | 2 (計24コア) | 4 (計60コア) |
理論性能 | 691.2GFLOPS | 422.4GFLOPS | 518.4GFLOPS | 1344GFLOPS |
メモリ | 256GB DDR3 1600MHz | 128GB DDR3 1866MHz | 128GB DDR3 1866MHz | 1514GB DDR3 1600MHz |
OS | CentOS 6.2 | CentOS 6.4 | CentOS 6.4 | RedHat EL 6.5 |
インテル コンパイラー | 12.1 | 13.1 | 13.1 | 13.1 |
MPI | OpenMPI 1.4.5 | Intel MPI 4.1.3 | Intel MPI 4.1.3 | Intel MPI 4.1.3 |
HPL | 2.1 | 2.1 | 2.1 | 2.1 |
ノード数 | 1 | 2 | 2 | 1 |
インターコネクト | Infiniband FDR | Infiniband FDR |
特長:E5-2600 v2 ファミリーのトップビン2ノード並列を超える実効性能を1ノードで達成
HPLではコア数の増加に応じた性能向上が見られました。E5-2600 v2 ファミリーのトップビン(E5-2667 v2およびE5-2697 v2)を計4CPU(2CPU×2ノード並列)用いた場合を上回る実効性能を、1ノードで達成しています。OpenMP対応アプリケーションをお使いの場合など、ノード内並列計算で計算速度を追求される方にお勧めいたします。
一方、E5-4890 v2の4CPU合計の理論性能1344GFLOPSに対し、実行効率が1007/1344=74.9%と低くなっています。MPIなどの複数ノード並列に対応している計算では、実行効率が高い(~94%)E5-2600 v2 ファミリーを複数ノード組み合わせた構成も検討範囲に含めるべきと言えます。
分子動力学アプリケーションの例として、GROMACSのベンチマークを2種類取得しました。ひとつはGROMACS公式が公開しているベンチマークスイートのd.dppcです。もう一つは指定サイズのボックスを水分子で満たして分子動力学計算を行う弊社独自のインプットです。水のみの系では実用的な計算結果にはなりませんが、弊社では様々なベンチマーク取得を実施し、GROMACSでは水のみの系であっても実効性能の傾向の予測に十分であると掴んでいます。6,417,942原子からなる、この水分子インプットについて、ノード数を変えながらns/dayを測定しました。測定結果を次グラフに示します。
ns/dayは、GROMACSベンチマーク結果の性能比較用の単位です。計算時間を基に、「1日あたり何ns分の分子動力学計算を実行可能か」を示した数字です(数字が大きいほど、高性能、高速となります)。
CPU | Xeon E5-2690 (2.90GHz, 8コア, 20MB Cache, 8GT/s Intel QPI, TDP135W) | Xeon E5-2667 v2 (3.30GHz, 8コア, 25MB Cache, 8GT/s Intel QPI, TDP130W) | Xeon E7-4890 v2 (2.80GHz, 15コア, 37.5MB Cache, 8GT/s Intel QPI, TDP155W) |
---|---|---|---|
CPU数 | 2 (計16コア) | 2 (計16コア) | 4 (計60コア) |
理論性能 | 371.2GFLOPS | 422.4GFLOPS | 1344GFLOPS |
メモリ | 64GB DDR3 1866MHz | 128GB DDR3 1866MHz | 1514GB DDR3 1600MHz |
OS | CentOS 6.4 | CentOS 6.4 | RedHat EL 6.5 |
インテル コンパイラー | 13.1 | 13.1 | 13.1 |
MPI | Intel MPI 4.1.3 | Intel MPI 4.1.3 | Intel MPI 4.1.3 |
GROMACS | 4.6.5 | 4.6.5 | 4.6.5 |
ノード数 | 2 | 2 | 1 |
インターコネクト | Infiniband FDR | Infiniband FDR |
特長:CPUクロック相応の性能を発揮、60コア並列まで順調に並列スケーラビリティを達成
GROMACSでは、d.dppc・水分子の両方とも60コア並列まで順調な性能向上が得られました。16・32コア並列では、CPUクロックの分だけ2ソケットCPUの方が速い結果となっています。32コア並列を超えてもコアをつぎ込んだだけ性能がスケールしていますので、E7-4800 v2 ファミリーは、管理するノードを増やすことなく計算速度を高めたい方にお勧めです。
CPU-メモリ間の通信がボトルネックとなるアプリケーションの例として、VASPをインテルコンパイラーのAVX最適化を有効にしてビルドし、512原子のPAW GGA計算とUSPP計算の経過時間を計測しました。
CPU | Xeon E5-2690 (2.90GHz, 8コア, 20MB Cache, 8GT/s Intel QPI, TDP135W) | Xeon E5-2667 v2 (3.30GHz, 8コア, 25MB Cache, 8GT/s Intel QPI, TDP130W) | Xeon E7-4890 v2 (2.80GHz, 15コア, 37.5MB Cache, 8GT/s Intel QPI, TDP155W) |
---|---|---|---|
CPU数 | 2 (計16コア) | 2 (計16コア) | 4 (計60コア) |
理論性能 | 371.2GFLOPS | 422.4GFLOPS | 1344GFLOPS |
メモリ | 64GB DDR3 1866MHz | 128GB DDR3 1866MHz | 1514GB DDR3 1600MHz |
OS | CentOS 6.4 | CentOS 6.4 | RedHat EL 6.5 |
インテル コンパイラー | 13.1 | 13.1 | 13.1 |
MPI | Intel MPI 4.1.3 | Intel MPI 4.1.3 | Intel MPI 4.1.3 |
VASP | 5.3.5 | 5.3.5 | 5.3.5 |
ノード数 | 2 | 2 | 1 |
インターコネクト | Infiniband FDR | Infiniband FDR |
特長:60コア並列まで性能向上し、E5-2600 v2 ファミリーの2ノード並列を超える実効性能を達成
VASP 512原子PAW GGA・USPPでは、並列数が大きくなるにつれて性能向上率は小さくなっていくものの、60コア並列まで性能向上が得られました。60並列でE5-2667 v2の2ノード構成を上回る実効性能を1ノードで達成しており、E5-4800 v2 ファミリーはVASPの単一ジョブの計算速度を追求したい方に適しています。さらに、E7-4800 v2 ファミリーのマザーボードは、最大6TBものメモリを搭載できます。計算速度とメモリ容量要求に同時にこたえることができるE7-4800 v2 ファミリー搭載製品は、VASPユーザーに大変お勧めです。
AVXに未対応のバイナリアプリケーションのベンチマーク実行例です。SSE4に最適化されたGaussian社製バイナリを用いて恒例のtest397ベンチマークを測定しました。さらに、昨今の計算機性能の向上によって身近になってきた選択肢として、test397で基底関数系を6-31G(d,p)に変えた場合も測定しました。この他、シングルポイントエネルギー計算の例としてtest385の構造最適化結果を用いたTAXOL、および振動数計算の例としてα-Pineneについても経過時間を取得しました。
CPU | Xeon E5-2667 v2 (3.30GHz, 8コア, 25MB Cache, 8GT/s Intel QPI, TDP130W) | Xeon E5-2697 v2 (2.70GHz, 12コア, 30MB Cache, 8GT/s Intel QPI, TDP130W) | Xeon E7-4890 v2 (2.80GHz, 15コア, 37.5MB Cache, 8GT/s Intel QPI, TDP155W) |
---|---|---|---|
CPU数 | 2 (計16コア) | 2 (計24コア) | 4 (計60コア) |
理論性能 | 422.4GFLOPS | 518.4GFLOPS | 1344GFLOPS |
メモリ | 128GB DDR3 1866MHz | 128GB DDR3 1866MHz | 1514GB DDR3 1600MHz |
OS | CentOS 6.4 | CentOS 6.4 | RedHat EL 6.5 |
Gaussian09 | Rev. D.01 SSE4有効 | Rev. D.01 SSE4有効 | Rev. D.01 SSE4有効 |
特長:60コア並列まで順調に並列スケーラビリティを達成、60コアが活きる
Gaussian 09ベンチマークでは、上記いずれのインプットにおいても60コア並列まで順調な性能向上が得られました。また、同一並列数でCPUどうしを比較すると、CPUクロックにほぼ比例した計算速度となっています。
24コア並列を超えてもコアをつぎ込んだだけ性能がスケールしていますので、E7-4800 v2 ファミリーは、Linda並列を用いずに単一ジョブの計算速度を追求したい方にお勧めです。また、CPUが主なボトルネックと推測され、AVXの導入による性能向上に期待が持てます。今後AVX対応バイナリが発表されるのを期待して止みません。
逐次計算、あるいは小さな並列数で計算を実行すべき状況では、同時に数多くの計算を高スループットにこなす能力がCPUに求められます。HPL、VASPについて、同一の計算ジョブを同時に複数実行し、プロセス数が増えた時の性能劣化率(1プロセス実行時を100%とします)を測定しました。HPLではGFLOPSを、VASPでは経過時間を記していますので良悪の捉え方が逆となる点にご注意ください。
CPU | Xeon E5-2667 v2 (3.30GHz, 8コア, 25MB Cache, 8GT/s Intel QPI, TDP130W) | Xeon E5-2697 v2 (2.70GHz, 12コア, 30MB Cache, 8GT/s Intel QPI, TDP130W) | Xeon E7-4890 v2 (2.80GHz, 15コア, 37.5MB Cache, 8GT/s Intel QPI, TDP155W) |
---|---|---|---|
CPU数 | 2 (計16コア) | 2 (計24コア) | 4 (計60コア) |
理論性能 | 422.4GFLOPS | 518.4GFLOPS | 1344GFLOPS |
メモリ | 128GB DDR3 1866MHz | 128GB DDR3 1866MHz | 1514GB DDR3 1600MHz |
OS | CentOS 6.4 | CentOS 6.4 | RedHat EL 6.5 |
インテル コンパイラー | 13.1 | 13.1 | 13.1 |
MPI | OpenMPI 1.6.5 | OpenMPI 1.6.5 | Intel MPI 4.1.3 |
HPL | 2.1 | 2.1 | 2.1 |
VASP | 5.3.3 22May2013 | 5.3.3 22May2013 | 5.3.5 |
特長:32ジョブ実行まではSandy Bridgeマイクロアーキテクチャの堅持さを維持
HPLでは、E7-4890 v2 の32ジョブ投入時の性能劣化率が、E5-2667 v2・E5-2697 v2のコア数分ジョブ投入時の劣化率とほぼ同じとなっており、ここまではSandy Bridgeマイクロアーキテクチャの堅持さが維持されていると言えます。これを超えた60ジョブ投入時では大きな性能劣化がみられ、1ジョブ単体実行時の66%の性能となりました。
VASPでは、16ジョブを超えたあたりから性能劣化を無視できず、24ジョブでは141%の経過時間、32ジョブでは156%の経過時間となっています。60ジョブ投入時では大きな性能劣化がみられ、1ジョブ単体実行時の2倍超の経過時間となりました。大きな性能劣化の原因はメモリ帯域律速と考えられ、VASP同様にメモリ帯域を強く要求するアプリケーションでは、同時実行するジョブ数に注意すべきです。
・Intel、インテル、Intelロゴ、Xeon、Xeon Inside は、米国およびその他の国におけるIntel Corporationの商標です。
・NVIDIA、NVIDIAロゴ、CUDAおよびTeslaは、米国及びその他の国におけるNVIDIA Corporationの商標または登録商標です。
・その他、記載されている会社名、製品名、サービス名等は、各社の商標または登録商標です。
(平日9:30~17:30土曜日、日曜日、祝祭日、年末年始、夏期休暇は、休日とさせていただきます。)