ホーム » HPCソリューション » ラックマウントサーバー製品ラインナップ» HPC7000XW864R5S_Benchmark
| 特長 | 仕様 | 価格 | 対応アプリケーション | ベンチマーク | 製品一覧 | 製品カタログ |
アプリケーションベンチマークから見るHPC7000-XW864R5Sの特徴
HPC7000-XW864R5SのCPU80コア、メモリ2TBという圧倒的なスペックは、実際のアプリケーションではどのような性能が見られるでしょうか。以下にHPC7000-XW864R5Sの特徴がよく現れるアプリケーション、インプット、実際の使用環境に近いOS、設定を選択し、その結果を提供します。
HPL
まず、スーパーコンピューターの性能測定でよく使用されるHPLによるGflopsの値を見てみます。比較対象はX5570(Nehalem-EP 2.93GHz/4core) 2基搭載、インターコネクトにInfiniband(QDR 40Gbps)を採用した4ノード32コアのクラスタです。
cores |
HPC7000-XW864R5S |
cores(nodes) |
X5570(QDR Infiniband) |
|---|---|---|---|
1 |
9.855 |
1core 1node | 12.060 |
2 |
19.360 |
2core 2node | 21.400 |
4 |
37.190 |
4core 4node | 41.590 |
8 |
73.050 |
8core 4node | 80.860 |
16 |
134.200 |
16core 4node | 161.800 |
32 |
227.200 |
32core 4node | 275.900 |
64 |
289.000 |
- |
- |
80 |
122.100 |
- |
- |
HPLはCPUコアの動作周波数が比較的素直に現れるベンチマーク方法です。1コアにおけるGflopsの値はHPC7000-XW864R5Sに搭載しているCPU E7-8870(2.4GHz)とX5570(2.93GHz)の動作周波数の比を如実にあらわしています。2コア、4コアと並列数を増加させた際のGflopsの値の比も大きく変わらず、そのまま32コアまで保存されます。残念ながら、X5570のベンチマークは32コアまでしか得られていませんが、16コアから32コアに並列数を増加させる際の若干の伸びの鈍りかたもHPC7000-XW864R5SとX5570は同様です。80並列の計算時には値が極端に落ち込んでいますが、これはCPUコアを全て使用したときにはCPUとメモリ間のI/O帯域(メモリバンド)が、スレッドの同時実行数に対して十分ではないことが原因だと考えられます。 HPLにおいてはX5570搭載計算機8ノード64コア Infiniband接続クラスタと同等の並列効果をHPC7000-XW864R5Sは64コアまでは期待できると思われます。
VASP
次にVASPによるベンチマークを提示します。VASPは並列計算時にプロセス間通信を大量に行うため、メモリバンド、ノード間通信速度が非常に強く影響します。そのためメモリバンドが狭く、ノード間通信速度と遅いと少ない並列数で計算速度が頭打ちになります。逆に並列数を増加させた際に計算速度の伸びが見られる場合は、十分なメモリバンドとノード間通信速度が得られていることが分かります。
cores |
HPC7000-XW864R5S |
cores(nodes) |
X5570(Infiniband) |
|---|---|---|---|
1 |
1295.960 |
1core 1node | 1080.990 |
2 |
635.990 |
2core 2node | 582.210 |
4 |
334.680 |
4core 4node | 304.980 |
8 |
181.120 |
8core 4node | 170.050 |
16 |
109.500 |
16core 4node | 111.090 |
32 |
81.550 |
32core 4node | 147.720 |
64 |
110.790 |
- |
- |
80 |
108.180 |
- |
- |
この比較で目を引く部分は16から32に並列計算数を伸ばした際のHPC7000-XW864R5SとX5570両者の差異です。
HPC7000-XW864R5Sは32並列まで計算速度は伸びていますが、X5570では32並列時には16並列時より計算速度が落ちてしまいました。別のベンチマーク結果より、ここでのX5570の伸び悩みはInfinibandの通信速度が大きく関わらないことが判明しています。したがって、この原因はX5570のメモリバンドの不足であると考えられます。
1CPUあたり2並列(16並列)までであればメモリバンドは十分ですが、4並列(32並列)にすると不足するのです(計算速度を伸ばすためには、1CPUあたりの並列数を2並列までに抑え、ノード数を増やした上でInfinibandで接続すればいいと考えられます)。
対してHPC7000-XW864R5Sは1CPUあたりの並列数を4(32並列)にしても、計算速度が伸びていることから、メモリバンドが十分であることが分かります。これは1CPUあたりのメモリチャンネルがX5570が3チャンネルであることに対して、HPC7000-XW864R5Sが4チャンネルあることが明確に現れていると考えられます。
ただ、HPC7000-XW864R5Sでも1CPUあたりの並列数を8にした場合(64並列)は並列数4(32並列)に対して計算速度は落ちています。4チャンネルのメモリバンドも8並列/cpuでは足りなくなってしまうのです。
Gaussian
Gaussianのベンチマークではテストインプット「test397.com」を使用します。このインプットを使用すると、一時ファイルがあまり発生しないため、HDDへのI/O速度の影響を排除できます。ここでの比較対象はX5680(Westmere-EP 3.33GHz/6core) 2基搭載、インターコネクトはGiga Bit Etherの4ノード48コアのクラスタです。
test397.comの計算時間はCPUコアの動作周波数への依存性が高いため、ノード内で完結する並列数であればHPLと似た結果が予想されますが、ノード間並列計算を行う場合は異なる結果が出る可能性があります。
cores |
HPC7000-XW864R5S |
cores(nodes) |
X5680(GbE) |
|---|---|---|---|
1 |
3405.25 |
1core 1node |
2741.40 |
2 |
1743.33 |
2core 1node |
1331.05 |
4 |
907.02 |
4core 1node |
693.59 |
8 |
485.49 |
8core 1node |
393.10 |
16 |
273.88 |
16core 2node |
236.01 |
32 |
173.02 |
32core 4node |
163.44 |
64 |
133.06 |
||
80 |
129.45 |
1から8並列までの計算速度の比はCPUコアの動作周波数の比(2.40GHzと3.33GHz)にほぼ依っており、X5680が優位ですが、X5680がノード間並列計算を行う16並列以上ではHPC7000-XW864R5Sが徐々に差を縮め、36並列ではX5680にほとんど追いついています。
HPC7000-XW864R5Sは速度の伸びを鈍化させながらも64並列まで計算速度が向上しているため、(X5680では64並列のデータはありませんが、)このまま並列数を伸ばした場合、おそらくHPC7000-XW864R5Sが上回るのではないかと思われます。
CPU動作周波数依存性のインプットであっても、GaussianにおいてはX5680搭載計算機8ノードクラスタ以上の並列効果を64コアでは期待できると思われます。
HPC7000-XW864R5S |
X5570 |
X5680 |
|
|---|---|---|---|
| OS | CentOS5.6 |
CentOS5.4 |
CentOS5.4 |
| CPU | E7-8870(2.40GHz, 30MB L3Cache) |
X5570(2.93GHz, 8MB L3Cache) |
X5680(3.33GHz, 12MB L3Cache) |
| CPU搭載数/node | 8 |
2 |
2 |
| node数 | 1 |
4 |
4 |
| 総core数 | 80 |
32 |
48 |
| Memory/node | 1TB |
48GB |
48GB |
| HDD | 3TB x2 |
1TB x2 |
1TB x2 |
| その他 | - |
Infiniband QDR(40Gbps) |
Gigabit Ethernet |

