ホーム » HPCソリューション » ラックマウントサーバー製品ラインナップ» HPC7000XW864R5S_Benchmark

| 特長 | 仕様 | 価格 | 対応アプリケーション | ベンチマーク | 製品一覧 | 製品カタログ |


アプリケーションベンチマークから見るHPC7000-XW864R5Sの特徴

HPC7000-XW864R5SのCPU80コア、メモリ2TBという圧倒的なスペックは、実際のアプリケーションではどのような性能が見られるでしょうか。以下にHPC7000-XW864R5Sの特徴がよく現れるアプリケーション、インプット、実際の使用環境に近いOS、設定を選択し、その結果を提供します。

HPL

まず、スーパーコンピューターの性能測定でよく使用されるHPLによるGflopsの値を見てみます。比較対象はX5570(Nehalem-EP 2.93GHz/4core) 2基搭載、インターコネクトにInfiniband(QDR 40Gbps)を採用した4ノード32コアのクラスタです。


HPL(Gflops)
cores
HPC7000-XW864R5S
cores(nodes)
X5570(QDR Infiniband)
1
9.855
1core 1node
12.060
2
19.360
2core 2node
21.400
4
37.190
4core 4node
41.590
8
73.050
8core 4node
80.860
16
134.200
16core 4node
161.800
32
227.200
32core 4node
275.900
64
289.000
-
-
80
122.100
-
-

benchmark

HPLはCPUコアの動作周波数が比較的素直に現れるベンチマーク方法です。1コアにおけるGflopsの値はHPC7000-XW864R5Sに搭載しているCPU E7-8870(2.4GHz)とX5570(2.93GHz)の動作周波数の比を如実にあらわしています。2コア、4コアと並列数を増加させた際のGflopsの値の比も大きく変わらず、そのまま32コアまで保存されます。残念ながら、X5570のベンチマークは32コアまでしか得られていませんが、16コアから32コアに並列数を増加させる際の若干の伸びの鈍りかたもHPC7000-XW864R5SとX5570は同様です。80並列の計算時には値が極端に落ち込んでいますが、これはCPUコアを全て使用したときにはCPUとメモリ間のI/O帯域(メモリバンド)が、スレッドの同時実行数に対して十分ではないことが原因だと考えられます。 HPLにおいてはX5570搭載計算機8ノード64コア Infiniband接続クラスタと同等の並列効果をHPC7000-XW864R5Sは64コアまでは期待できると思われます。

VASP

次にVASPによるベンチマークを提示します。VASPは並列計算時にプロセス間通信を大量に行うため、メモリバンド、ノード間通信速度が非常に強く影響します。そのためメモリバンドが狭く、ノード間通信速度と遅いと少ない並列数で計算速度が頭打ちになります。逆に並列数を増加させた際に計算速度の伸びが見られる場合は、十分なメモリバンドとノード間通信速度が得られていることが分かります。



VASP(elapsed time [sec])
cores
HPC7000-XW864R5S
cores(nodes)
X5570(Infiniband)
1
1295.960
1core 1node
1080.990
2
635.990
2core 2node
582.210
4
334.680
4core 4node
304.980
8
181.120
8core 4node
170.050
16
109.500
16core 4node
111.090
32
81.550
32core 4node
147.720
64
110.790
-
-
80
108.180
-
-

vasp

この比較で目を引く部分は16から32に並列計算数を伸ばした際のHPC7000-XW864R5SとX5570両者の差異です。
HPC7000-XW864R5Sは32並列まで計算速度は伸びていますが、X5570では32並列時には16並列時より計算速度が落ちてしまいました。別のベンチマーク結果より、ここでのX5570の伸び悩みはInfinibandの通信速度が大きく関わらないことが判明しています。したがって、この原因はX5570のメモリバンドの不足であると考えられます。
1CPUあたり2並列(16並列)までであればメモリバンドは十分ですが、4並列(32並列)にすると不足するのです(計算速度を伸ばすためには、1CPUあたりの並列数を2並列までに抑え、ノード数を増やした上でInfinibandで接続すればいいと考えられます)。
対してHPC7000-XW864R5Sは1CPUあたりの並列数を4(32並列)にしても、計算速度が伸びていることから、メモリバンドが十分であることが分かります。これは1CPUあたりのメモリチャンネルがX5570が3チャンネルであることに対して、HPC7000-XW864R5Sが4チャンネルあることが明確に現れていると考えられます。 ただ、HPC7000-XW864R5Sでも1CPUあたりの並列数を8にした場合(64並列)は並列数4(32並列)に対して計算速度は落ちています。4チャンネルのメモリバンドも8並列/cpuでは足りなくなってしまうのです。




Gaussian

Gaussianのベンチマークではテストインプット「test397.com」を使用します。このインプットを使用すると、一時ファイルがあまり発生しないため、HDDへのI/O速度の影響を排除できます。ここでの比較対象はX5680(Westmere-EP 3.33GHz/6core) 2基搭載、インターコネクトはGiga Bit Etherの4ノード48コアのクラスタです。
test397.comの計算時間はCPUコアの動作周波数への依存性が高いため、ノード内で完結する並列数であればHPLと似た結果が予想されますが、ノード間並列計算を行う場合は異なる結果が出る可能性があります。


Gaussian tets397.com (elapsed time[sec])
cores
HPC7000-XW864R5S
cores(nodes)
X5680(GbE)
1
3405.25
1core 1node
2741.40
2
1743.33
2core 1node
1331.05
4
907.02
4core 1node
693.59
8
485.49
8core 1node
393.10
16
273.88
16core 2node
236.01
32
173.02
32core 4node
163.44
64
133.06
80
129.45


1から8並列までの計算速度の比はCPUコアの動作周波数の比(2.40GHzと3.33GHz)にほぼ依っており、X5680が優位ですが、X5680がノード間並列計算を行う16並列以上ではHPC7000-XW864R5Sが徐々に差を縮め、36並列ではX5680にほとんど追いついています。
HPC7000-XW864R5Sは速度の伸びを鈍化させながらも64並列まで計算速度が向上しているため、(X5680では64並列のデータはありませんが、)このまま並列数を伸ばした場合、おそらくHPC7000-XW864R5Sが上回るのではないかと思われます。
CPU動作周波数依存性のインプットであっても、GaussianにおいてはX5680搭載計算機8ノードクラスタ以上の並列効果を64コアでは期待できると思われます。


測定環境
HPC7000-XW864R5S
X5570
X5680
OS
CentOS5.6
CentOS5.4
CentOS5.4
CPU
E7-8870(2.40GHz, 30MB L3Cache)
X5570(2.93GHz, 8MB L3Cache)
X5680(3.33GHz, 12MB L3Cache)
CPU搭載数/node
8
2
2
node数
1
4
4
総core数
80
32
48
Memory/node
1TB
48GB
48GB
HDD
3TB x2
1TB x2
1TB x2
その他
-
Infiniband QDR(40Gbps)
Gigabit Ethernet


資料請求・お問い合わせ


Share |