Technical Information

技術情報

ホーム > HPC・DL・AI > 技術情報 > ベンチマーク情報 > インテル® Xeon Phi™ 5110PとNVIDIA® Tesla® K20の行列積における実効性能比較

インテル® Xeon Phi™ 5110PとNVIDIA® Tesla® K20の行列積における実効性能比較

インテル社からコプロセッサー「Xeon Phi™ 5110P」が、NVIDIA社からKeplerアーキテクチャーGPU「Tesla® K20」が発表され、いずれも高い浮動小数点数演算性能に注目が集まっています。これらの実効性能を明らかにするべく、弊社で以前より定点観測している行列積ベンチマークを行いました。結果、単精度計算ではK20に、倍精度計算ではXeon Phi™ 5110Pに軍配が上がりました。

2013年3月更新情報

CUDA5に対応したPGIコンパイラ2013で再測定を行いました。結果、単精度・倍精度とも、NVIDIA社 K20に軍配が上がりました。詳細は新しいベンチマークページを参照ください。

ベンチマーク結果

Tesla® K20の評価環境は以下の通りです。

評価環境
ノード数	1
フォームファクター	タワー型 (4Uラックマウント対応)
プロセッサー	インテル Xeon プロセッサー E5-2687W @ 3.10GHz　x2CPUs
メモリ	64GB DDR3
GPGPUカード	NVIDIA® Tesla® K20M
コンパイラー	PGI Accelerator Fortran/C/C++ Workstation 2012
数値演算ライブラリー	インテル MKL 11.0 Update 1
GPU用数値計算ライブラリ	CUBLAS（CUDA Toolkit 4.2付属）
OS	CentOS 6.2 x86_64

Xeon Phi™ 5110Pの測定時は、同マシンからTesla® K20Mを外し、Xeon Phi™ 5110P ×1を差して、Red Hat Enterprise Linux 6.3で測定を行いました。

評価環境
ノード数	1
フォームファクター	タワー型 (4Uラックマウント対応)
プロセッサー	インテル Xeon プロセッサー E5-2687W @ 3.10GHz　x2CPUs
メモリ	64GB DDR3
コプロセッサー	インテル® Xeon Phi™ 5110P
コンパイラー	インテル Composer XE 13.0 Update 1
数値演算ライブラリー	インテル MKL 11.0 Update 1
MPI	Intel MPI 4.1
OS	Red Hat Enterprise Linux 6.3 x86_64

行列積プログラムでは、CUDA5で利用可能となったShared Memoryのバンクサイズを設定するcudaDeviceSetSharedMemConfig関数で、4バイト/8バイトの両方を試し、ベンチマーク測定では速い方を一貫して用いました。

単精度	N	計算時間[秒]	GFlop	GFlops	理論性能	実行効率
E5-2687W x2 MKL	10000	2.58	1863	722.12	793.60	91.0%
Phi 5110P x1 MKL（native実行）	10000	1.25	1863	1486.28	2021.76	73.5%
K20 x1 CUBLAS	10000	1.24	1863	1502.64	3520.00	42.7%
K20 x1 CUBLAS（転送時間含まず）	10000	0.81	1863	2288.82	3520.00	65.0%

倍精度	N	計算時間[秒]	GFlop	GFlops	理論性能	実行効率
E5-2687W x2 MKL	10000	5.53	1863	336.91	396.80	84.9%
Phi 5110P x1 MKL（native実行）	10000	2.53	1863	736.95	1010.88	72.9%
K20 x1 CUBLAS	10000	4.21	1863	442.88	1170.00	37.9%
K20 x1 CUBLAS（転送時間含まず）	10000	3.45	1863	539.21	1170.00	46.1%

この結果、次がわかりました。

単精度行列積では、K20がN=24,000時1.842TFlopsを達成しました。これはXeon Phi™ 5110Pに比べ1.20倍高速です。またホスト－K20間のデータ転送時間を含めない場合、2.190TFlops（5110Pの1.43倍）を達成したことになります。
倍精度行列積では、Xeon Phi™ 5110PがN=17,000時745.05GFlopsを達成しました。これはK20に比べ1.58倍高速です。またホスト－K20間のデータ転送時間を含めないK20と比べても1.40倍高速です。
理論性能に対する実行効率はE5-2687W + MKLが84～91％程度、Xeon Phi™ 5110P + MKLが73～76%と高いのに対し、K20は39～52％（ホスト－K20間のデータ転送時間を含めなければ45～65％）と低いです。

結論

単精度計算ならK20、倍精度計算ならXeon Phi™ 5110Pと、それぞれ得意な浮動小数点数精度を選ぶ結果となりました。ただし、いずれもCPU（E5-2687W）を大きく引き離す性能を示しています。お使いのアプリケーションをコプロセッサー/アクセラレータ向けにプログラミングする工数と、それによって得られる計算速度を再検討してみる良いきっかけとなるのではないでしょうか。

今後の展開

2013年のサーバー向けCPUの話題として、SandyBridgeマイクロアーキテクチャーの22nmプロセス品 IvyBridgeシリーズのリリースが噂されています。K20に追い抜かれたE5-2600シリーズが後継品でどう挽回してくるか、興味深いところです。また本稿執筆中にPGIコンパイラ2013.1がリリースされました。OpenACCディレクティブを用いてK20（compute capability 3.5）で動作するバイナリを作成できるようになったとのことで、OpenACCユーザーにとってK20がどこまで有効となるか、弊社では引き続き検証を行ってまいります。