ベンチマーク情報

ホーム » HPCソリューション » ベンチマーク情報 » インテル® Xeon Phi™ 5110PとNVIDIA® Tesla® K20の行列積における実効性能比較

インテル® Xeon Phi™ 5110PとNVIDIA® Tesla® K20の行列積における実効性能比較

2013年3月更新情報

CUDA5に対応したPGIコンパイラ2013で再測定を行いました。結果、単精度・倍精度とも、NVIDIA社 K20に軍配が上がりました。 詳細は新しいベンチマークページを参照ください。

概要

インテル社からコプロセッサー「Xeon Phi™ 5110P」が、NVIDIA社からKeplerアーキテクチャーGPU「Tesla® K20」が発表され、いずれも高い浮動小数点数演算性能に注目が集まっています。これらの実効性能を明らかにするべく、弊社で以前より定点観測している行列積ベンチマークを行いました。結果、単精度計算ではK20に、倍精度計算ではXeon Phi™ 5110Pに軍配が上がりました。

ベンチマーク結果

Tesla® K20の評価環境は以下の通りです。

評価環境
ノード数 1 Tesla_K20
tower
フォームファクター タワー型 (4Uラックマウント対応)
プロセッサー インテル Xeon プロセッサー E5-2687W @ 3.10GHz x2CPUs
メモリ 64GB DDR3
GPGPUカード NVIDIA® Tesla® K20M
コンパイラー PGI Accelerator Fortran/C/C++ Workstation 2012
数値演算ライブラリー インテル MKL 11.0 Update 1
GPU用数値計算ライブラリ CUBLAS(CUDA Toolkit 4.2付属)
OS CentOS 6.2 x86_64

Xeon Phi™ 5110Pの測定時は、同マシンからTesla® K20Mを外し、Xeon Phi™ 5110P ×1を差して、Red Hat Enterprise Linux 6.3で測定を行いました。

評価環境
ノード数 1 Xeon Phi 5110P
tower
フォームファクター タワー型 (4Uラックマウント対応)
プロセッサー インテル Xeon プロセッサー E5-2687W @ 3.10GHz x2CPUs
メモリ 64GB DDR3
コプロセッサー インテル® Xeon Phi™ 5110P
コンパイラー インテル Composer XE 13.0 Update 1
数値演算ライブラリー インテル MKL 11.0 Update 1
MPI Intel MPI 4.1
OS Red Hat Enterprise Linux 6.3 x86_64

行列積プログラムでは、CUDA5で利用可能となったShared Memoryのバンクサイズを設定するcudaDeviceSetSharedMemConfig関数で、4バイト/8バイトの両方を試し、ベンチマーク測定では速い方を一貫して用いました。


GEMM MKL HPCS
単精度 N 計算時間[秒] GFlop GFlops 理論性能 実行効率
E5-2687W x2 MKL 10000 2.58 1863 722.12 793.60 91.0%
Phi 5110P x1 MKL(native実行) 10000 1.25 1863 1486.28 2021.76 73.5%
K20 x1 CUBLAS 10000 1.24 1863 1502.64 3520.00 42.7%
K20 x1 CUBLAS(転送時間含まず) 10000 0.81 1863 2288.82 3520.00 65.0%
GEMM MKL HPCS
倍精度 N 計算時間[秒] GFlop GFlops 理論性能 実行効率
E5-2687W x2 MKL 10000 5.53 1863 336.91 396.80 84.9%
Phi 5110P x1 MKL(native実行) 10000 2.53 1863 736.95 1010.88 72.9%
K20 x1 CUBLAS 10000 4.21 1863 442.88 1170.00 37.9%
K20 x1 CUBLAS(転送時間含まず) 10000 3.45 1863 539.21 1170.00 46.1%

この結果、次がわかりました。

結論

単精度計算ならK20、倍精度計算ならXeon Phi™ 5110Pと、それぞれ得意な浮動小数点数精度を選ぶ結果となりました。ただし、いずれもCPU(E5-2687W)を大きく引き離す性能を示しています。お使いのアプリケーションをコプロセッサー/アクセラレータ向けにプログラミングする工数と、それによって得られる計算速度を再検討してみる良いきっかけとなるのではないでしょうか。

今後の展開

2013年のサーバー向けCPUの話題として、SandyBridgeマイクロアーキテクチャーの22nmプロセス品 IvyBridgeシリーズのリリースが噂されています。K20に追い抜かれたE5-2600シリーズが後継品でどう挽回してくるか、興味深いところです。 また本稿執筆中にPGIコンパイラ2013.1がリリースされました。OpenACCディレクティブを用いてK20(compute capability 3.5)で動作するバイナリを作成できるようになったとのことで、OpenACCユーザーにとってK20がどこまで有効となるか、弊社では引き続き検証を行ってまいります。

関連リンク

・Intel、インテル、Intelロゴ、Xeon、Xeon Inside は、米国およびその他の国におけるIntel Corporationの商標です。
・NVIDIA、NVIDIAロゴ、CUDAおよびTeslaは、米国及びその他の国におけるNVIDIA Corporationの商標または登録商標です。
・その他、記載されている会社名、製品名、サービス名等は、各社の商標または登録商標です。