ホーム > HPC・DL・AI > 技術情報 > ベンチマーク情報 > インテル® Xeon Phi™ 5110PとNVIDIA® Tesla® K20の行列積における実効性能比較 その②

インテル® Xeon Phi™ 5110PとNVIDIA® Tesla® K20の行列積における実効性能比較 その②

インテル社からコプロセッサー「Xeon Phi™ 5110P」が、NVIDIA社からKeplerアーキテクチャーGPU「Tesla® K20」が発表され、いずれも高い浮動小数点数演算性能に注目が集まっています。これらの実効性能を明らかにするべく、弊社で以前より定点観測している行列積ベンチマークを行いました。結果、単精度・倍精度とも、NVIDIA社 K20に軍配が上がりました。

※CUDA5対応、2013年3月更新

ベンチマーク結果

Tesla® K20の評価環境は以下の通りです。

評価環境
ノード数1
フォームファクタータワー型 (4Uラックマウント対応)
プロセッサーインテル Xeon プロセッサー E5-2687W @ 3.10GHz x2CPUs
メモリ64GB DDR3
GPGPUカードNVIDIA® Tesla® K20M
コンパイラーPGI Accelerator Fortran/C/C++ Workstation  2013 (13.3)
数値演算ライブラリーインテル MKL 11.0 Update 1
GPU用数値計算ライブラリCUBLAS (CUDA Toolkit 5.0付属)
OSCentOS 6.2 x86_64

Xeon Phi™ 5110Pの測定時は、同マシンからTesla® K20Mを外し、Xeon Phi™ 5110P ×1を差して、Red Hat Enterprise Linux 6.3で測定を行いました。

評価環境
ノード数1
フォームファクタータワー型 (4Uラックマウント対応)
プロセッサーインテル Xeon プロセッサー E5-2687W @ 3.10GHz x2CPUs
メモリ64GB DDR3
コプロセッサーインテル® Xeon Phi™ 5110P
コンパイラーインテル Composer XE 13.0 Update 1
数値演算ライブラリーインテル MKL 11.0 Update 1
MPIIntel MPI 4.1
OSRed Hat Enterprise Linux 6.3 x86_64

行列積プログラムでは、CUDA5で利用可能となったShared Memoryのバンクサイズを設定するcudaDeviceSetSharedMemConfig関数で、4バイト/8バイトの両方を試し、ベンチマーク測定では速い方を一貫して用いました。

単精度N計算時間[秒]GFlopGFlops理論性能実行効率
E5-2687W x2 MKL100002.581863722.12793.6091.0%
Phi 5110P x1 MKL(native実行)100001.2518631486.282021.7673.5%
K20 x1 CUBLAS100001.1718631589.463520.0045.2%
K20 x1 CUBLAS(転送時間含まず)100000.8118632292.493520.0065.1%
倍精度N計算時間[秒]GFlopGFlops理論性能実行効率
E5-2687W x2 MKL100005.531863336.91396.8084.9%
Phi 5110P x1 MKL(native実行)100002.531863736.951010.8872.9%
K20 x1 CUBLAS100002.641863704.341170.0060.2%
K20 x1 CUBLAS(転送時間含まず)100001.931863965.261170.0082.5%

この結果、次がわかりました。

  • 単精度行列積では、K20がN=24,000時1.864TFlopsを達成しました。これはXeon Phi™ 5110Pに比べ1.22倍高速です。またホスト-K20間のデータ転送時間を含めない場合、2.191TFlops(5110Pの1.43倍)を達成したことになります。
  • 倍精度行列積では、K20がN=17,000時に799.28GFlopsを達成しました。これはXeon Phi™ 5110Pに比べ1.07倍高速です。またホスト-K20間のデータ転送時間を含めない場合、974.5GFlops(5110Pの1.31倍)を達成したことになります。
  • 理論性能に対する実行効率はE5-2687W + MKLが84~91%程度、Xeon Phi™ 5110P + MKLが73~76%程度に対し、K20は倍精度で60%(ホスト-K20間のデータ転送時間を含めなければ82%)となりました。
  •  

結論

単精度計算・倍精度計算の両方において、K20がPhi 5110Pよりも高い実効性能となりました。特に倍精度では、前回のCUDA4.2でのベンチマーク と比べて1.59倍の実効性能向上となっています。Kepler向けの最適化が図られたCUDA5(PGIコンパイラでは2013以降で対応)は、K20を使う上で不可欠と言えるでしょう。

K20、Phi 5110Pのいずれも、CPU(E5-2687W)を大きく引き離す性能を示しています。お使いのアプリケーションをコプロセッサー/アクセラレータ向けにプログラミングする工数と、それによって得られる計算速度を再検討してみる良いきっかけとなるのではないでしょうか。

今後の展開

2013年のサーバー向けCPUの話題として、SandyBridgeマイクロアーキテクチャーの22nmプロセス品 IvyBridgeシリーズのリリースが噂されています。K20に追い抜かれたE5-2600シリーズが後継品でどう挽回してくるか、興味深いところです。

関連リンク

・Intel、インテル、Intelロゴ、Xeon、Xeon Inside は、米国およびその他の国におけるIntel Corporationの商標です。
・NVIDIA、NVIDIAロゴ、CUDAおよびTeslaは、米国及びその他の国におけるNVIDIA Corporationの商標または登録商標です。
・その他、記載されている会社名、製品名、サービス名等は、各社の商標または登録商標です。

  • キャンペーン情報
    現在開催されているお得なキャンペーン情報はこちらから。
    詳細
  • ご購入前のお問合せ
    フォームにご入力いただければ後ほど営業よりご連絡させていただきます。
    詳細
  • 見積り依頼
    フォームにご入力いただければ後ほど営業よりご連絡させていただきます。
    詳細
Contact

お問い合わせ

お客様に最適な製品をご提案いたします。まずは気軽にお問い合わせ下さい。
03-5446-5531

(平日9:30~17:30土曜日、日曜日、祝祭日、年末年始、夏期休暇は、休日とさせていただきます。)