ホーム > HPC・DL・AI > 技術情報 > ベンチマーク情報 > インテル® Xeon Phi™ 5110PとNVIDIA® Tesla® K20の行列積における実効性能比較

インテル® Xeon Phi™ 5110PとNVIDIA® Tesla® K20の行列積における実効性能比較

インテル社からコプロセッサー「Xeon Phi™ 5110P」が、NVIDIA社からKeplerアーキテクチャーGPU「Tesla® K20」が発表され、いずれも高い浮動小数点数演算性能に注目が集まっています。これらの実効性能を明らかにするべく、弊社で以前より定点観測している行列積ベンチマークを行いました。結果、単精度計算ではK20に、倍精度計算ではXeon Phi™ 5110Pに軍配が上がりました。

2013年3月更新情報

CUDA5に対応したPGIコンパイラ2013で再測定を行いました。結果、単精度・倍精度とも、NVIDIA社 K20に軍配が上がりました。 詳細は新しいベンチマークページを参照ください。

ベンチマーク結果

Tesla® K20の評価環境は以下の通りです。

評価環境
ノード数1
フォームファクタータワー型 (4Uラックマウント対応)
プロセッサーインテル Xeon プロセッサー E5-2687W @ 3.10GHz x2CPUs
メモリ64GB DDR3
GPGPUカードNVIDIA® Tesla® K20M
コンパイラーPGI Accelerator Fortran/C/C++ Workstation 2012
数値演算ライブラリーインテル MKL 11.0 Update 1
GPU用数値計算ライブラリCUBLAS(CUDA Toolkit 4.2付属)
OSCentOS 6.2 x86_64

Xeon Phi™ 5110Pの測定時は、同マシンからTesla® K20Mを外し、Xeon Phi™ 5110P ×1を差して、Red Hat Enterprise Linux 6.3で測定を行いました。

評価環境
ノード数1
フォームファクタータワー型 (4Uラックマウント対応)
プロセッサーインテル Xeon プロセッサー E5-2687W @ 3.10GHz x2CPUs
メモリ64GB DDR3
コプロセッサーインテル® Xeon Phi™ 5110P
コンパイラーインテル Composer XE 13.0 Update 1
数値演算ライブラリーインテル MKL 11.0 Update 1
MPIIntel MPI 4.1
OSRed Hat Enterprise Linux 6.3 x86_64

行列積プログラムでは、CUDA5で利用可能となったShared Memoryのバンクサイズを設定するcudaDeviceSetSharedMemConfig関数で、4バイト/8バイトの両方を試し、ベンチマーク測定では速い方を一貫して用いました。

単精度N計算時間[秒]GFlopGFlops理論性能実行効率
E5-2687W x2 MKL100002.581863722.12793.6091.0%
Phi 5110P x1 MKL(native実行)100001.2518631486.282021.7673.5%
K20 x1 CUBLAS100001.2418631502.643520.0042.7%
K20 x1 CUBLAS(転送時間含まず)100000.8118632288.823520.0065.0%
倍精度N計算時間[秒]GFlopGFlops理論性能実行効率
E5-2687W x2 MKL100005.531863336.91396.8084.9%
Phi 5110P x1 MKL(native実行)100002.531863736.951010.8872.9%
K20 x1 CUBLAS100004.211863442.881170.0037.9%
K20 x1 CUBLAS(転送時間含まず)100003.451863539.211170.0046.1%

この結果、次がわかりました。

  • 単精度行列積では、K20がN=24,000時1.842TFlopsを達成しました。これはXeon Phi™ 5110Pに比べ1.20倍高速です。またホスト-K20間のデータ転送時間を含めない場合、2.190TFlops(5110Pの1.43倍)を達成したことになります。
  • 倍精度行列積では、Xeon Phi™ 5110PがN=17,000時745.05GFlopsを達成しました。これはK20に比べ1.58倍高速です。またホスト-K20間のデータ転送時間を含めないK20と比べても1.40倍高速です。
  • 理論性能に対する実行効率はE5-2687W + MKLが84~91%程度、Xeon Phi™ 5110P + MKLが73~76%と高いのに対し、K20は39~52%(ホスト-K20間のデータ転送時間を含めなければ45~65%)と低いです。

結論

単精度計算ならK20、倍精度計算ならXeon Phi™ 5110Pと、それぞれ得意な浮動小数点数精度を選ぶ結果となりました。ただし、いずれもCPU(E5-2687W)を大きく引き離す性能を示しています。お使いのアプリケーションをコプロセッサー/アクセラレータ向けにプログラミングする工数と、それによって得られる計算速度を再検討してみる良いきっかけとなるのではないでしょうか。

今後の展開

2013年のサーバー向けCPUの話題として、SandyBridgeマイクロアーキテクチャーの22nmプロセス品 IvyBridgeシリーズのリリースが噂されています。K20に追い抜かれたE5-2600シリーズが後継品でどう挽回してくるか、興味深いところです。 また本稿執筆中にPGIコンパイラ2013.1がリリースされました。OpenACCディレクティブを用いてK20(compute capability 3.5)で動作するバイナリを作成できるようになったとのことで、OpenACCユーザーにとってK20がどこまで有効となるか、弊社では引き続き検証を行ってまいります。

関連リンク

・Intel、インテル、Intelロゴ、Xeon、Xeon Inside は、米国およびその他の国におけるIntel Corporationの商標です。
・NVIDIA、NVIDIAロゴ、CUDAおよびTeslaは、米国及びその他の国におけるNVIDIA Corporationの商標または登録商標です。
・その他、記載されている会社名、製品名、サービス名等は、各社の商標または登録商標です。

  • キャンペーン情報
    現在開催されているお得なキャンペーン情報はこちらから。
    詳細
  • ご購入前のお問合せ
    フォームにご入力いただければ後ほど営業よりご連絡させていただきます。
    詳細
  • 見積り依頼
    フォームにご入力いただければ後ほど営業よりご連絡させていただきます。
    詳細
Contact

お問い合わせ

お客様に最適な製品をご提案いたします。まずは気軽にお問い合わせ下さい。
03-5446-5531

(平日9:30~17:30土曜日、日曜日、祝祭日、年末年始、夏期休暇は、休日とさせていただきます。)