HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

第4世代 AMD EPYC 97X4 プロセッサー ベンチマーク

ベンチマーク報告書(PDF)のダウンロードはこちらからどうぞ!

概要

2023年6月13日、新コアを採用した第4世代 AMD EPYC™ 97X4 プロセッサー(開発コード名:Bergamo)がリリースされました。開発コード名Genoaの第4世代 AMD EPYC™ プロセッサーと比べると、論理的には「Zen 4」と同じながら物理設計を変更してCPUコアのエリアサイズが縮小されている、従来の4MB/コアから2MB/コアに3次キャッシュが縮小されている、1つのダイに2つのCCXが搭載されそれらがIoD経由で通信される、といった差異があります。この新プロセッサーは元々クラウドのワークロード向けプロセッサーとして設計されましたが、トップビンのプロセッサーコア数が128/ソケットと多く、弊社ではサイエンスクラウドというPaaS型HPCクラウドサービスを提供していることもあり、HPCワークロードでの実効性能がどの程度に達するのか興味深いです。

そこで、この第4世代 AMD EPYC™ 97X4 プロセッサーの性能を調査するため、第4世代 AMD EPYC™ 97X4 プロセッサー(開発コード名:Bergamo)の2ソケットマシン、第4世代 AMD EPYC™ プロセッサー(開発コード名:Genoa)の2ソケットマシン、前世代のプロセッサー(開発コード名:Milan-X、Zen 3採用)の2ソケットマシンにて、各種HPCアプリケーションのベンチマークを実施して実効性能を比較しました。

ここではそのベンチマーク結果の一部をご紹介します。この他のアプリケーションのベンチマーク結果や補足情報を含む全文は、こちらからお申込みいただきますとPDFをダウンロードいただけます。

HPL

HPLはスーパーコンピュータの性能ランキング『Top 500 Supercomputer Sites』で用いられているベンチマークプログラムです。連立方程式の解を求めるプログラムで、浮動小数点演算の性能をFLOPS単位、つまり1秒間に処理できる浮動小数点演算命令の数で性能を評価します。HPLは演算インテンシブなベンチマークとして知られており、CPUの浮動小数点演算性能を把握するべく使用しました。

HPLのビルドおよび実行においては、AMD社のHigh Performance Computing Tuning Guide fo AMD EPYC™ 9004 Series Processorsに沿って設定を行いました。ベンチマーク結果を次に示します。

特長:Genoa環境を超える高い浮動小数点演算性能を達成
1ソケットで128コアというコア数の多さが、ノードあたりの浮動小数点演算性能の高さに表れました。演算インテンシブなプログラムにおける実効性能向上の目安として捉えていただければと思います。

なお、ベンチマーク取得の際に、HPLのパラメータNB(ブロックサイズ)の値によって性能値が大きく変わる現象が確認されました。今回、前述のGuideに記載されている値(NB=384)で高い性能値が出たため、それを記載しています。一方、Genoa環境で最適であったNB=240をBergamo環境で用いるとN=220,000時に6,005 GFLOPSと、約1,500 GFLOPS低い性能となりました。使用したBLASライブラリ(AOCL-BLIS)の性能がこのようなパラメータにpeakyに反応すると考えられます。Bergamo環境の性能を最大限に引き出すにはブロックサイズの最適化が重要であるという示唆が得られました。

STREAM (Triad)

STREAMはメモリ帯域性能の測定に多用されているベンチマークプログラムです。その中でもTriadというプログラムは巨大な一次元ベクトルの積和を行うOpenMP並列プログラムで、並列動作させてメモリ入出力のノード全体帯域を測定します。

STREAMはoneAPI 2022.2.0でAVX-512最適化オプションを有効にしてビルドしたものでベンチマークを実施しました。1ノードでのピーク時の結果は以下となりました。

特長:CPU動作クロック比でGenoa環境と同等の実効メモリ帯域を達成
Bergamo環境のSTREAM(Triad)のベンチマーク結果はGenoa環境の86%ですが、この結果にはCPUの動作クロックが影響しています。全コア起動速度がGenoa環境(3.55GHz)に対しBergamo環境(3.1GHz = 3.55GHzの87%)ですので、動作クロックを加味するとGenoa環境と同等の実効メモリ帯域を達成できています。このことはBergamo環境のCPUあたりのメモリチャンネル数(12)や対応規格(DDR5-4800)がGenoa環境と同じであることから妥当な結果です。ステンシル計算やFFTなどメモリ帯域により律速しがちな計算のユーザーにとって、期待の持てる結果と言えるでしょう。

Gaussianなど実用アプリケーションでの実効性能評価を含む、続きは報告書PDFをダウンロードしてご覧ください!