ベンチマーク

L40S, H100 NVL上でのLLM推論学習検証報告

目的ローカルLLMを用いた生成AI活用に向けて、推論を中心としたパフォーマンス（体感速度、同時アクセス数）を明らかにすべく、ベンチマーク検証を行いました。ハードウェアの決定のために最低限必要な情報は「どのGPUを何枚で」どのモデルが動くかです。対象モデルは、現状精度の高い Llama 3.1 8B、Llama 3.1 70B、Gemma 2 9B、Gemma 2 27B としました。検証・結果ユーザーの体感速度検証方法各条件で1つのRequestを処理した際の、Throughput (token/sec) を計測対象モデル：Llama 3.1 8B, ...

2024.12.13

nabeo

DL

高速なDNN学習計算のためのハードウェア構成ポイント

概要深層学習にGPUが好適とよく言われていますが、比較的安価なGPUからハイエンドのものまで様々なGPUがある中で、深層学習計算の高速化にどのようなハードウェア構成が適しているのでしょうか。GPUのスペックを見ると、理論性能値に加えてGPUメモリ容量、GPUメモリ帯域幅も様々ですし、複数GPU間の高速通信を可能とするNVLinkもあります。これらの選択肢がある中で、どの指標を優先的に考慮すべきなのでしょうか。本稿では、DNNの学習計算について、ベンチマーク結果からその答えを導いてみます。ベンチマーク環境本稿で用いるデータは弊社内で過去に取得したベンチマークからとなりますため、2...

2024.12.09

nabeo

DL

第5世代インテル Xeon スケーラブル・プロセッサーベンチマーク

ベンチマーク報告書(PDF)のダウンロードはこちらからどうぞ！概要 2023年12月14日（日本時間15日）、第5世代インテル🄬 Xeon🄬 スケーラブル・プロセッサー（開発コード名：Emerald Rapids）がリリースされました。「Intel 7」製造プロセスにより微細化されており、1ソケットに最大64コアを搭載可能になったことに加え、CPU間のUPI接続速度が20 GT/sに向上しました。また、コア間で共有されるLast Level Cacheの容量が320MBに拡大し、メモリアクセスを多用するAI・HPCワークロード向けに機能強化されています。さらに、新たにDDR5-5600...

2024.07.22

nabeo

HPC

NVIDIA GH200 MLベンチマーク公開

NVIDIA GH200 の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA H100-PCIEと A6000 を加えた計3種のGPUで、機械学習の学習性能を比較評価しています。ベンチマーク報告書のダウンロードはこちら >> スペック情報 NVIDIA GH200、NVIDIA H100-PCIE、NVIDIA A6000 のスペック比較表は次のとおりです。 GPU型番 NVIDIA GH200 NVIDIA H100-PCIE NVIDIA A6000 アーキテクチャ Hopper Hopper Amper...

2024.04.25

nabeo

DL

NVIDIA A800 MLベンチマーク公開

NVIDIA A800(40GB Active) の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。ベンチマーク報告書のダウンロードはこちら >> スペック情報 NVIDIA A800、NVIDIA A100 のスペック比較表は次のとおりです。 GPU型番 NVIDIA A800 40GB Active NVIDIA A100 80GB PCIe アーキテクチャ Ampere Ampe...

2024.02.06

nabeo

DL

SLC採用、高速NVMe™ SSD KIOXIA FL6 レビュー

はじめに今回、KIOXIA社が横浜に開設したKIOXIA Innovation Labを利用して、SLC(Single Level Cell)を採用した高速NVMe™ SSD、FL6をリモート評価させていただく機会をいただきました。 KIOXIA Innovation Labとは KIOXIA Innovation Labは、KIOXIA社が提供するクラウド型のKIOXIA製品PoC施設です。KIOXIA社の最新SSDや関連技術、ソフトウエアを評価できる環境を利用することが可能です。リモートからＶＰＮ接続しＷｅｂブラウザだけで利用可能でした。 K...

2024.02.06

hpc

HPC

RTX A5500、RTX 5000 Ada MLベンチマーク公開

NVIDIA RTX A5500 と RTX 5000 Ada の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、これらのGPUに NVIDIA A6000 と RTX 4090 を加えた計4種のGPUで、機械学習の学習性能を比較評価しています。スペック情報 NVIDIA RTX A5500、RTX 5000 Ada、RTX A6000、GeForce RTX 4090 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。 GPU型番 NVIDIA RTX A5500 NVIDIA RTX 5000 Ada ...

2023.12.05

nabeo

DL

NVIDIA L40S MLベンチマーク公開

NVIDIA L40S の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。ベンチマーク報告書のダウンロードはこちら >> スペック情報 NVIDIA L40S、NVIDIA A100 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。 GPU型番 NVIDIA L40S NVIDIA A100 アーキテクチャ Ada Lovelace Ampere ...

2023.12.04

nabeo

DL

第4世代 AMD EPYC 97X4 プロセッサーベンチマーク

ベンチマーク報告書(PDF)のダウンロードはこちらからどうぞ！概要 2023年6月13日、新コアを採用した第4世代 AMD EPYC™ 97X4 プロセッサー（開発コード名：Bergamo）がリリースされました。開発コード名Genoaの第4世代 AMD EPYC™ プロセッサーと比べると、論理的には「Zen 4」と同じながら物理設計を変更してCPUコアのエリアサイズが縮小されている、従来の4MB/コアから2MB/コアに3次キャッシュが縮小されている、1つのダイに2つのCCXが搭載されそれらがIoD経由で通信される、といった差異があります。この新プロセッサーは元々クラウドのワークロード向け...

2023.09.29

nabeo

HPC

第11世代CPU(Z590)&第12世代CPU(Z690)のCPU性能テスト／比較

第12世代Coreプロセッサーについて第12世代第11世代コア構成高性能コア+高効率コア高効率コアのみ(Core i5 Kなし以下) 高性能コアのみコア/スレッド(最大) Core i9 : 16コア/24スレッド Core i7 : 12コア/20スレッド Core i5 K : 10コア/16スレッド Core i5(Kなし) : 6コア/12スレッド Core i3 : 4コア/8スレッド Core i9 : 8コア/16スレッド Core i7 : 8コ...

2022.04.07

hpc

産業用コンピューティング

VASP 6.4.1 : libxcの使用

VASP 6.4.1がリリースされました。実はvasp 6.3.0からlibxcが使用可能なのですが、vasp 6.4.1に最新のlibxc 6.1.0を組み込んで、libxcを使用した場合、実行時間が早くなるかを試験しました。 libxcに関しては、をご参照下さい。使い方は簡単で、インプット(INCAR)で GGA=PA としている部分を GGA = LIBXC LIBXC1 = GGA_X_PBE LIBXC2 = GGA_C_PBE と変更するだけで、VASPビルド時にlibxcが組み込んであれば、VASPの内部でlibxcが呼ばれて使用されます。VASPでの使い方等...

2023.05.25

fujita

HPC計算化学

第4世代インテル Xeon スケーラブル・プロセッサーベンチマーク

※2023年5月17日に改めて公開いたしました。ベンチマーク報告書(PDF)のダウンロードはこちらからどうぞ！概要 2023年1月10日（日本時間11日）、第4世代インテル🄬 Xeon🄬 スケーラブル・プロセッサー（開発コード名：Sapphire Rapids）がリリースされました。「Intel 7」製造プロセスにより微細化され、1ソケットに最大56コアを搭載可能になったことに加え、CPU間のUPI接続がCPUあたり最大4本に増加し、その速度が16 GT/sに向上しました。また、新たにDDR5-4800のメモリに対応して、より太いメモリ帯域に進化しました。さらに、データ移動のための...

2023.05.17

nabeo

HPC

VASP 6.4.1 : on the fly 機械学習力場

vasp 6.4.1がリリースされましたが、このバージョンで特に強化されているのが、機械学習力場の機能部分です。この機械学習力場を上手く活用すると、大変な計算時間の短縮になるので紹介します。機械学習力場というと、「力場で計算した結果は信用出来ない」とか、「機械学習ならGPUが必要でしょ？高価なGPUは購入予定が無いので。」といった事を思われるかもしれません。力場の使用に関しては、自分が計算したい系を扱った力場で適切なものを選択するのが大変で、その選定や差異などをチェックするところでとても手間と計算リソースを消費する為、力場で計算する事で省力化可能より手間が大きくなりそうに思えるという事はあ...

2023.05.17

fujita

HPC計算化学DL

NVIDIA H100, GeForce RTX 4090 MLベンチマーク公開

NVIDIA H100 と GeForce RTX 4090 の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、これらのGPUに NVIDIA A100 と RTX 3090 を加えた計4種のGPUで、機械学習の学習性能を比較評価しています。スペック情報 NVIDIA H100 PCIe、NVIDIA A100 PCIe、GeForce RTX 4090、GeForce RTX 3090 のスペック比較表は次のとおりです。CUDAコア数とGPU Boost時クロックが向上していることがわかります。 GPU型番 NVIDIA H100-PCI...

2022.12.26

nabeo

DL

第4世代 AMD EPYC プロセッサーベンチマーク

ベンチマーク報告書(PDF)のダウンロードはこちらからどうぞ！概要 2022年11月10日、第4世代 AMD EPYC™ プロセッサー（開発コード名：Genoa）がリリースされました。新マイクロアーキテクチャ「Zen 4」を採用し、5nm製造プロセスにより微細化されて、1ソケットで最大96コア、2ソケットで最大192コアという多コア構成が可能になったことに加え、DDR5-4800メモリに対応してメモリチャンネルが12本に増えたことでメモリ帯域も太く構成されている点が特長です。また、AVX-512命令に対応してAI・HPCワークロード向けに機能強化された他、キャッシュ階層と分岐予測の改善に...

2022.12.22

nabeo

HPC計算化学

Core i9-12900KでのGaussianベンチマーク

第12世代インテル® Core™ i9プロセッサーの12900Kは、Performance-core(P-core)を8個・Efficient-core(E-core)を8個搭載したデスクトップPC向けハイエンドプロセッサーです。実計算における性能を明らかにするため、量子化学計算のデファクトスタンダードであるGaussian16にてベンチマークを行いました。ベンチマーク環境サーバー: HPC2000-CAL104TA CPU: Intel® Core™ i9-12900K メモリ: 32GB DDR5-4800 ECC UDIMM x2 ソフトウェア: Windows 11 ...

2022.11.14

nabeo

HPC計算化学

Geforce RTX4090 ベンチマーク

Ada Lovelace アーキテクチャ　Geforce RTX 4090は、新型GPUアーキテクチャ「Ada Lovelace」を採用する初めてのGPUです。製造プロセスが4nmになり微細化が進み、GPUコア数、周波数が劇的に伸びました。また、Tensorコアは第4世代となり、FP8演算エンジンも搭載されました。 RTX4090スペック今回、比較したGeforce RTX3090と、Geforce RTX4090のスペックを下表にまとめました。 Geforce RTX 4090 Geforce RTX 3090 アーキテクチャ Ada Lovela...

2022.10.27

t

DL

インテル12900Kの理論性能について

図1 第12世代インテル® Core™ i9 プロセッサー12900K 現在、第12世代インテル® Core™ i9 プロセッサー12900Kを搭載した当社ワークステーションの評価を行っています。このCPUは、最大 8 個の高性能コア (P コア) と最大 8 個の高効率コア (E コア) からなるハイブリッド・アーキテクチャーを採用しています。インテル® スレッド・ディレクターが、Pコア/Eコアをワークロードへ適切に割り当てるということですが、そもそもの理論性能は？と思って調べました。が、どこにも見当たりません。そこで自分で計算してみました。表周波数は、P...

2022.10.19

hpc

HPC

スーパーコンピュータ「富岳」が四冠を取ったので、HPCGを動かしてみた

なんかこう一昔前の動画サイトの題名みたいな感じですね。スーパーコンピュータ「富岳」が四冠を連続達成です。四冠というと、棋士の藤井さんの方がインターネットサーチエンジンではヒットしてしまうので、勝負飯のお店で「富岳」なんてお店があったのかなんてまとめサイトに載せられそうにも思ったりしますが、まあ、勝負には違いはないので、将棋と外食メニューよりは近いお話です。この「富岳」の四冠ですが、Linpack(HPL)はあまりに身近で実際に動かす機会も多いのですが、HPCGというのは何でしょう。このサイトがHPCGのホームページで、現在の最新バージョンは3.1です。このHPCGには色々な特徴...

2021.11.25

fujita

HPC

第3世代Xeonスケーラブル・プロセッサーベンチマーク

日本時間2021年4月7日、第3世代 Xeon スケーラブル・プロセッサーがリリースされました。弊社で行ったベンチマーク報告書をこちらからダウンロードいただけます。実用アプリケーションでのベンチマークで、前世代に比べて実効性能向上が得られていることを定量的に報告しています。どうぞご覧ください！

2021.04.07

nabeo

HPC

L40S, H100 NVL上でのLLM推論学習検証報告

高速なDNN学習計算のためのハードウェア構成ポイント

第5世代 インテル Xeon スケーラブル・プロセッサー ベンチマーク

NVIDIA GH200 MLベンチマーク公開

NVIDIA A800 MLベンチマーク公開

SLC採用、高速NVMe™ SSD KIOXIA FL6 レビュー

RTX A5500、RTX 5000 Ada MLベンチマーク公開

NVIDIA L40S MLベンチマーク公開

第4世代 AMD EPYC 97X4 プロセッサー ベンチマーク

第11世代CPU(Z590)&第12世代CPU(Z690)のCPU性能テスト／比較

VASP 6.4.1 : libxcの使用

第4世代 インテル Xeon スケーラブル・プロセッサー ベンチマーク

VASP 6.4.1 : on the fly 機械学習力場

NVIDIA H100, GeForce RTX 4090 MLベンチマーク公開

第4世代 AMD EPYC プロセッサー ベンチマーク

Core i9-12900KでのGaussianベンチマーク

Geforce RTX4090 ベンチマーク

インテル12900Kの理論性能について

スーパーコンピュータ「富岳」が四冠を取ったので、HPCGを動かしてみた

第3世代Xeonスケーラブル・プロセッサーベンチマーク

第5世代インテル Xeon スケーラブル・プロセッサーベンチマーク

第4世代 AMD EPYC 97X4 プロセッサーベンチマーク

第4世代インテル Xeon スケーラブル・プロセッサーベンチマーク

第4世代 AMD EPYC プロセッサーベンチマーク