HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

L40S, H100 NVL上でのLLM推論学習検証報告

目的

ローカルLLMを用いた生成AI活用に向けて、推論を中心としたパフォーマンス(体感速度、同時アクセス数)を明らかにすべく、ベンチマーク検証を行いました。
ハードウェアの決定のために最低限必要な情報は「どのGPUを何枚で」どのモデルが動くかです。
対象モデルは、現状精度の高い Llama 3.1 8B、Llama 3.1 70B、Gemma 2 9B、Gemma 2 27B としました。

検証・結果

[推論] ユーザーの体感速度

検証方法

  • 各条件で1つのRequestを処理した際の、Throughput (token/sec) を計測
  • 対象モデル:Llama 3.1 8B, Llama 3.1 70B、Gemma 2 9B, Gemma 2 27B
  • 対象GPU:L40S x2、L40S x4、H100 x4、H100 x8
    • 70BはVRAMが140GB程度あればbfloat16で推論可能なことがあらかじめわかっていたため
    • 用いたライブラリ:vllm

結果

  VRAM 推論      
    Llama 3.1 8B Llama 3.1 70B Gemma 2 9B Gemma 2 27B
L40S x2 96 GB (bf16): 84
token/sec
(4bit): 16
token/sec
(bf16): 72
token/sec
(8bit): 40
token/sec
(bf16): 26
token/sec
L40S x4 192 GB (bf16): 130
token/sec
(bf16): 20
token/sec
(bf16): 105
token/sec
(bf16): 47
token/sec
H100 x4 376 GB (bf16): 185
token/sec
(bf16): 61
token/sec
(bf16): 124
token/sec
(bf16): 101
token/sec
H100 x8 752 GB

(bf16): 185
token/sec
※ H100 x4の結果

(bf16): 61
token/sec
※ H100 x4の結果

(bf16): 124
token/sec
※ H100 x4の結果

(bf16): 101
token/sec
※ H100 x4の結果

L40S x2 でも Llama 3.1 70B が動作しました。

[推論] 同時アクセス数

検証方法

  • 各条件で同時に16個のrequestがあった際の最大の time to first token を記載
    • time-to-first-token:ユーザーがrequestを投げてから回答の生成が始まるまでの時間)
  • 対象モデル:Llama 3.1 8B, Llama 3.1 70B、Gemma 2 9B, Gemma 2 27B
  • 対象GPU:L40S x2、L40S x4、H100 x4、H100 x8
  • 用いたライブラリ:vllm

結果

  VRAM 推論      
    Llama 3.1 8B Llama 3.1 70B Gemma 2 9B Gemma 2 27B
L40S x2 96 GB (bf16): 0.25 (4bit): 1.89 (bf16): 0.30 (bf16): 0.59
L40S x4 192 GB (bf16): 0.23 (bf16): 1.23 (bf16): 0.28 (bf16): 0.47
H100 x4 376 GB (bf16): 0.16 (bf16): 0.76 (bf16): 0.19 (bf16): 0.30
H100 x8 752 GB (bf16): 0.16
※ H100 x4の結果
(bf16): 0.76
※ H100 x4の結果
(bf16): 0.19
※ H100 x4の結果
(bf16): 0.30
※ H100 x4の結果

[学習] 学習可能性

検証方法

  • Context長は全て8k
  • パラメータ数は70B

結果

最大学習throughputを記載しています。

  VRAM フルパラメータ学習 LoRA
H100 NVL x2 188 GB × ×
H100 x4 (参考) 320 GB (ギリギリのラインか、不明) (動作可能)
H100 NVL x4 376 GB 317 tokens/sec 2222 tokens/sec
H100 NVL x8 752 GB 521 tokens/sec 1155 tokens/sec

H100 x4 で 70B の LoRA が学習可能です。

今後に向けて

L40S x2, L40S x4, H100 x8 の3プランでの、生成AIプラットフォームの提供が現実的であることが確かめられました。どのプランでも Llama 3.1 70B 級のLLMを搭載可能です。

    100V
L40S x2 + CPU x1 RAG:可能
学習:不可能
✔️
L40S x4 RAG:可能
学習:可能
 
H100 SXM    
DGX H100 Flagship
LLM推論のみの利用も考えられる
 

DGX H100のLLM推論のみの利用も考えられます。創薬や生物化学系の分野でも考えられます。

謝辞

この検証には株式会社neoAI様に多大なご協力を頂きました。この場を借りて御礼申し上げます。