目的
ローカルLLMを用いた生成AI活用に向けて、推論を中心としたパフォーマンス(体感速度、同時アクセス数)を明らかにすべく、ベンチマーク検証を行いました。
ハードウェアの決定のために最低限必要な情報は「どのGPUを何枚で」どのモデルが動くかです。
対象モデルは、現状精度の高い Llama 3.1 8B、Llama 3.1 70B、Gemma 2 9B、Gemma 2 27B としました。
検証・結果
[推論] ユーザーの体感速度
検証方法
- 各条件で1つのRequestを処理した際の、Throughput (token/sec) を計測
- 対象モデル:Llama 3.1 8B, Llama 3.1 70B、Gemma 2 9B, Gemma 2 27B
- 対象GPU:L40S x2、L40S x4、H100 x4、H100 x8
- 70BはVRAMが140GB程度あればbfloat16で推論可能なことがあらかじめわかっていたため
- 用いたライブラリ:vllm
結果
VRAM | 推論 | ||||
Llama 3.1 8B | Llama 3.1 70B | Gemma 2 9B | Gemma 2 27B | ||
L40S x2 | 96 GB | (bf16): 84 token/sec |
(4bit): 16 token/sec |
(bf16): 72 token/sec |
(8bit): 40 token/sec (bf16): 26 token/sec |
L40S x4 | 192 GB | (bf16): 130 token/sec |
(bf16): 20 token/sec |
(bf16): 105 token/sec |
(bf16): 47 token/sec |
H100 x4 | 376 GB | (bf16): 185 token/sec |
(bf16): 61 token/sec |
(bf16): 124 token/sec |
(bf16): 101 token/sec |
H100 x8 | 752 GB |
(bf16): 185 |
(bf16): 61 |
(bf16): 124 |
(bf16): 101 |
L40S x2 でも Llama 3.1 70B が動作しました。
[推論] 同時アクセス数
検証方法
- 各条件で同時に16個のrequestがあった際の最大の time to first token を記載
- time-to-first-token:ユーザーがrequestを投げてから回答の生成が始まるまでの時間)
- 対象モデル:Llama 3.1 8B, Llama 3.1 70B、Gemma 2 9B, Gemma 2 27B
- 対象GPU:L40S x2、L40S x4、H100 x4、H100 x8
- 用いたライブラリ:vllm
結果
VRAM | 推論 | ||||
Llama 3.1 8B | Llama 3.1 70B | Gemma 2 9B | Gemma 2 27B | ||
L40S x2 | 96 GB | (bf16): 0.25 | (4bit): 1.89 | (bf16): 0.30 | (bf16): 0.59 |
L40S x4 | 192 GB | (bf16): 0.23 | (bf16): 1.23 | (bf16): 0.28 | (bf16): 0.47 |
H100 x4 | 376 GB | (bf16): 0.16 | (bf16): 0.76 | (bf16): 0.19 | (bf16): 0.30 |
H100 x8 | 752 GB | (bf16): 0.16 ※ H100 x4の結果 |
(bf16): 0.76 ※ H100 x4の結果 |
(bf16): 0.19 ※ H100 x4の結果 |
(bf16): 0.30 ※ H100 x4の結果 |
[学習] 学習可能性
検証方法
- Context長は全て8k
- パラメータ数は70B
結果
最大学習throughputを記載しています。
VRAM | フルパラメータ学習 | LoRA | |
H100 NVL x2 | 188 GB | × | × |
H100 x4 (参考) | 320 GB | (ギリギリのラインか、不明) | (動作可能) |
H100 NVL x4 | 376 GB | 317 tokens/sec | 2222 tokens/sec |
H100 NVL x8 | 752 GB | 521 tokens/sec | 1155 tokens/sec |
H100 x4 で 70B の LoRA が学習可能です。
今後に向けて
L40S x2, L40S x4, H100 x8 の3プランでの、生成AIプラットフォームの提供が現実的であることが確かめられました。どのプランでも Llama 3.1 70B 級のLLMを搭載可能です。
100V | ||
L40S x2 + CPU x1 | RAG:可能 学習:不可能 |
✔️ |
L40S x4 | RAG:可能 学習:可能 |
|
H100 SXM | ||
DGX H100 | Flagship LLM推論のみの利用も考えられる |
DGX H100のLLM推論のみの利用も考えられます。創薬や生物化学系の分野でも考えられます。
謝辞
この検証には株式会社neoAI様に多大なご協力を頂きました。この場を借りて御礼申し上げます。