L40S, H100 NVL上でのLLM推論学習検証報告
目的
ローカルLLMを用いた生成AI活用に向けて、推論を中心としたパフォーマンス(体感速度、同時アクセス数)を明らかにすべく、ベンチマーク検証を行いました。
ハードウェアの決定のために最低限必要な情報は「どのGPUを何枚で」どのモデルが動くかです。
対象モデルは、現状精度の高い Llama 3.1 8B、Llama 3.1 70B、Gemma 2 9B、Gemma 2 27B としました。
検証・結果
ユーザーの体感速度
検証方法
各条件で1つのRequestを処理した際の、Throughput (token/sec) を計測
対象モデル:Llama 3.1 8B, ...