HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

Schrӧdinger 向けGPUクラスタシステム導入事例

Schrӧdingerでシミュレーションを行っている製薬企業のお客様に、当社の計算機クラスタシステムをご導入いただいた事例を紹介します。

Schrӧdingerは、最近ライセンス契約形態が変わり、GPU単位での課金からCUDAコア単位の課金になりました。そのため、計算手法とライセンスによっては、GPUを1枚そのままで使うよりも、MIGで分割して使ったほうがハードウェアリソース的にも経済的にも効率が良くなります。今回の場合では、

  Desmond         → GPUを1枚そのまま
  FEP+               → MIGで分割したGPU

という運用が最適でした。さらに、ハードウェアリソースが空いていてもライセンスに空きがなければジョブは待機する、というライセンスと連携したジョブ管理も実装する必要がありました。
そこで今回は、MIG対応している無償ジョブスケジューラであるSlurmを導入し、お客様のご要望を満たすシステムを構築しました。

▼ユーザー様の課題とご要望
・Schrӧdingerを利用し、計算ごとに適したリソースを使い分けたい
 Desmond             → GPUを1枚そのまま
 FEP+                   → MIGで分割したGPU
 前処理                  → CPU
・リモートデスクトップ接続だけでなく、手元のマシンのmaestroからクラスタにジョブ投入したい

▼ご提供したシステムインテグレーション
・ジョブスケジューラSlurmによるハードウェアリソースおよびライセンスの管理を実現
 また、要求する計算リソースの種類ごとにキューを作成し、maestro と連携
・手元のマシンのmaestroから本クラスタを利用できる設定を実装

▼導入計算機情報

・管理ノード兼ファイルサーバー

 HPC3000-XIL108FS12R2S
  CPU: Xeon Silver 4309Y (8core 2.8GHz 105W) ×2
  Memory: 128 GB (DDR4-3200 16GB ×8)
  DISK: SATA SSD 480GB x2 (System, Backup)
           SATA HDD 16TB x10 (RAID60)
           SATA HDD 16TB x2 (Spare)
  HBA: 10Gigabit Ethernet
  OS: Ubuntu 20.04 LTS

・計算ノード群

 HPC5000-XIL232R2S ×1
  CPU: Xeon Gold 6342 (24core 2.8GHz 230W) ×2
  Memory: 256 GB (DDR4-3200 16GB ×16)
  DISK: SATA SSD 480GB x2 (System, Backup)
  GPU: NVIDIA A100 PCI-e (80GB 300W)
  HBA: 10Gigabit Ethernet
  OS: Ubuntu 20.04 LTS

 HPC5000-XILGPU4TS ×1
  CPU: Xeon Gold 6342 (24core 2.8GHz 230W) ×2
  Memory: 256 GB (DDR4-3200 16GB ×16)
  DISK: SATA SSD 480GB x2 (System, Backup)
  GPU: NVIDIA A100 PCI-e (80GB 300W)
  HBA: 10Gigabit Ethernet
  OS: Ubuntu 20.04 LTS

 HPC5000-XILGPU4TS ×1
  CPU: Xeon Gold 6342 (24core 2.8GHz 230W) ×2
  Memory: 128 GB (DDR4-3200 16GB ×8)
  DISK: SATA SSD 480GB x2 (System, Backup)
           SATA HDD 18TB x4 (RAID6)
           SATA HDD 18TB x2 (Spare)
  GPU: NVIDIA A100 PCI-e (80GB 300W) ×4
  HBA: 10Gigabit Ethernet
  OS: Ubuntu 20.04 LTS