HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

データセンターレポート:サーバークラスタ増強の現場を取材してみた

こんにちは!マーケティング担当の松尾です。
先日、HPCシステムズのデータセンターにてサーバークラスタの増強を実施しました!
 

本プロジェクトの目的は次の2点です。 

① GPUクラスタ構築検証 
② GRRM機械学習ポテンシャルを使用した反応経路探索クラスタ構築 

SIサービスを提供する立場から、当社が自社データセンターをどのように整備・活用しているかを、今回のプロジェクトを例にご紹介します。 

HPCシステムズデータセンター現地の写真

当日は抜けるような青空でした

自社でHPC・GPU環境を完結できる研究基盤

当社データセンターでは、NVIDIA DGXシリーズをはじめ多様なサーバーを設置しており、技術検証や社内クラスタ運用に利用しています。 

 サーバー室内部

 このデータセンターの中で、AI・量子化学・分子シミュレーションなど、研究用途に特化した高速計算環境を自前で構築しています。実ユーザーとしてのノウハウが、お客様へのご提案にもつながっています。 

プロトタイプ開発・検証用クラスタの迅速な構築

データセンターは以下の検証に活用されています。 

  • OS・CUDA・NVIDIAドライバの最適化 
    バージョン組み合わせによる依存関係の解消と統一を行います。 
  • ネットワークスタックの検証 
    InfiniBand(IB)ドライバやOFEDの安定性、低遅延通信を確認します。 
  • ストレージ・パフォーマンスの最適化 
    Lustreストレージの性能測定や計算負荷に耐えるI/O設計を検証します。 
  • スケーラビリティの追求 
    新規ノード追加時のクラスタ全体への影響をテストします。 

こうしたトライ&エラーを内製で繰り返すことで、お客様へお届けするHPCクラスタの安定稼働に必要な知見を蓄積しています。 

ハードウェア保守・運用ノウハウの蓄積

ハイエンドサーバー(例:NVIDIA DGX)は高い計算性能を持つ一方、消費電力や発熱が大きく、重量もあるため高度な運用技術を要します。自社データセンターで実際に運用することにより、次のようなノウハウを構築しています。 

 DGXサーバー

  • 物理構築の最適化 
    重量負荷を考慮したラッキング設計。 
  • ケーブル・配線管理 
    通信ロスを最小限に抑え、エアフローを妨げないInfiniBand(EDR等)の配線管理。 
  • 計算リソースの最大化 
    計算速度を高めるためのRAIDスクラッチ領域の高速セットアップ。 
    高負荷時でも安定稼働させるための、電源供給と冷却レイアウトの最適化。 

障害発生時は社内エンジニアが現場でメンテナンスと切り分けを実施します。現場で得られた知見が保守・運用サービスにも活かされています。 

社内でのノウハウ共有

取材当日は弊社のシステムエンジニアが若手からベテランまで集まり、声を掛け合いながらクラスタ増強作業等を行いました。 

ラックマウントなどの物理作業と画面での設定作業を繰り返すことで、実務を通じた学習の機会になりました。作業手順書は社内の共有ライブラリに保管してあり、現場にいないメンバーもドキュメントを参照できます。 

 作業の様子

まとめ 

当データセンターでは今後も継続的なサーバー増強、最新環境でのベンチマーク、及び新技術の検証を進めていきます。 

私たちはノウハウを蓄積し続け、AI・量子化学・分子シミュレーションなどの高度な計算に挑むお客様のパートナーとして、より付加価値の高い技術と安心をご提供できるよう努めてまいります。 

 

HPCシステムズ マーケティング担当です。
執筆記事は代理投稿している場合がございます。

matsuoをフォローする
HPC
HPCシステムズ Tech Blog