こんにちは!マーケティング担当の松尾です。
先日、HPCシステムズのデータセンターにてサーバークラスタの増強を実施しました!
本プロジェクトの目的は次の2点です。
① GPUクラスタ構築検証
② GRRM機械学習ポテンシャルを使用した反応経路探索クラスタ構築
SIサービスを提供する立場から、当社が自社データセンターをどのように整備・活用しているかを、今回のプロジェクトを例にご紹介します。

当日は抜けるような青空でした
自社でHPC・GPU環境を完結できる研究基盤
当社データセンターでは、NVIDIA DGXシリーズをはじめ多様なサーバーを設置しており、技術検証や社内クラスタ運用に利用しています。

このデータセンターの中で、AI・量子化学・分子シミュレーションなど、研究用途に特化した高速計算環境を自前で構築しています。実ユーザーとしてのノウハウが、お客様へのご提案にもつながっています。
プロトタイプ開発・検証用クラスタの迅速な構築
データセンターは以下の検証に活用されています。
- OS・CUDA・NVIDIAドライバの最適化
バージョン組み合わせによる依存関係の解消と統一を行います。
- ネットワークスタックの検証
InfiniBand(IB)ドライバやOFEDの安定性、低遅延通信を確認します。
- ストレージ・パフォーマンスの最適化
Lustreストレージの性能測定や計算負荷に耐えるI/O設計を検証します。
- スケーラビリティの追求
新規ノード追加時のクラスタ全体への影響をテストします。
こうしたトライ&エラーを内製で繰り返すことで、お客様へお届けするHPCクラスタの安定稼働に必要な知見を蓄積しています。
ハードウェア保守・運用ノウハウの蓄積
ハイエンドサーバー(例:NVIDIA DGX)は高い計算性能を持つ一方、消費電力や発熱が大きく、重量もあるため高度な運用技術を要します。自社データセンターで実際に運用することにより、次のようなノウハウを構築しています。

- 物理構築の最適化
重量負荷を考慮したラッキング設計。
- ケーブル・配線管理
通信ロスを最小限に抑え、エアフローを妨げないInfiniBand(EDR等)の配線管理。
- 計算リソースの最大化
計算速度を高めるためのRAIDスクラッチ領域の高速セットアップ。
高負荷時でも安定稼働させるための、電源供給と冷却レイアウトの最適化。
障害発生時は社内エンジニアが現場でメンテナンスと切り分けを実施します。現場で得られた知見が保守・運用サービスにも活かされています。
社内でのノウハウ共有
取材当日は弊社のシステムエンジニアが若手からベテランまで集まり、声を掛け合いながらクラスタ増強作業等を行いました。
ラックマウントなどの物理作業と画面での設定作業を繰り返すことで、実務を通じた学習の機会になりました。作業手順書は社内の共有ライブラリに保管してあり、現場にいないメンバーもドキュメントを参照できます。

まとめ
当データセンターでは今後も継続的なサーバー増強、最新環境でのベンチマーク、及び新技術の検証を進めていきます。
私たちはノウハウを蓄積し続け、AI・量子化学・分子シミュレーションなどの高度な計算に挑むお客様のパートナーとして、より付加価値の高い技術と安心をご提供できるよう努めてまいります。

