データセンターレポート：サーバークラスタ増強の現場を取材してみた

こんにちは！マーケティング担当の松尾です。
先日、HPCシステムズのデータセンターにてサーバークラスタの増強を実施しました！

本プロジェクトの目的は次の2点です。

①　GPUクラスタ構築検証
②　GRRM機械学習ポテンシャルを使用した反応経路探索クラスタ構築

SIサービスを提供する立場から、当社が自社データセンターをどのように整備・活用しているかを、今回のプロジェクトを例にご紹介します。

当日は抜けるような青空でした

自社でHPC・GPU環境を完結できる研究基盤

当社データセンターでは、NVIDIA DGXシリーズをはじめ多様なサーバーを設置しており、技術検証や社内クラスタ運用に利用しています。

サーバー室内部

このデータセンターの中で、AI・量子化学・分子シミュレーションなど、研究用途に特化した高速計算環境を自前で構築しています。実ユーザーとしてのノウハウが、お客様へのご提案にもつながっています。

データセンターは以下の検証に活用されています。

こうしたトライ＆エラーを内製で繰り返すことで、お客様へお届けするHPCクラスタの安定稼働に必要な知見を蓄積しています。

ハイエンドサーバー（例：NVIDIA DGX）は高い計算性能を持つ一方、消費電力や発熱が大きく、重量もあるため高度な運用技術を要します。自社データセンターで実際に運用することにより、次のようなノウハウを構築しています。

DGXサーバー

計算リソースの最大化
計算速度を高めるためのRAIDスクラッチ領域の高速セットアップ。
高負荷時でも安定稼働させるための、電源供給と冷却レイアウトの最適化。

障害発生時は社内エンジニアが現場でメンテナンスと切り分けを実施します。現場で得られた知見が保守・運用サービスにも活かされています。

取材当日は弊社のシステムエンジニアが若手からベテランまで集まり、声を掛け合いながらクラスタ増強作業等を行いました。

ラックマウントなどの物理作業と画面での設定作業を繰り返すことで、実務を通じた学習の機会になりました。作業手順書は社内の共有ライブラリに保管してあり、現場にいないメンバーもドキュメントを参照できます。

作業の様子

当データセンターでは今後も継続的なサーバー増強、最新環境でのベンチマーク、及び新技術の検証を進めていきます。

私たちはノウハウを蓄積し続け、AI・量子化学・分子シミュレーションなどの高度な計算に挑むお客様のパートナーとして、より付加価値の高い技術と安心をご提供できるよう努めてまいります。