HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

"NVIDIA A"

産業用コンピューティング

DGX Sparkで見る“デスクサイドAI”の実力 ― FP16/BF16/FP32/FP64でGB10性能を検証

はじめに 当方は弊社CTO事業部にて、アプリケーション・エンジニアリング業務に携わっています。 本レポートでは、NVIDIA DGX Spark(NVIDIA GB10 Grace Blackwell スーパーチップ搭載システム)を用いて実施したベンチマーク結果を報告します。 主な目的は、AI向けの Brain Float 16(Bfloat16、BF16) から科学技術計算で用いられる 倍精度(FP64) まで、異なる精度フォーマットにおけるGrace Blackwellアーキテクチャの性能を検証することです。Grace Blackwellアーキテクチャは、AIワークロードを主目的とし...
HPC

データセンターレポート:サーバークラスタ増強の現場を取材してみた

こんにちは!マーケティング担当の松尾です。 先日、HPCシステムズのデータセンターにてサーバークラスタの増強を実施しました!  本プロジェクトの目的は次の2点です。  ① GPUクラスタ構築検証  ② GRRM機械学習ポテンシャルを使用した反応経路探索クラスタ構築  SIサービスを提供する立場から、当社が自社データセンターをどのように整備・活用しているかを、今回のプロジェクトを例にご紹介します。  自社でHPC・GPU環境を完結できる研究基盤 当社データセンターでは、NVIDIA DGXシリーズをはじめ多様なサーバーを設置しており、技術検証や社内クラスタ運用に利用して...
HPC

Blackwell GPU RTX Pro 6000でMIGを有効化する方法

Blackwell世代のGPU RTX Pro 6000ではMIGによるリソース分割を有効化することができます。ただ、MIGを有効化するために必要な手順がこれまでと異なりますので、こちらで紹介します。 MIGとは NVIDIAのMIG(Multi-Instance GPU)は、データセンター向けGPUに導入された機能で、1枚の物理GPUを複数の論理GPUインスタンスに分割して独立して利用できるようにするものです。主にAmpere世代のA100やHopper世代のH100などで提供されるこの仕組みは、GPU内部の計算ユニットやメモリ帯域、キャッシュといったハードウェア資源をハードウェアレベル...
HPC

Unified Memoryで始めるGPUプログラミング

はじめに 2025年になり、CPU側のシステムメモリとGPU側のVRAMを統合したメモリ空間を利用できるサーバーがNVIDIA社から次々とリリースされています。GPUからシステム側のメモリに透過的にアクセスできるようにすることで、利用できるメモリ量を増やそうという取り組みは、LLM(大規模言語モデル)の高性能化に伴い、動作に要求されるメモリサイズも肥大化している課題への一つの解決策として注目されています。 一方、HPC(高性能計算)分野においても、この統合メモリ環境の導入は大きなパラダイムシフトを引き起こすと期待しています。これまで科学計算では、GPUだけでほぼすべての演算を完結できる手法...
HPC

自社サーバーでのLLMに挑戦!ローカルLLM+RAG環境を構築してみた

はじめに 近年、生成AIや大規模言語モデル(LLM)の活用がビジネス・研究・開発の現場でも急速に進んでいます。しかし、「実際にどう使えばいいのか分からない」「技術的なハードルが高そう」「セキュリティ上のリスクが高い」「回答の確からしさが保証できない」と感じている方も多いのではないでしょうか。  本記事では、LLMの概要からセキュリティ・カスタマイズ性に優れたローカルLLMの実践、RAGの実装までを解説します。  大規模言語モデル(LLM)とRAG (Retrieval-Augmented Generation)とは 大規模言語モデル(LLM)は、膨大な量のテキストデータを学習することで...
産業用コンピューティング

拡張カード11枚フル装填!11スロット産業PCを検証

今回は、弊社が提供している拡張スロットを11スロット搭載した産業用コンピューター「IPC-C621ASM-R4」に、実際に11枚の拡張カードを装着し、動作検証を行いました。  IPC-C621ASM-R4の製品情報はこちら 11スロット搭載「IPC-C621ASM-R4」の特徴 一般的なPCには、機能拡張のためにPCIeスロットなどの拡張スロットが備わっています。現在の主流はPCIe(PCI Express)スロットですが、産業用途ではいまだにPCIスロットも現役で使用されています。古くは、Windows® 95時代のISAスロットなども存在しました。 本製品 IPC-C621AS...
DL

高速なDNN学習計算のためのハードウェア構成ポイント

概要 深層学習にGPUが好適とよく言われていますが、比較的安価なGPUからハイエンドのものまで様々なGPUがある中で、深層学習計算の高速化にどのようなハードウェア構成が適しているのでしょうか。GPUのスペックを見ると、理論性能値に加えてGPUメモリ容量、GPUメモリ帯域幅も様々ですし、複数GPU間の高速通信を可能とするNVLinkもあります。これらの選択肢がある中で、どの指標を優先的に考慮すべきなのでしょうか。 本稿では、DNNの学習計算について、ベンチマーク結果からその答えを導いてみます。 ベンチマーク環境 本稿で用いるデータは弊社内で過去に取得したベンチマークからとなりますため、2...
HPC

PLiOPS Extreme データプロセッサ (XDP)レビュー

●はじめに サーヴァンツインターナショナル社が取り扱う,PLiOPS Extremデータプロセッサ(XDP)を検証する機会をいただきましたので、ご報告いたします。 ●PLiOPS Extreme データプロセッサ(XDP)とは PLiOPS Extreamデータプロセッサ(XDP)は、PCI-Expressカード型のアクセラレートカードです。SSD 向けデータ保護機能を提供するとともに、RAIDリビルド時間の短縮など、従来の RAID コントローラーの制限を克服し、SSD の耐久性と使用寿命を延ばし、容量を解放します。 ●PLiOPS社とは PLiOPSは 2017 年に設立...
DL

NVIDIA GH200 MLベンチマーク公開

NVIDIA GH200 の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA H100-PCIEと A6000 を加えた計3種のGPUで、機械学習の学習性能を比較評価しています。 ベンチマーク報告書のダウンロードはこちら >> スペック情報 NVIDIA GH200、NVIDIA H100-PCIE、NVIDIA A6000 のスペック比較表は次のとおりです。 GPU型番 NVIDIA GH200 NVIDIA H100-PCIE NVIDIA A6000 アーキテクチャ Hopper Hopper Amper...
DL

NVIDIA A800 MLベンチマーク公開

NVIDIA A800(40GB Active) の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。 ベンチマーク報告書のダウンロードはこちら >> スペック情報 NVIDIA A800、NVIDIA A100 のスペック比較表は次のとおりです。 GPU型番 NVIDIA A800 40GB Active NVIDIA A100 80GB PCIe アーキテクチャ Ampere Ampe...
HPC

AMDの新GPU Instinct™ MI300シリーズについて

AMDのAI 向け新GPU製品 Instinct MI300X および Instinct MI300Aの詳細が発表されました。 ネットでは取り上げられなかった 情報も交えて紹介いたします。 ■Instinct MI300Xについて 図1 AMD Instinct MI300X 及び MI300A AMD InstinctMT MI300X は NVIDIA の H100 を凌駕するデータセンタ用の高性能 GPU です。すでに1月のCESの前日基調講演や6月の「Data Center and AI Technology Premiere」で発表されていましたが、今回サンノゼで開催さ...
DL

RTX A5500、RTX 5000 Ada MLベンチマーク公開

NVIDIA RTX A5500 と RTX 5000 Ada の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、これらのGPUに NVIDIA A6000 と RTX 4090 を加えた計4種のGPUで、機械学習の学習性能を比較評価しています。 スペック情報 NVIDIA RTX A5500、RTX 5000 Ada、RTX A6000、GeForce RTX 4090 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。 GPU型番 NVIDIA RTX A5500 NVIDIA RTX 5000 Ada ...
DL

NVIDIA L40S MLベンチマーク公開

NVIDIA L40S の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。 ベンチマーク報告書のダウンロードはこちら >> スペック情報 NVIDIA L40S、NVIDIA A100 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。 GPU型番 NVIDIA L40S NVIDIA A100 アーキテクチャ Ada Lovelace Ampere ...
HPC

NVDIA A100搭載水冷静音ワークステーションの検証を始めました。(1)

はじめに 昨今、HPCにおいてはCPU・GPUの演算性能が向上し、それに伴い必要な消費電力も増加しています。これにより、筐体内の熱を効果的に排熱する方法が課題となっています。この課題に対処する一つの方法として、水冷式が注目されており、当社でもデスクサイドに設置可能な水冷式ワークステーション『HPC5000-XSRGPU4TS-LC』の販売を開始しました。 今回は、この装置の外観・内観、およびGPU BurnにおけるGPUの検証結果をご紹介いたします。 スペック情報 プロセッサー 第4世代 インテル® Xeon® スケーラブル・プロセッサー (最大TDP 270W) ...
HPC

Schrӧdinger 向けGPUクラスタシステム導入事例

Schrӧdingerでシミュレーションを行っている製薬企業のお客様に、当社の計算機クラスタシステムをご導入いただいた事例を紹介します。 Schrӧdingerは、最近ライセンス契約形態が変わり、GPU単位での課金からCUDAコア単位の課金になりました。そのため、計算手法とライセンスによっては、GPUを1枚そのままで使うよりも、MIGで分割して使ったほうがハードウェアリソース的にも経済的にも効率が良くなります。今回の場合では、   Desmond         → GPUを1枚そのまま   FEP+               → MIGで分割したGPU という運用が最適でした。...
産業用コンピューティング

第11世代CPU(Z590)&第12世代CPU(Z690)のCPU性能テスト/比較

第12世代Coreプロセッサーについて   第12世代 第11世代 コア構成 高性能コア+高効率コア 高効率コアのみ(Core i5 Kなし以下) 高性能コアのみ コア/スレッド(最大) Core i9 : 16コア/24スレッド Core i7 : 12コア/20スレッド Core i5 K : 10コア/16スレッド Core i5(Kなし) : 6コア/12スレッド Core i3 : 4コア/8スレッド Core i9 : 8コア/16スレッド Core i7 : 8コ...
HPC

DGX H100は何が変わったのか?

はじめに この記事では、DGX H100について、背面図とブロックダイアグラムに着目した解説を行います。DGX A100と比較すると、DGX H100では規格が変更されたポートが導入されたり、安定した通信帯域の確保や高速なGPU間通信を実現するための工夫が凝らされています。DGX H100導入にあたっての参考にしていただけると幸いです。 背面図 まずは、サーバーの背面について、DGX A100とDGX H100を比較し、これまでの構成とどう変わったかを見ていきましょう。 上の図はDGX A100、下の図はDGX H100です。DGX製品に限らず、大規模な深層学習を実施するためのサー...
HPC

[要点を掴む] CUDAアプリの動かし方

CUDAってどんなもの? 『CUDA』は、NVIDIA社のGPUをグラフィック処理以外の汎用の計算用途に使えるようにするための、統合開発環境(コンパイラ等)とランタイムライブラリの集合です。 GPUの内部アーキテクチャは、CPUよりもコア数・スレッド数が大変多い構造になっています(数千スレッド~)。また、GPU上の処理を記述するには、CUDAが登場するより前には、 シェーディング言語といったグラフィック処理専用のプログラミング言語を使いこなす必要がありました。 こうした状況に対し、NVIDIA社はGPUのポテンシャルを簡単に引き出せるようにするべく、CUDAを提供してきました。CUDA環...
HPC

NVLink BridgeでGPUを繋いでも1GPUにはなりません

『NVLink Bridgeで複数GPUを繋いだら、それらが1GPUとして扱えるようになるんでしょ?』という誤解をされているお客様をしばしばお見受けいたします。こちらの記事では、それが誤解であること、また、SLIやUnified Memoryといった関連する情報についても整理して解説いたします。間違った期待を抱いて失敗しないように、正しい理解を深めていきましょう。 GPUのメモリ空間は他デバイスから隔絶されています GPU上には演算するためのプロセッサと、データを一時的に置いておくためのメモリ(VRAM)が搭載されています。GPUのメモリを、CUDAで書かれたプログラムから利用するには、c...
DL

NVIDIA H100, GeForce RTX 4090 MLベンチマーク公開

NVIDIA H100 と GeForce RTX 4090 の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、これらのGPUに NVIDIA A100 と RTX 3090 を加えた計4種のGPUで、機械学習の学習性能を比較評価しています。 スペック情報 NVIDIA H100 PCIe、NVIDIA A100 PCIe、GeForce RTX 4090、GeForce RTX 3090 のスペック比較表は次のとおりです。CUDAコア数とGPU Boost時クロックが向上していることがわかります。 GPU型番 NVIDIA H100-PCI...