HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

DL

NVIDIA L40S MLベンチマーク公開

NVIDIA L40S の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。 ベンチマーク報告書のダウンロードはこちら >> スペック情報 NVIDIA L40S、NVIDIA A100 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。 GPU型番 NVIDIA L40S NVIDIA A100 アーキテクチャ Ada Lovelace Ampere ...
HPC

Intel oneAPI 2024 がリリースされました

表題のとおり、intel社が開発・販売している開発用ソフトウェア、Intel oneAPIの新しいVersion、 Intel oneAPI 2024 がリリースされました。 Intel oneAPIは、基本となる Intel oneAPI Base Toolkit に、用途に応じた Toolkit を追加するという構成になっています。本文章では、科学技術計算用アプリケーションを使用されているユーザーに多い、Intel oneAPI Base Toolkitに oneAPI HPC toolkitを加えた環境について話をしていきます。 Intel oneAPI 2023から2024において...
HPC

NVDIA A100搭載水冷静音ワークステーションの検証を始めました。(1)

はじめに 昨今、HPCにおいてはCPU・GPUの演算性能が向上し、それに伴い必要な消費電力も増加しています。これにより、筐体内の熱を効果的に排熱する方法が課題となっています。この課題に対処する一つの方法として、水冷式が注目されており、当社でもデスクサイドに設置可能な水冷式ワークステーション『HPC5000-XSRGPU4TS-LC』の販売を開始しました。 今回は、この装置の外観・内観、およびGPU BurnにおけるGPUの検証結果をご紹介いたします。 スペック情報 プロセッサー 第4世代 インテル® Xeon® スケーラブル・プロセッサー (最大TDP 270W) ...
HPC

計算機もウソをつく ~丸め誤差について~

今回、倍精度浮動小数点演算時に発生する丸め誤差についてご報告します。みなさんには当たり前のこととおもいますが、HPC界は新参者の私には新たな発見の連続でした。 ある件で、線形代数演算ライブラリBLAS,LAPACKのことを調べているときに、理化学研究所計算科学研究センタ中田さんが公開されている資料「線形代数演算ライブラリBLAS とLAPACKの基礎と実践 (I) BLAS, LAPACK入門編 」を拝見していました。 この資料の中で、計算機の計算結果が、数学上の計算式と違うことがあるよ、こんなソースだよ、と教えてもらいました。 ある数aにある数bを足して、あ...
HPC

Schrӧdinger 向けGPUクラスタシステム導入事例

Schrӧdingerでシミュレーションを行っている製薬企業のお客様に、当社の計算機クラスタシステムをご導入いただいた事例を紹介します。 Schrӧdingerは、最近ライセンス契約形態が変わり、GPU単位での課金からCUDAコア単位の課金になりました。そのため、計算手法とライセンスによっては、GPUを1枚そのままで使うよりも、MIGで分割して使ったほうがハードウェアリソース的にも経済的にも効率が良くなります。今回の場合では、   Desmond         → GPUを1枚そのまま   FEP+               → MIGで分割したGPU という運用が最適でした。...
HPC

第4世代 AMD EPYC 97X4 プロセッサー ベンチマーク

ベンチマーク報告書(PDF)のダウンロードはこちらからどうぞ! 概要 2023年6月13日、新コアを採用した第4世代 AMD EPYC™ 97X4 プロセッサー(開発コード名:Bergamo)がリリースされました。開発コード名Genoaの第4世代 AMD EPYC™ プロセッサーと比べると、論理的には「Zen 4」と同じながら物理設計を変更してCPUコアのエリアサイズが縮小されている、従来の4MB/コアから2MB/コアに3次キャッシュが縮小されている、1つのダイに2つのCCXが搭載されそれらがIoD経由で通信される、といった差異があります。この新プロセッサーは元々クラウドのワークロード向け...
計算化学

GRRMチュートリアル2023の参加者を募集しています

最新バージョン23をご好評いただいておりますGRRMについて、基本的な理論や使い方を修得することができるGRRMチュートリアルが今年も量子化学探索研究所主催で開催されます。久しぶりの現地開催となります。GRRMを使ってみたいので、基本的な使い方を学び、アドバンスドな内容にも触れてみたい、といった方に強くお勧めいたします! 開催概要やお申込みにつきましては以下をご参照ください。 GRRMチュートリアル2023 2023年度のGRRMチュートリアルが下記の要領で開催されます。  日時:11月24日(金)10:00-16:30  (受付開始: 9:30)  主催:NPO法人量子化学探索研究...
産業用コンピューティング

第11世代CPU(Z590)&第12世代CPU(Z690)のCPU性能テスト/比較

第12世代Coreプロセッサーについて   第12世代 第11世代 コア構成 高性能コア+高効率コア 高効率コアのみ(Core i5 Kなし以下) 高性能コアのみ コア/スレッド(最大) Core i9 : 16コア/24スレッド Core i7 : 12コア/20スレッド Core i5 K : 10コア/16スレッド Core i5(Kなし) : 6コア/12スレッド Core i3 : 4コア/8スレッド Core i9 : 8コア/16スレッド Core i7 : 8コ...
産業用コンピューティング

LAN通信速度の計測方法

背景: 大容量データサービスの拡大に伴い、これまで基幹網で使用されてきた10GbEがアクセス網でも構築されるようになっています。 また、FTTHにおいても、10GE-PONの研究・開発が進められているなど、加入者へ高速大容量通信網を提供するための取り組みが加速しているので、現行の検証手段(Ping Loopテスト)は評価条件に満たないと認識しており、スピード実際値も測るべきと考えております。 使用ツール:Iperf3 検証条件: TCPウィンドウサイズ:921600KB 通信時間      :120秒 ジャンボ パケット  :9014Bytes 検証ステッ...
HPC

新しい Intel Compiler 、icx の clang version 調査方法とCUDAとの連携について

以前の記事で、C/C++言語の Intel Compiler について解説しました。 新しいコンパイラ、icx は LLVMというコンパイラ基盤を元に開発されています。 LLVMとは何か、という解説は、簡単に説明することはなかなか難しいのですが、 コンパイラを作成する際に、いわば土台となるようなものであり (このため、コンパイラ基盤という表現をされます)、 この土台を利用することで、コンパイラの開発・最適化が効率よく行えます。 近年、この有用性が評価されたためか、LLVMを利用したコンパイラは増加傾向にあります。 LLVMはあくまでコンパイラの土台にあたるものですが、LLVMと同...
HPC

そのデータにストーリーはあるか?ーデータに踊らされないためにー

背景 昨今さまざまな数字、データ、グラフを目にする機会が増えています。その一方でそれらをどう解釈して読み解くのか、というリテラシーの問題が取り沙汰されるようになっています。テレビ等で誤解を生みかねないグラフ形式を選択していることなどに指摘がある一方で、意図的にそうした手法を用いているものから間違った判断に誘導される危険性もあります。統計データが直感に反する結論を導くことも珍しくありません。 どの様にデータを使い、見せ、意図を伝え、解釈されるのか?というのは受け側、出す側の両方に求められるリテラシーですが、一方で普段どおりの見せ方をしたのに、他の分野で全く異なる解釈をされ、驚かれた経験がある...
HPC

ロボットアームの強化学習に挑戦

 今回は、OpenAIが公開しているロボットアームの強化学習に挑戦します。ロボットアームの強化学習は、ロボットアームで物体を挟んだり押したりして動かすFetchと、人の手を模したロボットを動作させるShadowHandがあります。その中から、FetchPickAndPlace、HandManipulateBlockRotateXYZ、HandManipulateBlockFullの強化学習に挑戦してみました。 強化学習  強化学習とは、簡単に説明すると、まず、あるモデルを元にシミュレーションをします。次に、シミュレーションの結果を元にモデルを学習します。その学習したモデルを使って、またシミ...
産業用コンピューティング

インテル® AMT によるリモート管理

インテル® AMT によるリモート管理 (1) インテル® AMT につきまして ビジネスにおけるシステム管理の効率化を実現するテクノロジーとして、インテル®社はインテル® vPro テクノロジーを提供しています。 インテル® vProはハードウェアレベルでサポートする技術であり、下記のような機能があります。 ・インテル® VT(Virtualization Technology):仮想化の支援機能 ・インテル® TXT(Trusted Execution Technology):システムを常にトラステッドな状態に維持する機能 ・インテル® AT(Anti-Theft T...
産業用コンピューティング

最適な性能を得るために ―HALCONベンチマーク・サービスとは?

豊富な画像処理ライブラリを持つHALCONは、画像検査装置や位置計測等のマシンビジョン分野で幅広く活用されています。画像処理ライブラリには、マッチング、ブロブ解析・モフォロジー、欠陥検出、オブジェクト認識など各用途で必要とされる構成要素のオペレーター(スクリプト言語)が約2,000種類あります。各オペレーターには性能特性があり、画像処理用PCを仕様設計するうえで難しい傾向があります。オーバースペックに陥ることを避けつつ、産業用画像処理PCに求められる厳しい性能要求をクリアするうえで効果的なHPCシステムズのHALCONベンチマーク・サービスをご案内しましょう。 画像処理用PCの仕様設計の最適...
HPC

DGX H100は何が変わったのか?

はじめに この記事では、DGX H100について、背面図とブロックダイアグラムに着目した解説を行います。DGX A100と比較すると、DGX H100では規格が変更されたポートが導入されたり、安定した通信帯域の確保や高速なGPU間通信を実現するための工夫が凝らされています。DGX H100導入にあたっての参考にしていただけると幸いです。 背面図 まずは、サーバーの背面について、DGX A100とDGX H100を比較し、これまでの構成とどう変わったかを見ていきましょう。 上の図はDGX A100、下の図はDGX H100です。DGX製品に限らず、大規模な深層学習を実施するためのサー...
HPC

[要点を掴む] CUDAアプリの動かし方

CUDAってどんなもの? 『CUDA』は、NVIDIA社のGPUをグラフィック処理以外の汎用の計算用途に使えるようにするための、統合開発環境(コンパイラ等)とランタイムライブラリの集合です。 GPUの内部アーキテクチャは、CPUよりもコア数・スレッド数が大変多い構造になっています(数千スレッド~)。また、GPU上の処理を記述するには、CUDAが登場するより前には、 シェーディング言語といったグラフィック処理専用のプログラミング言語を使いこなす必要がありました。 こうした状況に対し、NVIDIA社はGPUのポテンシャルを簡単に引き出せるようにするべく、CUDAを提供してきました。CUDA環...
HPC

NVLink BridgeでGPUを繋いでも1GPUにはなりません

『NVLink Bridgeで複数GPUを繋いだら、それらが1GPUとして扱えるようになるんでしょ?』という誤解をされているお客様をしばしばお見受けいたします。こちらの記事では、それが誤解であること、また、SLIやUnified Memoryといった関連する情報についても整理して解説いたします。間違った期待を抱いて失敗しないように、正しい理解を深めていきましょう。 GPUのメモリ空間は他デバイスから隔絶されています GPU上には演算するためのプロセッサと、データを一時的に置いておくためのメモリ(VRAM)が搭載されています。GPUのメモリを、CUDAで書かれたプログラムから利用するには、c...
HPC

さようならicc、こんにちはicx

Intel社というと、世間一般ではCPUを中心としたハードウェアメーカーという印象が強いと思います。ですが Intel社には、CompilerやMPIといった、アプリケーション開発用ソフトウェアを提供している一面もあります。 科学技術用計算アプリケーションにおいて、最近はpython言語を用いて作成されたソースコードも増えましたが、C/C++言語やFortran言語で作成されている物はまだまだ非常に多い状況です。 この C/C++言語やFortran言語で書かれたソースコードをCompileする際、Intel社の提供している C/C++/Fortran用コンパイラ( Intel Compi...
HPC

VASP 6.4.1:i-PIを用いて経路積分分子動力学

LAMMPSユーザーの場合は、古くからtoolsに含まれているのでi-PIをご存じの方は多いと思いますが、VASPのユーザーの場合、知らないという方も多いかと思います。 i-PI は、Python で書かれたab initio 経路積分分子動力学(PIMD)の Python インターフェイスです。原子間の相互作用の ab-initio、機械学習、または力場ベースの評価と併用するように設計されています。イオンの位置の問題と、原子間力を計算する問題を切り離すという目的の為に開発されました。i-PI がサーバーとして機能し、位置エネルギー、力、および圧力ビルアルの位置エネルギー部分の計算はi-...
HPC

マシンに最適な Gaussian16 をインストールする手順

はじめに 以下では、Gaussian16 の Unix 向けバイナリ版のインストール手順を解説しています。 単に標準的な手順を知りたいだけであればGaussian社公式のインストール手順を読めば事足りるのですが、大学様の計算機センターなどで複数のバイナリをお持ちの場合に、お使いの計算機に適したバイナリを特定する方法や、そこで間違った際のエラーなど、補足情報も以下に記載しています。 計算機の性能を最大限に引き出すロジックを身に着けていただいて、ご業務の時短に活かしていただければ幸いです。 全体的に Gaussianのインストールにあたっては、Gaussian社の公式サイトにある Ins...