HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

CTO

LAN通信速度の計測方法

背景: 大容量データサービスの拡大に伴い、これまで基幹網で使用されてきた10GbEがアクセス網でも構築されるようになっています。 また、FTTHにおいても、10GE-PONの研究・開発が進められているなど、加入者へ高速大容量通信網を提供するための取り組みが加速しているので、現行の検証手段(Ping Loopテスト)は評価条件に満たないと認識しており、スピード実際値も測るべきと考えております。 使用ツール:Iperf3 検証条件: TCPウィンドウサイズ:921600KB 通信時間      :120秒 ジャンボ パケット  :9014Bytes 検証ステッ...
HPC

新しい Intel Compiler 、icx の clang version 調査方法とCUDAとの連携について

以前の記事で、C/C++言語の Intel Compiler について解説しました。 新しいコンパイラ、icx は LLVMというコンパイラ基盤を元に開発されています。 LLVMとは何か、という解説は、簡単に説明することはなかなか難しいのですが、 コンパイラを作成する際に、いわば土台となるようなものであり (このため、コンパイラ基盤という表現をされます)、 この土台を利用することで、コンパイラの開発・最適化が効率よく行えます。 近年、この有用性が評価されたためか、LLVMを利用したコンパイラは増加傾向にあります。 LLVMはあくまでコンパイラの土台にあたるものですが、LLVMと同...
計算化学

そのデータにストーリーはあるか?ーデータに踊らされないためにー

背景 昨今さまざまな数字、データ、グラフを目にする機会が増えています。その一方でそれらをどう解釈して読み解くのか、というリテラシーの問題が取り沙汰されるようになっています。テレビ等で誤解を生みかねないグラフ形式を選択していることなどに指摘がある一方で、意図的にそうした手法を用いているものから間違った判断に誘導される危険性もあります。統計データが直感に反する結論を導くことも珍しくありません。 どの様にデータを使い、見せ、意図を伝え、解釈されるのか?というのは受け側、出す側の両方に求められるリテラシーですが、一方で普段どおりの見せ方をしたのに、他の分野で全く異なる解釈をされ、驚かれた経験がある...
DL

ロボットアームの強化学習に挑戦

 今回は、OpenAIが公開しているロボットアームの強化学習に挑戦します。ロボットアームの強化学習は、ロボットアームで物体を挟んだり押したりして動かすFetchと、人の手を模したロボットを動作させるShadowHandがあります。その中から、FetchPickAndPlace、HandManipulateBlockRotateXYZ、HandManipulateBlockFullの強化学習に挑戦してみました。 強化学習  強化学習とは、簡単に説明すると、まず、あるモデルを元にシミュレーションをします。次に、シミュレーションの結果を元にモデルを学習します。その学習したモデルを使って、またシミ...
CTO

インテル® AMT によるリモート管理

インテル® AMT によるリモート管理 (1) インテル® AMT につきまして ビジネスにおけるシステム管理の効率化を実現するテクノロジーとして、インテル®社はインテル® vPro テクノロジーを提供しています。 インテル® vProはハードウェアレベルでサポートする技術であり、下記のような機能があります。 ・インテル® VT(Virtualization Technology):仮想化の支援機能 ・インテル® TXT(Trusted Execution Technology):システムを常にトラステッドな状態に維持する機能 ・インテル® AT(Anti-Theft T...
CTO

最適な性能を得るために ―HALCONベンチマーク・サービスとは?

豊富な画像処理ライブラリを持つHALCONは、画像検査装置や位置計測等のマシンビジョン分野で幅広く活用されています。画像処理ライブラリには、マッチング、ブロブ解析・モフォロジー、欠陥検出、オブジェクト認識など各用途で必要とされる構成要素のオペレーター(スクリプト言語)が約2,000種類あります。各オペレーターには性能特性があり、画像処理用PCを仕様設計するうえで難しい傾向があります。オーバースペックに陥ることを避けつつ、産業用画像処理PCに求められる厳しい性能要求をクリアするうえで効果的なHPCシステムズのHALCONベンチマーク・サービスをご案内しましょう。 画像処理用PCの仕様設計の最適...
DL

DGX H100は何が変わったのか?

はじめに この記事では、DGX H100について、背面図とブロックダイアグラムに着目した解説を行います。DGX A100と比較すると、DGX H100では規格が変更されたポートが導入されたり、安定した通信帯域の確保や高速なGPU間通信を実現するための工夫が凝らされています。DGX H100導入にあたっての参考にしていただけると幸いです。 背面図 まずは、サーバーの背面について、DGX A100とDGX H100を比較し、これまでの構成とどう変わったかを見ていきましょう。 上の図はDGX A100、下の図はDGX H100です。DGX製品に限らず、大規模な深層学習を実施するためのサー...
HPC

[要点を掴む] CUDAアプリの動かし方

CUDAってどんなもの? 『CUDA』は、NVIDIA社のGPUをグラフィック処理以外の汎用の計算用途に使えるようにするための、統合開発環境(コンパイラ等)とランタイムライブラリの集合です。 GPUの内部アーキテクチャは、CPUよりもコア数・スレッド数が大変多い構造になっています(数千スレッド~)。また、GPU上の処理を記述するには、CUDAが登場するより前には、 シェーディング言語といったグラフィック処理専用のプログラミング言語を使いこなす必要がありました。 こうした状況に対し、NVIDIA社はGPUのポテンシャルを簡単に引き出せるようにするべく、CUDAを提供してきました。CUDA環...
DL

NVLink BridgeでGPUを繋いでも1GPUにはなりません

『NVLink Bridgeで複数GPUを繋いだら、それらが1GPUとして扱えるようになるんでしょ?』という誤解をされているお客様をしばしばお見受けいたします。こちらの記事では、それが誤解であること、また、SLIやUnified Memoryといった関連する情報についても整理して解説いたします。間違った期待を抱いて失敗しないように、正しい理解を深めていきましょう。 GPUのメモリ空間は他デバイスから隔絶されています GPU上には演算するためのプロセッサと、データを一時的に置いておくためのメモリ(VRAM)が搭載されています。GPUのメモリを、CUDAで書かれたプログラムから利用するには、c...
計算化学

さようならicc、こんにちはicx

Intel社というと、世間一般ではCPUを中心としたハードウェアメーカーという印象が強いと思います。ですが Intel社には、CompilerやMPIといった、アプリケーション開発用ソフトウェアを提供している一面もあります。 科学技術用計算アプリケーションにおいて、最近はpython言語を用いて作成されたソースコードも増えましたが、C/C++言語やFortran言語で作成されている物はまだまだ非常に多い状況です。 この C/C++言語やFortran言語で書かれたソースコードをCompileする際、Intel社の提供している C/C++/Fortran用コンパイラ( Intel Compi...
計算化学

VASP 6.4.1:i-PIを用いて経路積分分子動力学

LAMMPSユーザーの場合は、古くからtoolsに含まれているのでi-PIをご存じの方は多いと思いますが、VASPのユーザーの場合、知らないという方も多いかと思います。 i-PI は、Python で書かれたab initio 経路積分分子動力学(PIMD)の Python インターフェイスです。原子間の相互作用の ab-initio、機械学習、または力場ベースの評価と併用するように設計されています。イオンの位置の問題と、原子間力を計算する問題を切り離すという目的の為に開発されました。i-PI がサーバーとして機能し、位置エネルギー、力、および圧力ビルアルの位置エネルギー部分の計算はi-...
計算化学

マシンに最適な Gaussian16 をインストールする手順

はじめに 以下では、Gaussian16 の Unix 向けバイナリ版のインストール手順を解説しています。 単に標準的な手順を知りたいだけであればGaussian社公式のインストール手順を読めば事足りるのですが、大学様の計算機センターなどで複数のバイナリをお持ちの場合に、お使いの計算機に適したバイナリを特定する方法や、そこで間違った際のエラーなど、補足情報も以下に記載しています。 計算機の性能を最大限に引き出すロジックを身に着けていただいて、ご業務の時短に活かしていただければ幸いです。 全体的に Gaussianのインストールにあたっては、Gaussian社の公式サイトにある Ins...
計算化学

VASP 6.4.1 : libxcの使用

VASP 6.4.1がリリースされました。実はvasp 6.3.0からlibxcが使用可能なのですが、vasp 6.4.1に最新のlibxc 6.1.0を組み込んで、libxcを使用した場合、実行時間が早くなるかを試験しました。 libxcに関しては、 をご参照下さい。 使い方は簡単で、インプット(INCAR)で GGA=PA としている部分を GGA = LIBXC LIBXC1 = GGA_X_PBE LIBXC2 = GGA_C_PBE と変更するだけで、VASPビルド時にlibxcが組み込んであれば、VASPの内部でlibxcが呼ばれて使用されます。VASPでの使い方等...
DL

サイバーエージェント社の日本語大規模言語モデルを動かしてみた

サイバーエージェント社の日本語大規模言語モデルをDGX-1(DGX-OS6)で動かしてみた。
HPC

第4世代 インテル Xeon スケーラブル・プロセッサー ベンチマーク

※2023年5月17日に改めて公開いたしました。 ベンチマーク報告書(PDF)のダウンロードはこちらからどうぞ! 概要 2023年1月10日(日本時間11日)、第4世代 インテル🄬 Xeon🄬 スケーラブル・プロセッサー(開発コード名:Sapphire Rapids)がリリースされました。「Intel 7」製造プロセスにより微細化され、1ソケットに最大56コアを搭載可能になったことに加え、CPU間のUPI接続がCPUあたり最大4本に増加し、その速度が16 GT/sに向上しました。また、新たにDDR5-4800のメモリに対応して、より太いメモリ帯域に進化しました。さらに、データ移動のための...
計算化学

VASP 6.4.1 : on the fly 機械学習力場

vasp 6.4.1がリリースされましたが、このバージョンで特に強化されているのが、機械学習力場の機能部分です。この機械学習力場を上手く活用すると、大変な計算時間の短縮になるので紹介します。 機械学習力場というと、「力場で計算した結果は信用出来ない」とか、「機械学習ならGPUが必要でしょ?高価なGPUは購入予定が無いので。」といった事を思われるかもしれません。力場の使用に関しては、自分が計算したい系を扱った力場で適切なものを選択するのが大変で、その選定や差異などをチェックするところでとても手間と計算リソースを消費する為、力場で計算する事で省力化可能より手間が大きくなりそうに思えるという事はあ...
HPC

RockportNetworks Durham Universityの導入事例の抄訳

この記事は、RockportNetworks社のBlogで紹介されているDurham University Explores a Better Way to Chart the Cosmosの抄訳です。
HPC

RockportNetworks McMaster Universityの導入事例の抄訳

この記事は、RockportNetworks社のBlogで紹介されているMcMaster University Unlocks the Mysteries of Fractureの抄訳です。 12ノードクラスタで適切なスケールで最高のパフォーマンスを提供します。 破壊解析は、橋梁や原子力発電所の亀裂の発生時期や発生場所の予測、水圧破砕やガラス切断などの工業プロセスの改善など、さまざまな分野で幅広く応用されています。 オンタリオ州ハミルトンにあるマクマスター大学の数学・統計学教授でカナダ研究主任のBlaise Bourdin博士は、20年にわたり、破壊のメカニズムと設計をよりよく理...
DL

NVIDIA H100, GeForce RTX 4090 MLベンチマーク公開

NVIDIA H100 と GeForce RTX 4090 の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、これらのGPUに NVIDIA A100 と RTX 3090 を加えた計4種のGPUで、機械学習の学習性能を比較評価しています。 スペック情報 NVIDIA H100 PCIe、NVIDIA A100 PCIe、GeForce RTX 4090、GeForce RTX 3090 のスペック比較表は次のとおりです。CUDAコア数とGPU Boost時クロックが向上していることがわかります。 GPU型番 NVIDIA H100-PCI...
計算化学

第4世代 AMD EPYC プロセッサー ベンチマーク

ベンチマーク報告書(PDF)のダウンロードはこちらからどうぞ! 概要 2022年11月10日、第4世代 AMD EPYC™ プロセッサー(開発コード名:Genoa)がリリースされました。新マイクロアーキテクチャ「Zen 4」を採用し、5nm製造プロセスにより微細化されて、1ソケットで最大96コア、2ソケットで最大192コアという多コア構成が可能になったことに加え、DDR5-4800メモリに対応してメモリチャンネルが12本に増えたことでメモリ帯域も太く構成されている点が特長です。また、AVX-512命令に対応してAI・HPCワークロード向けに機能強化された他、キャッシュ階層と分岐予測の改善に...