HPCシステムズではエンジニアを募集しています。詳しくはこちらをご覧ください。
HPCシステムズのエンジニア達による技術ブログ

Tech Blog

DL

DL

NVIDIA A800 MLベンチマーク公開

NVIDIA A800(40GB Active) の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。 ベンチマーク報告書のダウンロードはこちら >> スペック情報 NVIDIA A800、NVIDIA A100 のスペック比較表は次のとおりです。 GPU型番 NVIDIA A800 40GB Active NVIDIA A100 80GB PCIe アーキテクチャ Ampere Ampe...
DL

AMDの新GPU Instinct™ MI300シリーズについて

AMDのAI 向け新GPU製品 Instinct MI300X および Instinct MI300Aの詳細が発表されました。 ネットでは取り上げられなかった 情報も交えて紹介いたします。 ■Instinct MI300Xについて 図1 AMD Instinct MI300X 及び MI300A AMD InstinctMT MI300X は NVIDIA の H100 を凌駕するデータセンタ用の高性能 GPU です。すでに1月のCESの前日基調講演や6月の「Data Center and AI Technology Premiere」で発表されていましたが、今回サンノゼで開催さ...
DL

RTX A5500、RTX 5000 Ada MLベンチマーク公開

NVIDIA RTX A5500 と RTX 5000 Ada の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、これらのGPUに NVIDIA A6000 と RTX 4090 を加えた計4種のGPUで、機械学習の学習性能を比較評価しています。 スペック情報 NVIDIA RTX A5500、RTX 5000 Ada、RTX A6000、GeForce RTX 4090 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。 GPU型番 NVIDIA RTX A5500 NVIDIA RTX 5000 Ada ...
DL

NVIDIA L40S MLベンチマーク公開

NVIDIA L40S の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA A100 を加えた計2種のGPUで、機械学習の学習性能を比較評価しています。 ベンチマーク報告書のダウンロードはこちら >> スペック情報 NVIDIA L40S、NVIDIA A100 のスペック比較表は次のとおりです。青文字は資料などからの推測値です。 GPU型番 NVIDIA L40S NVIDIA A100 アーキテクチャ Ada Lovelace Ampere ...
計算化学

そのデータにストーリーはあるか?ーデータに踊らされないためにー

背景 昨今さまざまな数字、データ、グラフを目にする機会が増えています。その一方でそれらをどう解釈して読み解くのか、というリテラシーの問題が取り沙汰されるようになっています。テレビ等で誤解を生みかねないグラフ形式を選択していることなどに指摘がある一方で、意図的にそうした手法を用いているものから間違った判断に誘導される危険性もあります。統計データが直感に反する結論を導くことも珍しくありません。 どの様にデータを使い、見せ、意図を伝え、解釈されるのか?というのは受け側、出す側の両方に求められるリテラシーですが、一方で普段どおりの見せ方をしたのに、他の分野で全く異なる解釈をされ、驚かれた経験がある...
DL

ロボットアームの強化学習に挑戦

 今回は、OpenAIが公開しているロボットアームの強化学習に挑戦します。ロボットアームの強化学習は、ロボットアームで物体を挟んだり押したりして動かすFetchと、人の手を模したロボットを動作させるShadowHandがあります。その中から、FetchPickAndPlace、HandManipulateBlockRotateXYZ、HandManipulateBlockFullの強化学習に挑戦してみました。 強化学習  強化学習とは、簡単に説明すると、まず、あるモデルを元にシミュレーションをします。次に、シミュレーションの結果を元にモデルを学習します。その学習したモデルを使って、またシミ...
DL

DGX H100は何が変わったのか?

はじめに この記事では、DGX H100について、背面図とブロックダイアグラムに着目した解説を行います。DGX A100と比較すると、DGX H100では規格が変更されたポートが導入されたり、安定した通信帯域の確保や高速なGPU間通信を実現するための工夫が凝らされています。DGX H100導入にあたっての参考にしていただけると幸いです。 背面図 まずは、サーバーの背面について、DGX A100とDGX H100を比較し、これまでの構成とどう変わったかを見ていきましょう。 上の図はDGX A100、下の図はDGX H100です。DGX製品に限らず、大規模な深層学習を実施するためのサー...
DL

NVLink BridgeでGPUを繋いでも1GPUにはなりません

『NVLink Bridgeで複数GPUを繋いだら、それらが1GPUとして扱えるようになるんでしょ?』という誤解をされているお客様をしばしばお見受けいたします。こちらの記事では、それが誤解であること、また、SLIやUnified Memoryといった関連する情報についても整理して解説いたします。間違った期待を抱いて失敗しないように、正しい理解を深めていきましょう。 GPUのメモリ空間は他デバイスから隔絶されています GPU上には演算するためのプロセッサと、データを一時的に置いておくためのメモリ(VRAM)が搭載されています。GPUのメモリを、CUDAで書かれたプログラムから利用するには、c...
DL

サイバーエージェント社の日本語大規模言語モデルを動かしてみた

サイバーエージェント社の日本語大規模言語モデルをDGX-1(DGX-OS6)で動かしてみた。
計算化学

VASP 6.4.1 : on the fly 機械学習力場

vasp 6.4.1がリリースされましたが、このバージョンで特に強化されているのが、機械学習力場の機能部分です。この機械学習力場を上手く活用すると、大変な計算時間の短縮になるので紹介します。 機械学習力場というと、「力場で計算した結果は信用出来ない」とか、「機械学習ならGPUが必要でしょ?高価なGPUは購入予定が無いので。」といった事を思われるかもしれません。力場の使用に関しては、自分が計算したい系を扱った力場で適切なものを選択するのが大変で、その選定や差異などをチェックするところでとても手間と計算リソースを消費する為、力場で計算する事で省力化可能より手間が大きくなりそうに思えるという事はあ...
DL

NVIDIA H100, GeForce RTX 4090 MLベンチマーク公開

NVIDIA H100 と GeForce RTX 4090 の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、これらのGPUに NVIDIA A100 と RTX 3090 を加えた計4種のGPUで、機械学習の学習性能を比較評価しています。 スペック情報 NVIDIA H100 PCIe、NVIDIA A100 PCIe、GeForce RTX 4090、GeForce RTX 3090 のスペック比較表は次のとおりです。CUDAコア数とGPU Boost時クロックが向上していることがわかります。 GPU型番 NVIDIA H100-PCI...
DL

Geforce RTX4090 ベンチマーク

Ada Lovelace アーキテクチャ  Geforce RTX 4090は、新型GPUアーキテクチャ「Ada Lovelace」を採用する初めてのGPUです。製造プロセスが4nmになり微細化が進み、GPUコア数、周波数が劇的に伸びました。また、Tensorコアは第4世代となり、FP8演算エンジンも搭載されました。 RTX4090スペック 今回、比較したGeforce RTX3090と、Geforce RTX4090のスペックを下表にまとめました。   Geforce RTX 4090 Geforce RTX 3090 アーキテクチャ Ada Lovela...
DL

AMD instinct MI250 ベンチマーク

史上初エクサスケールシステム、Frontier  ISC2022において、発表されたTOP500にて、Frontierが2位の富岳(442.01 PFLOPS)を抜いて、1.102 EFLOPS と、初めて「EFLOPS」の数値を達成して1位となりました。  Frontierは、74台のCray EXキャビネットに9,408ノードを収容し、それぞれにAMD Milan “Trento” 7A53 Epyc CPUを1個とAMD Instinct MI250X GPUを4個搭載して構成されています。総GPU数は 37,632基です。 AMD Instinct MI250  今回は、Fro...
DL

RTX A5000、NVIDIA A10 ベンチマーク公開

先日のNVIDIA RTX A6000のベンチマークに続いて、NVIDIA RTX A5000、NVIDIA A10のベンチマーク情報を公開しました。 NVIDIA RTX A5000、NVIDIA A10のDeep Learning学習性能を、NVIDIA RTX A6000、Geforce RTX3090と比較し、検証しています。 スペック情報 NVIDIA RTX A6000、NVIDIA RTX A5000、Geforce RTX3090、NVIDIA A10のスペック比較です。 (※公開情報などからの推測値です) GPU型番 RTX A60...
DL

NVIDIA RTX A6000 ベンチマーク公開

先日の、NVIDIA A100のベンチマークに続いて、NVIDIA RTX A6000 のベンチマーク情報を公開しました。 NVIDIA RTX A6000の Deep Learning 学習性能を、NVIDIA A100、Tesla V100Sと比較し、検証しています。 スペック情報 NVIDIA A100-PCIE、NVIDIA RTX A6000、NVIDIA V100S-PCIEのスペック比較です。 NVIDIA RTX A6000は、一部公開されていません。 GPU型番 NVIDIA A100-PCIE NVIDIA RTX A6000 ...
DL

NVIDIA A100 ベンチマーク公開

Nvidia A100 のベンチマーク情報を公開しました。 今回は、CNNだけでなくBERTでもベンチマークしました。下からダウンロードページに飛びます。 今回、アーキテクチャがAmpereへと更新され、性能向上だけでなく、様々な機能が搭載されました。 スペック情報 NVIDIA A100-PCIEと、NVIDIA V100S-PCIEのスペック比較です。 TensorCore、FP16の性能が大きく伸びました。 GPU型番 NVIDIA A100-PCIE NVIDIA Tesla V100S-PCIE アーキテクチャ ...
DL

NVIDIA® V100S vs A100™ Deep Learning Benchmarks

NVIDIA V100S PCIe 32GB とA100™ PCIe 40GB の Deep Learning 学習での性能評価のため、HPC5000-XCLGPU4TS (PCIe Gen3)とHPC5000-ERMGPU8R4S (PCIe Gen4)にGPUを1枚、2枚、3枚、4枚を実装して、nvidia/tensorflow:20.11-tf1-py3を実行してみました。 製品名:HPC5000-XCLGPU4TS CPU Intel(R) Xeon(R) Gold 6242, CPUクロック 2.8 GHz, CPUコア 32, メモリ容量 192GB, 2933 MT/s   ...
DL

NVIDIA A100 GPU製品が発表されました!

オンライン開催の GTC 2020( )にて NVIDIA CEO Jensen Huang氏 の Keynote がアナウンスされました。発表は NVIDIA YouTube Channel ( ) で 公開されています。プレイリストはこちらです。 AIやデータサイエンス、HPC、自動運転やグラフィックなどに関する新情報が次々と出てきています。 NVIDIA A100 GPU。最新Ampere世代、TensorFloat32に対応し、Sparse Matrixに最適化された新たなTensorCore と 1.5TB/sの高帯域なHBM2を備え、PetaOPS級の性能。ますますD...
DL

Kamonohashi初心者講座

はじめに  Kamonohashiを使用して、どのように機械学習を進めて行けばよいかを、簡単な例を通して紹介します。機械学習に関して知見が十分あり、Kamonohashiの利用方法を知りたい人は、公式チュートリアルを参照ください。  Kamonohashiユーザーのための機械学習講座カリキュラムは下記になります。Kamonohashiのアカウント、GitHub/GitLabのアカウントを有する人が対象です。 データセットの準備と登録 サンプルプログラムの準備 テスト環境での実行 Kamonohashiで学習  Kamonohashiの利用にあたって、利用端末にDo...
DL

Kamonohashiを構築してみた

Kamonohashiとは  Kamonohashiとは、上にある絵のような生物ではなくて、日鉄ソリューションズが、AI開発の基盤システムとして提供しているソフトウェアで、5月にオープンソース化されました。データの管理や学習するGPUの割り振りなどをしてくれる開発プラットフォームです。今回は、Kamonohashiの構築について紹介したいと思います。 (カモノハシの絵は、本件のKamonohashiとは一切関係ありません。)  Kamonohashiは、複数人で、GPU、ストレージを共有し、AI開発をチームで推進することを想定して開発されています。AI開発を、チームで進めるには、学習にお...