GPU | HPCシステムズ Tech Blog

Nemotron 3 Ultraの社内運用始めました

0.はじめにこんにちは！HPC事業部技術グループのhinokiharaです。今年はAIの発展が目覚ましいですね！私もAnthropicのClaude Codeを毎日のように使用しており、働き方が劇的に変わりました。ただ非常に便利な一方で、会社の機密データや大事な研究データを読み込ませられない(読み込ませてしまった)という話もよく聞きます。機密性の高いデータを扱う場合はやはりローカルにLLMをホストしたい。でもローカルLLMはまだ性能が足りない。。。そんな悩みを持つ方は多いのではないでしょうか？今日はそんな悩みを持つ方々に、「ローカルLLMはここまで来たぞ」という話をしたいと思...

2026.06.08

hinokihara

DL

Blackwell GPU RTX Pro 6000でMIGを有効化する方法

Blackwell世代のGPU RTX Pro 6000ではMIGによるリソース分割を有効化することができます。ただ、MIGを有効化するために必要な手順がこれまでと異なりますので、こちらで紹介します。 MIGとは NVIDIAのMIG（Multi-Instance GPU）は、データセンター向けGPUに導入された機能で、1枚の物理GPUを複数の論理GPUインスタンスに分割して独立して利用できるようにするものです。主にAmpere世代のA100やHopper世代のH100などで提供されるこの仕組みは、GPU内部の計算ユニットやメモリ帯域、キャッシュといったハードウェア資源をハードウェアレベル...

2025.10.06

hinokihara

HPCDL

L40S, H100 NVL上でのLLM推論学習検証報告

目的ローカルLLMを用いた生成AI活用に向けて、推論を中心としたパフォーマンス（体感速度、同時アクセス数）を明らかにすべく、ベンチマーク検証を行いました。ハードウェアの決定のために最低限必要な情報は「どのGPUを何枚で」どのモデルが動くかです。対象モデルは、現状精度の高い Llama 3.1 8B、Llama 3.1 70B、Gemma 2 9B、Gemma 2 27B としました。検証・結果ユーザーの体感速度検証方法各条件で1つのRequestを処理した際の、Throughput (token/sec) を計測対象モデル：Llama 3.1 8B, ...

2024.12.13

nabeo

DL

高速なDNN学習計算のためのハードウェア構成ポイント

概要深層学習にGPUが好適とよく言われていますが、比較的安価なGPUからハイエンドのものまで様々なGPUがある中で、深層学習計算の高速化にどのようなハードウェア構成が適しているのでしょうか。GPUのスペックを見ると、理論性能値に加えてGPUメモリ容量、GPUメモリ帯域幅も様々ですし、複数GPU間の高速通信を可能とするNVLinkもあります。これらの選択肢がある中で、どの指標を優先的に考慮すべきなのでしょうか。本稿では、DNNの学習計算について、ベンチマーク結果からその答えを導いてみます。ベンチマーク環境本稿で用いるデータは弊社内で過去に取得したベンチマークからとなりますため、2...

2024.12.09

nabeo

DL

NVIDIA GH200 MLベンチマーク公開

NVIDIA GH200 の機械学習ベンチマーク報告書をこちらで公開しました。報告書の中では、NVIDIA H100-PCIEと A6000 を加えた計3種のGPUで、機械学習の学習性能を比較評価しています。ベンチマーク報告書のダウンロードはこちら >> スペック情報 NVIDIA GH200、NVIDIA H100-PCIE、NVIDIA A6000 のスペック比較表は次のとおりです。 GPU型番 NVIDIA GH200 NVIDIA H100-PCIE NVIDIA A6000 アーキテクチャ Hopper Hopper Amper...

2024.04.25

nabeo

DL

AMDの新GPU Instinct™ MI300シリーズについて

AMDのAI 向け新GPU製品 Instinct MI300X および Instinct MI300Aの詳細が発表されました。ネットでは取り上げられなかった情報も交えて紹介いたします。 ■Instinct MI300Xについて図1 AMD Instinct MI300X 及び MI300A AMD InstinctMT MI300X は NVIDIA の H100 を凌駕するデータセンタ用の高性能 GPU です。すでに1月のCESの前日基調講演や6月の「Data Center and AI Technology Premiere」で発表されていましたが、今回サンノゼで開催さ...

2023.12.14

hpc

HPCDL

Schrӧdinger 向けGPUクラスタシステム導入事例

Schrӧdingerでシミュレーションを行っている製薬企業のお客様に、当社の計算機クラスタシステムをご導入いただいた事例を紹介します。 Schrӧdingerは、最近ライセンス契約形態が変わり、GPU単位での課金からCUDAコア単位の課金になりました。そのため、計算手法とライセンスによっては、GPUを1枚そのままで使うよりも、MIGで分割して使ったほうがハードウェアリソース的にも経済的にも効率が良くなります。今回の場合では、　　Desmond → GPUを1枚そのまま　　FEP+ → MIGで分割したGPU という運用が最適でした。...

2023.10.19

hpcs se team

HPC計算化学

NVLink BridgeでGPUを繋いでも1GPUにはなりません

『NVLink Bridgeで複数GPUを繋いだら、それらが1GPUとして扱えるようになるんでしょ？』という誤解をされているお客様をしばしばお見受けいたします。こちらの記事では、それが誤解であること、また、SLIやUnified Memoryといった関連する情報についても整理して解説いたします。間違った期待を抱いて失敗しないように、正しい理解を深めていきましょう。 GPUのメモリ空間は他デバイスから隔絶されています GPU上には演算するためのプロセッサと、データを一時的に置いておくためのメモリ(VRAM)が搭載されています。GPUのメモリを、CUDAで書かれたプログラムから利用するには、c...

2023.07.10

nabeo

HPCDL

Geforce RTX4090 ベンチマーク

Ada Lovelace アーキテクチャ　Geforce RTX 4090は、新型GPUアーキテクチャ「Ada Lovelace」を採用する初めてのGPUです。製造プロセスが4nmになり微細化が進み、GPUコア数、周波数が劇的に伸びました。また、Tensorコアは第4世代となり、FP8演算エンジンも搭載されました。 RTX4090スペック今回、比較したGeforce RTX3090と、Geforce RTX4090のスペックを下表にまとめました。 Geforce RTX 4090 Geforce RTX 3090 アーキテクチャ Ada Lovela...

2022.10.27

tabata

DL

NVIDIA A100 ベンチマーク公開

Nvidia A100 のベンチマーク情報を公開しました。今回は、CNNだけでなくBERTでもベンチマークしました。下からダウンロードページに飛びます。今回、アーキテクチャがAmpereへと更新され、性能向上だけでなく、様々な機能が搭載されました。スペック情報 NVIDIA A100-PCIEと、NVIDIA V100S-PCIEのスペック比較です。 TensorCore、FP16の性能が大きく伸びました。 GPU型番 NVIDIA A100-PCIE NVIDIA Tesla V100S-PCIE アーキテクチャ ...

2021.01.27

tabata

DL

NVIDIA® V100S vs A100™ Deep Learning Benchmarks

NVIDIA V100S PCIe 32GB とA100™ PCIe 40GB の Deep Learning 学習での性能評価のため、HPC5000-XCLGPU4TS (PCIe Gen3)とHPC5000-ERMGPU8R4S (PCIe Gen4)にGPUを1枚、2枚、3枚、4枚を実装して、nvidia/tensorflow:20.11-tf1-py3を実行してみました。製品名：HPC5000-XCLGPU4TS CPU Intel(R) Xeon(R) Gold 6242, CPUクロック 2.8 GHz, CPUコア 32, メモリ容量 192GB, 2933 MT/s ...

2021.01.04

hpc

DL

NVIDIA A100 GPU製品が発表されました！

オンライン開催の GTC 2020（）にて NVIDIA CEO Jensen Huang氏の Keynote がアナウンスされました。発表は NVIDIA YouTube Channel ( ) で公開されています。プレイリストはこちらです。 AIやデータサイエンス、HPC、自動運転やグラフィックなどに関する新情報が次々と出てきています。 NVIDIA A100 GPU。最新Ampere世代、TensorFloat32に対応し、Sparse Matrixに最適化された新たなTensorCore と 1.5TB/sの高帯域なHBM2を備え、PetaOPS級の性能。ますますD...

2020.05.15

nabeo

HPCDL

NGC(NVIDIA GPU CLOUD)の概要

NVIDIAが提供しているNGC(NVIDIA GPU CLOUD)の概要

2019.07.12

to

HPC

DGX-1 ベンチマークレポート

概要　先日、DGX-1を購入した記事を書きました。今回は、DGX-1を現在の他製品と比較したベンチマークを紹介します。ハードウェア環境　今回は、DGX-1と、HPC5000-XBWGPU10R4Sに NVIDIA® V100-PCIE(16GB)、RTX2080Tiを搭載して、比較します。ハードウェア環境は下表のとおり。表で分かる通り、RTX2080TiとNVIDIA® V100PCIEは、4枚しか持っていません。機種 NVIDIA DGX-1 HPC5000-XBWGPU10R4S 搭載GPU NVIDIA® V100-SXM2 RTX2080T...

2019.07.09

tabata

DL

ノートPCでLinux

弊社では、お客様のご要望に応じてノートPCにLinuxをセットアップ※1しています。今回、新しいノートPC(MSI GS65 Stealth 8SF)※2にセットアップしました。 ※1 事前にご相談ください。 ※2 最新のRTX20(Turing)世代GPU搭載機です。すっごーい！普通にnvidia-docker2も動作しました。 GPUのメモリも8GBありますし、DeepLearningもお手元で気軽に試せますね。ということで軽くスクリーンショットをご紹介します。本体は1.9Kgと高性能ノートでは軽量級ですが、 ACアダプタは重量級です...

2019.04.15

nishizuka

HPC