ホーム » HPCソリューション » オプション品ラインナップ » HPC-C2050,C2070の特長
NVIDIA Tesla C2075の特長
NVIDIA Tesla C2075は、GPUコンピューティングに特化した次世代のCUDA GPUアーキテクチャ「Fermi」を元に設計された最新Tesla GPUを搭載しています。新たにC++、ECCメモリをサポートし、従来のNVIDIA Tesla C1060と比較して約6.6倍となる倍精度性能など、HPC用途において重要な多くの機能をサポートしました。最新のQuad-Core CPUと比較すると、最新の HPC-C20シリーズコンピューティングシステムは20分の1の消費電力、10分の1のコストと同等なパフォーマンスを発揮します。
(HPC-C2070は2010年Q3に発売予定です。)
次世代のCUDA GPUアーキテクチャFermiプロセッサを搭載
NVIDIA Tesla C2075は40nmプロセスルールを採用し、GPUコンピューティングに特化した次世代のCUDA GPUアーキテクチャ「Fermi」を元に設計された最新TESLA GPUを1基搭載。従来のNVIDIA Tesla C1060と比較して倍精度演算性能が約6.6倍に向上した他、キャッシュのサポート、シェアードメモリの増加、ECCメモリ搭載、マルチカーネルのサポートなど、HPCの分野において重要な機能を新たに多数サポートし、優れたパフォーマンスを実現します。
キャッシュのサポート/シェアードメモリの増加
構成可変な合計64KBの共有/L1キャッシュを搭載。768KBのL2キャッシュ搭載。
マルチカーネルサポート
複数のカーネルの同時処理が可能です。
統合アドレス空間をサポート
従来、3つに分かれていたアドレス空間を1つの統合アドレス空間として操作可能です。
単精度・倍精度の両演算にてFMA命令サポート
FMA命令は最終段階でのみ丸め処理を行います。
パラレルデータキャッシュ
NVIDIA Tesla C2075では、共有メモリ 16KB / L1キャッシュ 48KBまたは、共有メモリ 48KB / L1キャッシュ 16KBに構成が可変する、合計64KBの共有/L1キャッシュと、768KBのL2キャッシュ搭載しました。これは、物理ソルバ、レイトレーシング、疎行列乗算などのデータアドレスが事前に把握できないアルゴリズムを高速化します。
倍制度演算性能を大幅に強化
NVIDIA Tesla C2075に搭載される最新のFermiプロセッサは従来のTesla C10シリーズGPUと比較して倍精度演算性能が6.6倍と大幅にパフォーマンスが向上、最大515Gflopsのピーク性能を実現しました。また浮動小数点演算が IEEE 754-2008 に準拠し、FMA 処理を単精度、倍精度ともにサポートしました。
NVIDIA Tesla C1060に搭載されているプロセッサではSM(Streaming Multi-processor)内に1基搭載されていたDPが、NVIDIA Tesla C2075に搭載されるFermiプロセッサではSP内にFPU を内蔵し、倍精度の場合 FPU を2個回して演算を行ないます。
■NVIDIA Tesla C1060のSM(Streaming Multi-Processor)との比較
■命令キャッシュ…SM(Streaming Multi-Processor)内部に設けられた高速な記憶装置であるキャッシュメモリの一種で、
プログラムを一時的に保管する領域。
■ワープスケジューラ,ディスパッチユニット…スレッドの命令をCUDAコア等に割り振るユニット。
■レジスタファイル…SM内にレジスタを多数集積したもの。
■CUDAコア…SP(Streaming Processor)のこと。演算ユニット。
■LD/ST…Load/Store Unitのこと。メモリにアクセスする命令を処理するユニット。
■SFU(Super Function Unit)…超越関数演算ユニット。正弦関数、余弦関数、逆数、平方根などの超越命令を実行する。
■DP(Double
Precision)…倍精度演算ユニットのこと。C1060では1SM内に1基搭載されているが、C2050ではSP
(Streaming Processor)内にFPU(Floating Point number processing Unit、浮動小数点演算装置)を内蔵し、倍精度の
場合、FPU2個が一体となってひとつの演算を行う。
■インターコネクトネットワーク…SM同士やSMと他のユニットを結ぶネットワーク。
■共有メモリ…SM内の各CUDAコアで共有するメモリ。
■定数L1キャッシュ…読み込み専用の定数メモリのキャッシュ。
■テクスチャキャッシュ…読み込み専用のテクスチャメモリのキャッシュ。
■ユニフォームキャッシュ…定数L1キャッシュとテクスチャキャッシュの役割を果たすキャッシュ?(未確認)
マルチカーネルをサポート
新たに、データ転送のオーバーラップが可能なデュアルメモリトランスファエンジンと、従来のTesla C10シリーズGPUと比較して、切り替え速度が10倍速くなったコンテキストスイッチを搭載し、最大16カーネルの並列実行が可能になりました。
ECCをサポートしたGDDR5メモリを搭載
搭載メモリには最新のGDDR5 SDRAM採用。高クロックで動作する超高速メモリを6GB搭載し、優れたパフォーマンスを実現します。またエラーの検出と訂正を行うECC機能をサポートし、レジスターファイル、共有メモリ、L1、L2 キャッシュ、DRAMなどを保護します。
(ECCを有効にすると、専用メモリの一部はECCビットに使用され、使用可能なユーザメモリは12.5%減少します。)
高速PCIe Gen 2.0データ転送
ホストシステムとNVIDIA Tesla C2075プロセッサ間の帯域幅を最大化します。Teslaシステムが、PCIe x16スロットを備えるどのPCIe対応ホストシステムとでも動くようにします。
非同期転送
計算コアが他のデータを高速処理しながら、PCIeバス上でデータ転送をすることにより、システムパフォーマンスを大きく向上させます。重いデータ転送条件のあるアプリケーションでさえも、データを事前にローカルメモリへ転送することで、計算効率を最大化できます。
CUDA / OpenCL /Direct Compute 開発環境をサポート
プログラマブルGPUの性能を利用することが可能です。また新たにOpenCL及び、Direct Compute開発環境をサポートしました。
