NVIDIAが次世代GPU「H100」発表　飛躍的にパフォーマンス向上する「Hopperアーキテクチャ」も登場

NVIDIAはGTC 2022にて、NVIDIA Hopperアーキテクチャを搭載した次世代のアクセラレーテッドコンピューティングプラットフォームを発表した。
同時に、800億のトランジスタを搭載した最初のHopperベースのGPUであるNVIDIA H100を発表。世界最大かつ最も強力なアクセラレータであるH100 は、革新的なTransformer Engineや巨大なAI言語モデル、ディープレコメンダーシステム、ゲノミクス、複雑なデジタルツインを進化させるための高い拡張性を備えた NVIDIA NVLink相互接続などの画期的な機能を備えている。

米国の先駆的なコンピューター科学者であるGrace Hopper(グレースホッパー)にちなんで名付けられた新たなアーキテクチャは、2年前に発表された NVIDIA Ampereアーキテクチャを継承しており、今回のプラットフォームは前世代のパフォーマンスからの飛躍的向上を実現し、AIデータセンターの次の波を推進するだろう、としている。

NVIDIA 創業者/CEO Jensen Huang氏

データセンターは AI ファクトリーになりつつあり、膨大な量のデータを処理および改良してインテリジェンスを生成しています。NVIDIA H100 は、企業が AI ドリブンのビジネスを加速するために使用する世界の AI インフラストラクチャのエンジンです

H100のテクノロジブレイクスルー

NVIDIA H100 GPU は、大規模なAIとHPCを加速する新しい標準を設定し、以下の6つの画期的なイノベーションを実現する。同GPUは、世界で最も強力なモノリシックTransformer言語モデルであるMegatron 530Bを使用したチャットボットを可能にし、リアルタイムの対話型AIに求められる1秒未満の遅延を満たしながら、前世代のGPUの最大30倍のスループットを実現。これにより、研究者や開発者は、Mixture of Expertsなどの大規模なモデルを 3,950億のパラメーターで最大9倍高速にトレーニングできるため、トレーニング時間が数週間から数日に短縮できる。

世界で最も先進的なチップ

最先端のTSMC 4Nプロセスを使用して800億のトランジスタで構築されており、NVIDIA のアクセラレーテッドコンピューティングのニーズ向けに設計。AI、HPC、メモリ帯域幅、相互接続、通信を高速化するために大きく進歩した機能を備えているH100には、毎秒5テラバイト近くの外部接続が含まれる。また、PCIe Gen5をサポートする最初のGPU、かつHBM3を利用する最初のGPUでもあり、3TB/sのメモリ帯域幅を実現。20基のH100 GPUは、全世界のインターネットトラフィックに相当する転送量を維持できるため、顧客はリアルタイムでデータの推論を実行する高度なレコメンダーシステムと大規模な言語モデルを提供可能だ。

新しいTransformer Engine

現在、自然言語処理の標準モデルの選択肢であるTransformerは、これまでに発明された中で最も重要なディープラーニングモデルの1つだ。H100アクセラレータのTransformer Engineは、精度を損なうことなく、これらのネットワークを前世代の6倍も高速化するように構築されている。

第2世代のSecure Multi-Instance GPU

MIGテクノロジにより、単一のGPUを7つの小さな独立したインスタンスに分割し、多様なジョブを処理できる。 Hopperアーキテクチャは、各GPUインスタンスのクラウド環境で安全なマルチテナント構成を提供することにより、MIG の能力を前世代の最大7倍に拡張する。

コンフィデンシャルコンピューティング

H100は、処理中に AIモデルと顧客データを保護するコンフィデンシャルコンピューティング機能を備えた世界初のアクセラレータだ。顧客は、共有クラウドインフラストラクチャだけでなく、ヘルスケアや金融サービスなどプライバシーに特に敏感な業界のために、連合学習(Federated Learning)にコンフィデンシャルコンピューティングを適用することも可能だ。

第4世代 NVIDIA NVLink

最大規模のAIモデルを高速化するために、NVLinkは新しい外部NVLink Switchと組み合わせて、サーバーを超えたスケールアップネットワークとして NVLink を拡張し、NVIDIA HDR Quantum InfiniBand を使用する前世代の9倍の帯域幅で最大256基のH100 GPUを接続する。

DPX 命令

新しいDPX命令は、ルート最適化やゲノミクスを含む幅広いアルゴリズムで使用される動的計画法を、CPUと比較して最大40倍、前世代のGPUと比較して最大7倍高速化する。これには、動的な倉庫環境で自律動作ロボット群の最適なルートを見つけるためのFloyd-Warshallアルゴリズム、およびDNAやタンパク質の分類と折りたたみのシーケンスアラインメントで使用されるSmith-Watermanアルゴリズムが含まれる。
■【動画】Nvidia GTC2022 基調講演 (27分あたりから　日本語字幕が選択できる)

NVIDIA H100 の幅広い採用について

同GPUは、オンプレミス、クラウド、ハイブリッドクラウド、エッジなど、あらゆる種類のデータセンターに導入可能だ。第3四半期から提供開始を予定しており、今年後半には、世界をリードするクラウドサービスプロバイダーやコンピューターメーカー、および NVIDIAから直接入手できるようになる予定だ。

NVIDIA第4世代DGX：DGX H100

8基のH100 GPUを搭載し、新しいFP8精度で32ペタフロップスのAIパフォーマンスを提供。大規模言語モデル、レコメンダーシステム、ヘルスケア研究、気候科学の大規模なコンピューティング要件を満たすスケールを実現。同システムのすべてのGPUは、前世代に比べ1.5倍となる900GB/sの帯域幅を持つ第4世代のNVLinkによって接続される他、NVSwitchにより、8基のH100 GPUすべてがNVLinkを介して接続されている。また、外部NVLink Switchにより、次世代のNVIDIA DGX SuperPODスーパーコンピューターでは最大32台のDGX H100ノードがネットワーク接続される。

【Hopper提供予定企業】
● クラウドサービスプロバイダー：Alibaba Cloud、Amazon Web Services、Baidu AI Cloud、Microsoft Azure、Oracle Cloud、TencentCloud などがH100ベースのインスタンスを提供予定。
●システムメーカー：Atos、BOXX Technologies、Cisco、Dell Technologies、富士通、GIGABYTE、H3C、Hewlett Packard Enteprise、Inspur、Lenovo、Nettrix、Supermicro から、H100アクセラレータを搭載したさまざまなサーバーの提供を予定。

あらゆる規模の NVIDIA H100

H100は、SXMおよびPCIeのフォームファクタで提供され、幅広いサーバー設計要件をサポート。H100 GPUをNVIDIA ConnectX-7 400Gb/s InfiniBandおよびEtherne SmartNICと組み合わせたコンバージドアクセラレータも利用可能になる。

H100 SXM	サーバー内および複数のサーバーにまたがる複数のGPUにアプリケーションを拡張する企業向けに、4ウェイおよび8ウェイ構成のHGX H100サーバーボードで利用できる。
H100 PCIe	PCIe 5.0の7倍以上の帯域幅で2基のGPUを接続する NVLinkを備え、主要なエンタープライズサーバーで実行されるアプリケーションに卓越したパフォーマンスを提供。このことにより、既存のデータセンターインフラストラクチャへの統合が容易になる。
H100 CNX	新しいコンバージドアクセラレータであるH100 CNXは、H100とConnectX-7 SmartNICを組み合わせ、企業のデータセンターでのマルチノードAIトレーニングやエッジでの5G信号処理など、I/O集約型のアプリケーションに画期的なパフォーマンスを提供する。

HGX H100

NVIDIA HopperアーキテクチャベースのGPUは、PCIe 5.0 と比較してCPUとGPU間の通信が7倍以上高速になる、超高速の NVLink-C2C 相互接続を備えた NVIDIA Grace CPUと組み合わせることも可能。この組み合わせ(Grace Hopper Superchip) は、巨大な規模のHPCおよびAI アプリケーションに対応するために設計された統合モジュールとなっている。

■【動画】GTC 2022 Keynote with NVIDIA CEO Jensen Huang(※27:04~／英語、日本語字幕可能)