世界のコンピューターメーカーがNVIDIA AIを活用し、MLPerfで圧倒的な記録を達成 パフォーマンスは最大で3.5倍に向上

2021年6月30日に発表された最新のMLPerfの結果によると、NVIDIAのパートナーが現在提供しているGPUアクセラレーテッドシステムを使えば、地球上の誰よりもAIモデルを速くトレーニングすることができる。

産業用ベンチマークの最終ラウンドには7つの企業から販売されている合計10以上のシステム(その多くがNVIDIAによって認証された NVIDIA-Certified Systems)のテスト結果が申請された。Dell、富士通、GIGABYTE、Inspur、Lenovo、Nettrix および Supermicro が、NVIDIAとともにテストに参加し、NVIDIA A100 Tensor コア GPUを活用し、ニューラルネットワークのトレーニングで業界トップの結果を出した。

ベンチマークの最終ラウンドで8つのワークロードすべてを処理できたのは、NVIDIAとそのパートナーだけだった。NVIDIAとパートナーのシステムはテストに提出されたシステムの3/4以上を占め、その結果は驚異的なものだった。昨年との比較ではパフォーマンスが最大で3.5倍に向上。強大な性能を必要とする大規模なジョブではNVIDIAは他のどの提出よりも多い、記録的な4,096基のGPUからリソースを集めた。

MLPerfとは
「公平かつ有用なベンチマークを作る」ことを目指した学界、研究機関、業界のAIリーダーたちによるコンソーシアムで、ハードウェア、ソフトウェア、サービスのトレーニングおよび推論のパフォーマンスに対し公正な評価を提供する。この評価はすべて、規定された条件下で行われる。業界のトレンドの最先端を走り続けるため、MLPerfは継続的に進化し、新しいテストを定期的に実施して、最新のAIを体現する新しいワークロードを追加している。


MLPerfが重要な理由

2018年5月に設立された産業向けベンチマークグループであるMLPerfのトレーニングテストに、NVIDIAのエコシステムが参加するのはこれが4回目であり、その結果は過去最高のものとなった。MLPerfはユーザーが確信を持って購入できるようにするための情報を提供している。そのベンチマークは現在の最も一般的なAIのワークロードとシナリオに基づいたもので、コンピュータービジョン、自然言語処理、レコメンデーションシステム、強化学習などを対象としている。トレーニングのベンチマークにはユーザーが最も重視しているもの、つまり新しいAIモデルをトレーニングするまでの所要時間に焦点が当てられる。また、MLPerfはAlibaba、Arm、Baidu、Google、IntelおよびNVIDIAを初めとする、業界の数十のリーダー企業から支持されている。そのため、テストは透明性があり、客観的。


スピード+柔軟性=生産性

最終的に顧客のインフラへの投資に対するリターンは、顧客の生産性にかかっている。そして多くの種類のAIワークロードを実行する際には、高速性と柔軟性の両方を備えているかどうかで決まる。そのため、ユーザーはさまざまなAIモデルを迅速に展開し、市場投入までの時間を短縮し、貴重なデータサイエンスチームの生産性を最大限に高めることができる、柔軟かつ強力なシステムを必要としている。

最新のMLPerfの結果では、NVIDIAのAIプラットフォームは市販のシステムを対象としたカテゴリの8つのベンチマークすべてにおいて、最短時間でモデルをトレーニングし、パフォーマンスの記録を更新した。

NVIDIA DGX SuperPODをベースとしたSeleneは、市販のシステムを対象とした8つのベンチマークすべてで、新記録を樹立した。

NVIDIAは最新のTOP500のランキングで最速の商用AIコンピューターであるSeleneで大規模なテストを実施。Seleneは同ランキングの他のシステムに多数採用されている、NVIDIA DGX SuperPODアーキテクチャをベースとしている。システムを大規模なクラスタにスケールさせることは、AIにおける最も困難な課題であり、NVIDIAの強みの一つ。チップツーチップでの比較では、NVIDIAとNVIDIAのパートナーが市販のシステムを対象とした8つのベンチマークすべてで、新記録を樹立した。

A100 GPUは市販のシステムを対象とした8つのベンチマークすべてで新記録を樹立。

また、全体的な結果として、NVIDIAのフルスタックのプラットフォーム全体の改良により、パフォーマンスが2年半で6.5倍に向上している。

NVIDIA AIはフルスタックでの改善により、継続的なパフォーマンス向上を提供する


幅広いエコシステムが最高の価値と選択肢を提供

MLPerfの結果はNVIDIAのAI プラットフォームをベースとした新しい革新的なシステムのパフォーマンスを示している。システムはエントリーレベルのエッジサーバーから数千ものGPUを搭載したAIスーパーコンピューターまで多岐にわたる。

最新のベンチマークに参加しているパートナー7社はNVIDIA A100 GPUを使ったオンライン インスタンス、サーバーおよびPCIeカードの製品を提供している、または提供予定の 20以上のクラウドサービスプロバイダー、および OEMメーカーの中に含まれる。またこれらの製品には40近くのNVIDIA-Certified Systemsが含まれる。

NVIDIAのエコシステムは、分単位でレンタルできるインスタンスから、オンプレミスのサーバーやマネージドサービスまで、幅広い展開モデルの選択肢をユーザーに提供し、業界の中で、1ドルあたり最も高い価値を提供している。MLPerf のすべてのテストの結果を見ると、NVIDIA のパフォーマンスが時間の経過とともにが向上し続けていることがわかる。これは、継続的に改善されている成熟したソフトウェアを備えたプラットフォームのおかげであり、ユーザーは常に向上し続けるシステムを迅速に使い始めることができる。


記録樹立の秘密

今回は新しい「A100 GPU」にとっては2回目のMLPerfとなる。GPU、システム、ネットワークおよび AI ソフトウェアなど、さまざまな要素の進歩により、スピードアップを実現した。

たとえば、NVIDIAのエンジニアはNVIDIA CUDAの命令とその依存関係のソフトウェアパッケージであるCUDA Graphsを使って、フルニューラルネットワークのモデルを起動させる方法を見つけた。これによって、カーネルと呼ばれる、多くの個々のコンポーネントのチェーンとしてAIモデルをリリースしていた、過去のテストでのCPUのボトルネックが解消された。

さらに、ネットワーク スイッチ内に複数の通信ジョブを集約させ、ネットワークトラフィックとCPUの待機時間を削減するソフトウェアであるNVIDIA SHARPを使って大規模なテストを行った。CUDA GraphsとSHARPの組み合わせによって、データセンター内のジョブのトレーニングにおいて、記録的な数のGPUへのアクセスが可能になった。これはAIモデルが数十億のパラメータを含むくらいにまで拡大した場合の自然言語処理など、多くの分野で欠かせない能力となる。その他にも、最新のA100 GPUのメモリが拡張したことによる利点もあり、メモリ帯域幅がおよそ30%拡大し、2TB/s以上になっている。



NVIDIAユーザーの声

幅広い分野における AI ユーザーが、このベンチマークを参考にしている。

ナノテクノロジーから気候研究まで幅広い分野の研究を行っている、スウェーデンのチャルマース大学の広報担当者は、次のように話している。

「MLPerfベンチマークは、複数のAIプラットフォームを同一条件下で透明性のある比較を行うことで、実世界のユースケースにおける実際のパフォーマンスを示します。」

また、MLPerfのベンチマークは、世界最大級かつ最先端の工場のニーズに応えるAI製品を見極めるための手助けにもなる。例えば、チップ製造の世界的なリーダーであるTSMCでは、機械学習によって、光近接効果補正 (OPC) とエッチング シミュレーションを向上させている。
TSMCのOPC部門担当ディレクターであるダンピン ペン(Danping Peng)氏は、次のように話している。

「モデルのトレーニングと推論において機械学習の潜在能力を完全に引き出すために、当社は NVIDIA のエンジニア チームの協力を得て、Maxwell のシミュレーションおよびインバース リソグラフィ テクノロジ エンジンをGPU に移植し、速度を大幅に向上させることに成功しました。MLPerf ベンチマークは、当社の意思決定での重要な要素となっています」



ヘルスケアや製造分野での貢献

これらのベンチマークは、AIの限界を押し広げ、ヘルスケアを向上させようとしている研究者にとっても有益。
ドイツのがん研究センターであるDKFZにて、医用画像のコンピューティング担当ヘッドを務めるクラウス マイヤーハイン(Klaus Maier-Hein)氏は、次のように話している。

「私たちは NVIDIA と密接に連携して、ヘルスケア市場に 3DUNet のようなイノベーションをもたらしています。業界標準となっている MLPerf ベンチマークは、IT 組織と開発者に必要な性能データを提供し、個々のプロジェクトとアプリケーションを加速させるために適切なソリューションを得られるようにしています。」

研究および製造の世界的なリーダーであるSamsungも、MLPerfベンチマークを参考にしてAIを導入し、製品の性能と製造での生産性を向上させている。
Samsung Electronics の広報担当者は、次のように話している。

「AI の発展を製品に結びつけるには、最高のコンピューティング プラットフォームを持つ必要があります。MLPerf ベンチマークにより、すべてのプラットフォーム ベンダーを同じ方法で評価することを可能にする、オープンで、ダイレクトな手法を得ることが可能になり、それによって当社の選別プロセスが合理化されています」



テストで使用されたソフトウェアの入手方法

直近のテストで使用されたソフトウェアはMLPerfのリポジトリで入手でき、誰でもベンチマークでの結果と同じものを再現することが可能。NVIDIAはGPU アプリケーションのためのソフトウェアハブであるNGC catalogで利用できるディープラーニングのフレームワークとコンテナに、このようなコードを継続的に追加している。これは、最新の産業向けベンチマークで実力が実証されたフルスタックの AI プラットフォームに組み込まれており、現在の実際の AI ジョブに取り組むためにさまざまなパートナーから提供されている。

ABOUT THE AUTHOR / 

山田 航也

横浜出身の1998年生まれ。現在はロボットスタートでアルバイトをしながらプログラムを学んでいる。好きなロボットは、AnkiやCOZMO、Sotaなどのコミュニケーションロボット。

PR

連載・コラム