AI専用チップ「IPU」はGPUより2~4倍高速 グラフコア社長に聞く「IPU」の製品構成/ベンチマーク性能/開発環境

AIに適したチップと言えばNVIDIA社の「GPU」が圧倒的なアドバンテージを誇っているものの、最近ではグーグル社やCerebras Systems(セレブラス システムズ)社、ソフトバンクグループが出資しているサンバノバ社などからもAI専用チップが登場してきている。そして、大規模コンピューティング市場で頭角を現してきているのがGraphcore(グラフコア)社の「IPU」だ。「IPU」はIntelligence Processing Unitの略称。

AI関連の超大規模な機械学習や推論に用いられているため、なかなか編集部でGPUとの性能比較等は簡単にはできないが、同社の主張によれば「同等の価格のGPUと比較すると高速性は約2~4倍も高速で、省エネ性能(60%~70%目安)に優れている」という。
Graphcore(グラフコア)の日本法人は2021年1月に設立された。現在では、IPUの導入を検討している技術者が性能をテストしたり、GPUからの移行を試用できる無料の環境も用意されているという。
グラフコア・ジャパン株式会社の代表取締役社長の中野 守氏にIPUの製品構成やベンチマーク、開発環境について話を聞いた。


「IPU」とは? IPUの製品構成

IPUは第1世代が2018年に登場し、2020年末に「GC200」という第2世代プロセッサがリリースされた。1,472個の独立した並列処理コアを持つAI演算チップで、それぞれ専用の超高速メモリーブロックがシリコンダイ上のコアを隣接して配置、IPU全体では合計900MBのメモリーを搭載している。

第2世代IPU「GC200」

実際の製品形態としては「GC200」プロセッサを4基搭載した「IPU-M2000」というボックス型のアクセラレータが基本となる。「IPU-M2000」自体にはIPUユニットのみでCPU等は搭載されていないので、これに「x86」系CPU等を搭載したコンピュータをいわゆるホストサーバとして100GBイーサネットで接続して構成、AI演算などのために使用する。

第2世代IPU「GC200」を4基搭載した、AIインフラストラクチャ用IPUシステム「IPU-M2000」が基本となる

「IPU-M2000」は基本形態で、規模に合わせて「IPU-M2000」を更に4台(IPU-POD16)、16台(IPU-POD64)と拡張してキャビネット型に構成していくこともできる。
ここでの最大は「IPU-POD256」となっている(「IPU-M2000」64基=IPUは256基)が、設計上はIPUは64,000基まで拡張できる(Exa-POD)という。

「IPU-M2000」が4台構成(16基IPU)の「IPU-POD16」、16台構成(64基IPU)の「IPU-POD64」、そして64台構成(256基IPU)の「IPU-POD256」と拡張していくことができる


「IPU」はGPUより価格が安く、同価格帯で比較すれば高速性を実現

気になるベンチマーク性能を紹介しよう。


画像認識「EfficientNet B4」ではGPUの2.7倍高速

同社は価格で同等と見られるNVIDIA社の16基GPU「DGX A100」と64基IPUの「POD64」を同じフレームワークで比較したグラフを見せてくれた。コンピュータビジョンの「EfficientNet B4 トレーニング」をおこなった際、IPUは1秒間に11,579画像を処理することができ、これはGPUの約2.7倍に相当するという。



「RESNET50 トレーニング」では3倍以上高速

また、多くのテストやベンチマークで用いられ、MLPerfでも使われている「RESNET50 トレーニング」のTensorFlow環境では、GPUの3倍以上の高速性能が確認できたとしている。



音声認識「BERT」のベンチマーク

最近、音声認識業界で大きく注目されている「BERT」を用いたベンチマークでも、IPUがGPUを1.9~2.2倍の高性能を示すとした。


また、もう少し小規模な構成では、8基GPUの「DGX」と16基IPUの「POD16」を比較して、「BERT」で1.9倍、「EfficientNet B4 トレーニング」で3.8倍の性能をIPUがたたき出しているとしている。


中野氏によれば「海外の大学や研究機関の調査では、環境によってはGPUに比べてIPUの方が10倍以上速いという結果が出ている分野もある」ということだが、もちろんこれらはGraphcoreによるベンチマークテストであったり、同社が紹介してくれたデータであって、開発者が導入を検討するには目的の用途に絞ってテストした結果が重要となる。そのためこれらの調査数値をそのまま鵜呑みにすることはできないが、潜在性能として見た場合、IPUも検討してみる価値のある魅力的なAIプロダクト(サービス)のひとつと言えるかもしれない。


GPUからIPUへの移植は簡単

次に気になるのは開発環境だ。NVIDIAは初期の段階からGPUを開発するためのソフトウェアやフレームワークなどの開発環境で提供してきて、開発者のトレーニングも積極的におこなってきた。それが現在のAI開発と実装の普及に繋がっている。
Graphcoreではどうか。同社によれば開発環境としては「POPLAR-SDK」が用意されていて、PyTorchやTensorFlow、ONNXなど、多くのフレームワークでIPUが動作するように対応していて、GPU用に書かれたコードでもわずか数行の設定を書き換えるだけで、そのままIPUで動作させることができるとしている。


中野氏は「ただ、C++で書かれたプログラムについては「グラフコンパイラ」での変換で実行イメージを作る必要がある。また、NVIDIA GPU用に「CUDA」で書かれたプログラムでは、IPUへの移植は書き直しが必要になり、比較的大がかりな変更になる」としている。

■GPUからIPUへの変更(参考資料)


全世界で社員は約600名、企業価値は27億7,000万ドル

Graphcore社は、2016年に英国ブリストルで設立され、5年が経過した企業だ。AI計算に特化したプロセッサ「IPU」を開発し、GoogleのAI研究機関だったディープマインド社(Deepmind)の共同創業者デミスハサビス氏ら有力者から投資を受けたことで注目された。その後、セコイア・キャピタルをはじめ、BMWやマイクロソフト、サムスンなど大手企業から総額7億1,000万ドル以上の投資を受けている点が大きな特徴だ。


展開としてはアメリカ、イギリスやヨーロッパ本土、中国、韓国、そして日本にオフィスを構えている。なお、中国では2年以上前から活動している。また、インドやシンガポールにも事業の展開を始めている。
全世界の従業員は約600名となり、企業価値は27億7,000万ドルに達する、としている。

ABOUT THE AUTHOR / 

神崎 洋治
神崎 洋治

神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。

PR

連載・コラム