深層強化学習と汎用化が重要、ロボットへの応用が面白い　Googleブレイン Shane Gu氏の基調講演「Deep Learning Digital Conference」

「Deep Learning Lab」(DLL)は、マイクロソフトとPFNの協業から生まれたコミュニティで、実社会でのディープラーニング活用を推進している。先端技術を実際のビジネスに応用するべく、技術とビジネスの両面に精通したプロたちが毎月の勉強会や教育活動をベースに、ニーズに合わせた最適な技術を選択して開発した事例や、最新技術動向の情報発信を行い、ソリューション検討を具体的に行えるようにしてきた。
DLLは2020年夏で3周年を迎えた。毎年、開催してきたカンファレンスは、COVID-19の影響で今回はオンラインセミナー形式の「Deep Learning Digital Conference」として、8月1日に行われた。「事例セッション」「技術セッション」「教育セッション」「個人セッション」に分け、ビジネス側からエンジニア側まで幅広い層を対象に、AIの社会実装に向けた30を超えるセッションが用意された。

Google Brain研究員Shane Gu氏による基調講演

基調講演には、Shane Gu氏が登壇した。Gu氏はGoogle Brain研究員であり、東京大学未来ビジョンセンター/ 松尾研究室　客員研究員、一般社団法人日本ディープラーニング協会　有識者会員も兼務する。

基調講演のタイトルは「深層強化学習の汎用に向けて」。深層学習(ディープラーニング)が話題になり、様々な分野で成果を出しているものの、その真価は汎用性にある、とするGu氏。中でも「強化学習」と「ロボットへの応用が特に面白い」という。

教師あり学習と強化学習(前置き)

Gu氏の基調講演の内容に入る前に、AIをこれから学ぶ人のために、深層学習(ディープラーニング)に関する基礎知識について、著者の考えを簡単に解説しておきたい。
深層学習はAI関連技術を使った機械学習のひとつだ。深層学習には様々な学習の方法があり、その中で最も代表的なものが「教師あり学習」だ。「教師あり学習」という名称からは、内容を理解するのには難しく「正解あり学習」と言った方がピンとくる。代表例が「犬」と「猫」の写真を判別するAIシステムの学習方法が知られている。膨大な数の犬の写真データに正解である「犬」というラベルを付け、猫の写真に「猫」という正解ラベルを付けて学習させると、AIはそれぞれを解析して、「犬」と「猫」の特徴量を見出して識別する能力を得る、というものだ。「教師あり学習」は最もスタンダードである反面、AIが学習するための教師データ(正解データ)を作ったり、的確に学習させるのに時間と労力がかかるとされている。
それに対して「強化学習」は一般に教師データを使わない。人間が自転車に乗るバランス感覚を習得することが例に挙げられる。失敗と成功を繰り返しながら、成功の方法を見出していく。この時に重要なのが「報酬」だ(これも「目標(ゴール)」という日本語の方が適しているかもしれない)。人が自転車の練習をするときは、5m乗れれば目標クリア、次は10M、それを達成したら15mなどど次の目標を決めて高めていく。ざっくばらんな表現だが、これが「強化学習」だ。もしも、ロボットに自転車に乗るバランス感覚を習得すさせようとするならば、教師あり学習ではとうてい困難で、誰もが強化学習を選択するだろう。

なぜロボットの応用が特に面白いか

では、Gu氏の基調講演の内容に移ろう。
Gu氏は、深層学習は既に画像認識や自然言語処理、翻訳などの領域では実用化が進んでいて、応用範囲も広がり、大きな成果を上げている、と評価する。しかし一方で、強化学習の領域では比較的活用されている実用例は少ないことを指摘した。
ちなみに、強化学習は囲碁やゲームの世界では既にめざましい成果を遂げている。将棋、囲碁、特定のゲームに特化したAIは上級者を上回るパフォーマンスを出し、囲碁のチャンピオンを打ち負かすに至っている。しかし、これらゲームの中の目覚ましい成果は現実世界との接点、すなわち現実世界での実用性は少ないと感じている、とした。
Gu氏にとって現実世界での「Generalization」(汎化/汎用性)が重要だ。汎化とは例えば「環境の変化に対応」すること。ある行動による結果によって周囲に変化が起こる、その変化に応じて次の行動を起こすダイナミクスを重視すると強化学習(深層強化学習)が重要だとした。オランウータンがタオルを使って試行錯誤しながらベッドを作ったり、魚が岩を使って貝殻を壊して中を食べたり、いろいろな生物が普通に行っているものの、そのパターンは無限大にあり、環境によって変わっていくような複雑な行動を、ロボット(のAI)で実現できたら、それが次に来るブレークスルーだと思う、と語り、深層強化学習はまだまだ発展段階にあるものの、それを実現できる技術として最も興味深いことを指摘した。

Gu氏はその後「知性とは何か」「リアルのロボットで強化学習した成果」とその先にある自動化等について触れたのも印象に残った。
また、Gu氏の基調講演に限らず、今回「Deep Learning Digital Conference」の多くの講演の中で、機械学習に要する時間を短縮する、効率化を重視するフェーズに入っていることを実感した。

関連サイト
Deep Learning Digital Conference 公式ページ

神崎洋治

神崎洋治（こうざきようじ） TRISEC International,Inc.代表「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ～くわかる本」(秀和システム)の著者。デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。