ロボットの知能化最前線　ミラーニューロン、模倣学習+GAN最新研究「NEDO AI＆ROBOT NEXTシンポジウム」浅田氏・尾形氏・松原氏講演

「NEDO AI＆ROBOT NEXTシンポジウム～人を見守る人工知能、人と協働するロボットの実現に向けて～」が新宿で開催され、二日目となる17日は、よりロボティクス側にフォーカスしたセミナーや展示が行われた。

日本ロボット学会の会長、浅田氏の最新研究

基調講演では大阪大学特任教授、日本ロボット学会の会長である浅田氏が登壇し、『日本の次世代人工知能技術はロボットを中心に加速する』と題した特別講演を行い、「認知発達ロボティクス」や「ミラーニューロンシステム」などについての研究内容を紹介した。

大阪大学特任教授、日本ロボット学会会長浅田稔氏

AI×ロボティクスはさまざまな研究のブリッジ役に

「multi-disciplinary」から「inter-disciplinary」へ移行していることをあげた。「multi-disciplinary」は法学、哲学、社会学、発達心理、神経科学、認知科学、ロボティクス/人工知能などの研究分野が混在してきたことを意味していて、それらが重なりはじめ、異なる分野間の協働する「inter-disciplinary」状態へと変わってきていることを示した。また、それらの諸分野の中でもロボティクスや人工知能は融合を橋渡しする役割を期待されている、とした。

次に「IROS2019」会議報告に触れた。AIはいろいろな研究分野で人間の精度を超え始めているが、学術論文については日本の存在感はやや乏しく、特にAIとロボティクスにおいては参加、投稿、採択においては中国が席巻している印象だと、危機感をにじませた。

「認知発達ロボティクス」と「痛みによる意識の共有」

とても興味深かったのは「認知発達ロボティクス」と「痛みによる意識の共有」だ。現在のAI技術はある種の目的関数に対して最適解を提示するものだ。しかし、今後、人と協働するロボットの未来を考えれば、人の心を動かすことが必要で、そのためには「認知」「共感」といったカウンセリングの技術が必要になるという。重要となるのが「認知発達ロボティクス」だ。他者を含めて「環境との相互作用」を通じて、情報を構造化する。

そこで浅田氏は「痛覚が意識創発の要」という仮説を立てた。ロボットが痛みを感じる神経回路を埋め込んだ上で、ミラーニューロンシステム(行動の実行と行動の観察を同時に符号化するニューロン)によってロボットが他者の痛みを感じて共感を導くことができる。いわば、自身が痛みを経験し記憶し、視覚的に他者の「同じ状況を見た」ときに痛みを思い出して共感できる、かもしれないとした。

ミラーニューロンシステムによる痛みの共感を通じて意識が発達し、それが道徳の原型になるかもしれないもという仮説。箇条書きの5.と6.は文字の色が薄くなっているが、これを浅田氏は自信のなさの現れ、と説明した

柔らかな皮膚や触覚センサーの研究に触れ、ミラーニューロンシステムは行動そのものを観察するだけでなく、行動が引き起こす状態を観察したり実現するための行動を生成する可能性に言及(東大の長井教授の研究を引用)。他者の行動を見たときに、過去に体験した触覚や痛覚の記憶が引き起こされて共感するというプロセスだ。
最後に新たな研究動向の紹介として「ニューロモルフィズム」と「ニューロモルフィックダイナミクス」を紹介した。

「模倣学習」と「強化学習」「GAN」の研究成果発表

基調講演に続いて「人工知能を基盤とする日常生活支援ロボットの研究開発」についての講演が行われ、AIの「模倣学習」研究で知られる早稲田大学の尾形教授とNAISTの松原氏が登壇した。

産業技術総合研究所・特定フェロー／早稲田大学・教授　尾形哲也氏

奈良先端科学技術大学院大学　松原崇充氏

尾形教授の研究は各種の実証実験でおなじみだ。過去には、デンソーの双腕ロボットによるタオルの折りたたみやサラダの盛り付けはロボスタの記事でも話題になった。また、エクサウィザーズやデンソーとは指定した量の粉をスプーンですくって移し替える実験も行っている。日立製作所とはドアを開けて通過するロボットも披露した。

指定した量の粉をスプーンですくって移し替えるロボット(ロボットはデンソーウェーブのCOBOTTA(コボッタ))。「NEDO AI＆ROBOT NEXTシンポジウム」で展示されていた

人間にとっては簡単なことでも、従来のロボットには困難で、ディープラーニングの台頭によって実現が可能になった技術だ。尾形教授は「模倣学習」「強化学習」などの面で先端的な研究をつぎ込み、できなかったことをできるようにするとともに、プログラミングコストの大幅な削減に対する研究も進めている。

例えば「模倣学習」はコントローラやVRセットなどを使用して、人間がロボットを操作することでロボット(AI)がその動作を学習する。その動作を細かくコードでプログラミング(コーディング)するのに比べて圧倒的に短時間で動作が実現できる(そもそもコードでは実現できない動作も多い)。

「タオルの裏返し」と「シャツの折りたたみ」

代表的な事例として「タオルの裏返し」と「シャツの折りたたみ」を紹介した。
「強化学習」とは、簡単に言うとロボット(AI)に報酬(得点)を明示することで、ロボットが報酬を得ることを目指して動作を学んでいく学習方法だ。これは報酬の設定が的確でなければ効率的な学習ができないが、布を折りたたむ行為自体、報酬を設定することは難しい。ではどうするか。

的確な報酬を設定すれば、強化学習で「タオルの裏返し」をAIは約4時間で習得できるという

例えば、タオルの裏返しの場合、タオルのオモテ面を緑、ウラ面を赤にしておく。強化学習の報酬を「赤色の面積」に設定すると、ロボットは赤色の面積を増やすことで報酬が得られるので、裏に向ける面積が増えるようにロボットは試行錯誤、努力して動作を学習していく。

一方、裏表でカラーが同じで形も複雑なシャツの折り畳みでは報酬の設定はかなり難しくなる。そのため初期段階ではマーカーを付けて経過によって報酬を設定していくという。
これらの学習方法に加えてGAN(敵対的生成ネットワーク)と模倣学習を組み合わせた学習手法の研究も行っているという。この結果、強化学習でありながら報酬を設定しなくても学習精度を向上させることが可能になる。

これら一連の研究成果の発表として、展示会場では「タオル(おしぼり)を巻くロボット」「タオルを裏返すロボット」「指定された重さの粉を移し替えるロボット」等が披露されていた。