ユカイ工学はJapan Robot Weekの展示ブースで、大規模言語モデル(LLM)がロボットの連携に与える革新的な変化の可能性について、試験的ではあるものの具体的なカタチとして公開した。
従来、異なる種類のロボットが連携する場合、APIや共通のプログラム言語を使ってシステムを構築し、それぞれのロボットが協働する必要があった。
ユカイ工学の展示ブースで公開されていたデモは、会話ロボット「BOCCO emo」(ユカイ工学製)、自動搬送ロボット「Kachaka(カチャカ)」(Preferred Robotics製)、小型協働ロボットアーム「COBOTTA」(生成AI搭載のJullie:デンソー/デンソーウェーブ)が「日本語の音声」でやりとりしてコミュニケーションをとり、意図を解釈して行動するもの。APIや共通のプログラム言語を一切使わず、まるで初めて会った人間が会話によって意図を理解し合い、協力してひとつの作業を完遂するような試みだ。
デモの内容(大規模言語モデル+ロボット)
デモの大まかな内容は、来場者の様子や好みを判断し、カプセルトイ(ガチャガチャ)を回して取り出し、来場者に渡すというもの。それぞれのロボットは・・
1.会話ロボット「BOCCO emo」が展示ブースの入口で来場者と会話して来場者の好みを分析する
2.「BOCCO emo」が自動搬送ロボット「Kachaka」に日本語で3種類のカプセルトイが並び、「COBOTTA」(生成AIのJullie)が待機しているところまで「連れて行って」と音声で依頼する
3.「Kachaka」はそれを理解して「COBOTTA」の前まで「BOCCO emo」を運んでいく
4.「BOCCO emo」が「COBOTTA」(生成AIのJullie)にカプセルトイを回してもらうよう依頼する
5.「COBOTTA」(生成AIのJullie)は「BOCCO emo」に来場者はどんな人か? 好みはどんなものかなどを聞く
6.「BOCCO emo」は来場者の様子や声、好みの予想などを「COBOTTA」(Jullie)に伝える
7.「COBOTTA」(Jullie)はそれらの情報から、3種類のカプセルトイの中から来場者の好みにピッタリだと感じたカプセルトイのガチャを回してカプセルを渡す
8.「BOCCO emo」はそれを受けて「Kachaka」に来場者の位置まで戻るように音声で伝える
9.「Kachaka」が「BOCCO emo」とカプセルを来場者の前に運び、「BOCCO emo」が来場者に「こういうカプセルトイを持って来たよ」と説明して提示する
ロボット間のやりとりはすべて日本語の音声で発話・聞き取りでおこなう。ロボットはそれぞれ別のシステムの大規模言語モデルが日本語の内容と意図を解析し、それに対しての意見や解釈を発して相手に確認、作業を行う。
■異種ロボットが意思疎通する未来をデモ 大規模言語モデルAIで連携
多種多様なロボットが普及した未来の社会に向けて
このしくみの延長には、今後、社会に多種多様なロボットが普及した場合でも、お互いにシステムの互換性や共通のAPIがなくても、初めて会った人間が会話して意図を理解し合うように、日本語でやりとりして協働できる社会が描かれている。
ユカイ工学の展示ブースの担当者は「デモではそれぞれのロボット(大規模言語モデル)がどんな会話をして、どんな反応をするか、私達にも確かなことは解らないので、ハラハラしながらやっています」と語った。
ChatGPTやGeminiなど、大規模言語モデルがチャットボットに登場して多くのユーザーが感銘を受けたが、それをロボットに応用した場合のひとつの革新的な可能性を、このデモでは示唆している。
ヒューマノイドや巨大な汎用人型重機、自動搬送ロボ、犬型軍用ロボなど多数展示 GMO AIRのビジョンや狙いを内田社長に聞く
【動画】Thinkerが近接覚センサーのデモを公開 人型ロボットが「手探り」でネジを掴んでビニール袋に挿入 Japan Robot Week 2024
鉄道会社が導入した巨大な汎用人型重機「零式人機」の特別版デモを公開!「JAPAN ROBOT WEEK 2024」GMOブースで
この記事を読んだ人におすすめ
- アクセンチュアがNVIDIA AI Foundryを活用したカスタムLlama LLMを世界に先駆け開発 ビジネスに合わせた大規模言語モデル作成
- Legal AI 「AI法律相談(AI弁護士ツール)」をOpen AIの「GPT-4o」にアップデート AI法律相談の会話スピードを高速化
- 生成AIやLLM、人型ロボットなど大規模演算に期待される「NVIDIA Blackwell」 従来比較で最小1/25のコストとエネルギー使用量
- NEC モバイル通信向け「高精度QoE予測技術」を開発 大規模言語モデル(LLM:生成AI)と映像認識AIも活用 自動運転やドローン飛行などに
- NTTが大規模言語モデルに文書を視覚情報から理解する「視覚読解技術」を確立 NTT版LLM 生成AI「tsuzumi」に採用
- NTT【世界初】AIモデルの再学習に有効な「学習転移」を発表 「tsuzumi」など大規模基盤モデルの更新時に過去の学習過程を再利用
ABOUT THE AUTHOR /
神崎 洋治神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。