株式会社Athena Technologiesは東京電力ホールディングス株式会社と共同で、四足歩行ロボットに対してユーザーが音声指示のみで操作可能にする「AIエージェント制御パイプライン」の検証を行ったことを2026年6月3日(水)に発表した。
音声認識から意図解釈・コード生成まで一気通貫で処理
本検証では、音声で与えた指示を認識・解釈し、四足歩行ロボットの操作コマンドへ変換して実機で実行する仕組みを構築している。
「パトロールして」「異常がないか確認して」といった自然言語による操作を可能にするため、音声認識から意図解釈・タスク分解、ツール選択を経てコード生成を行うパイプラインを実装。事前に定義した動作シナリオを対象に評価を行い、各動作の実行を確認した。
AIにスクラッチでコードを書かせるのではなく、歩く・撮る・掴むなどの動作をあらかじめToolとして定義し参照させることで、定義済みの手順のみを組み合わせたコード生成を実現。この設計により誤作動リスクを最小化できた。
「聞き返し機能」でコード生成成功率が大幅改善
現場特有の抽象的な音声指示に対し、AIが不足情報を自動で判別してユーザーに確認を求める「聞き返し機能」を実装した。聞き返しを行わない場合と比較してコード生成成功率は大きく改善し、曖昧な指示ほど効果が大きいことが確認された。また、コードのレビューを行うAIエージェントを実装することで、誤作動リスクのさらなる最小化も図った。
一方で、現時点では動作の安定性に課題が残っており、利用環境や条件によっては挙動にばらつきが生じることも確認されている。
「命令実行」から「自律判断」へ 今後の技術拡張
同社は今後、四足歩行ロボットを単なる命令実行ロボットから自ら判断・説明できる「AIエージェント」へと進化させる方針だ。
具体的には、撮影失敗時の自動再撮影やバッテリー残量に応じた自律充電といった自律性向上、撮影画像を入力とした外部環境認識と再プランニング機能、RAGを活用した知識検索による業務連動型制御指示などの開発を検討している。