「シーマンの知見を活かして次世代の日本語会話AIをつくる」シーマン人工知能研究所・斎藤由多加氏インタビュー

「ロボットとの会話にはガッカリしてばかりですよね」
シーマン人工知能研究所の斎藤由多加氏はそう切り捨てる。
私達が日常的に会話している日本語は文法に沿ったものだろうか。おそらく文法に沿ってはいないし、たいていは意識すらしていない。
斎藤氏は「日本語の日常会話には文法などない」と言う。その上で、日常会話に独特の法則があるとすれば、それを解明することで新しい文法を作るとも言う。
生活に寄り添うロボットやコンピュータ、彼らとスムーズな会話をするために必要なのはお行儀の良い日本語の文法に沿った会話エンジンではなく、日常会話の法則ではないか、と主張するのだ。
そうかもしれない。それこそがこれからの会話エンジンに最も重要な存在なのかもしれない。
斎藤氏は九州大学と連携し、日本語会話の新しい文法を生みだそうと企んでいる。

シーマン人工知能研究所所長斎藤由多加氏。10月13日より、Amazonプライムビデオの番組「KEISUKE HONDA CAFE SURVIVE」で本田圭佑氏との対談「第4回:本田圭佑×斎藤由多加(AI 研究者、伝説のゲーム「シーマン」開発者) 」を放映中

「シーマン」で日本語の独特な会話を研究し尽くした

斎藤由多加氏はゲームクリエイターで、代表作は育成シミュレーションゲームの「シーマン」シリーズだ。最初の作品は1999年7月、『シーマン～禁断のペット～』としてドリームキャストというゲーム機用に発売された。第3回文化庁メディア芸術祭デジタルアートインタラクティブ部門優秀賞や日本ゲーム大賞ニューウェーブ賞、小学館DIME誌トレンド大賞などを受賞し、その先進性が大きな話題となった。
先進的だったのは、コントローラのマイクを使い、ゲーム内の謎のキャラクターであり毒舌な「シーマン」と会話する点だ(シーマンの声は斎藤由多加氏本人によるもの)。会話を通じてシーマンは学習して成長するし、あるいはユーザーが話した秘密まで握るという、実に奇妙な未来感が漂っていた。

シーマンとの生活と会話が奇妙な世界観を作り上げて大ヒットした「シーマン」

しかし、この頃のゲーム機はネット接続もなくスタンドアローンで動作していた。現代のように膨大な情報からなるクラウドのデータベースに繋がっていたわけではない。それなのにシーマンとの会話は当時のゲームユーザー達に受け入れられた。その理由は絶妙な「会話の間」や「受け応え」だっただろう。しかし、実はそこが本質ではなく、会話の内容にポイントがあると斎藤氏は言う。

斎藤(敬称略)

人間の会話の一番の関心事って「当事者が関わっている」ことなんですね。例えば「アメリカの映画産業って最近は・・」なんて話題よりも、「お前って最近評判悪いよ」って話題の方が、誰もが一気に耳を傾けて、詳しく話をしたい、聞きたいと感じるものなんです(笑)。

どうしたら会話が楽しくなるのか、ヒトが興味を持つ会話を生成できるのか、その上でユーザが話していることを正確に理解することが、会話ロボットやスマートスピーカー、人工知能コンピュータにとって次に必要になることだと考えています。

シーマンは誕生したばかりの頃(幼魚は「ギルマン」と呼ぶ)、言葉を覚えていないので会話ができない。しかし、少し育ってくると「イイスルカギキ」という意味不明な言葉を連発するようになる。当時ゲームをプレイしていたときは、ギルマンは適当な単語を連発しているのかとばかり思っていたが、これは実はある日本語を逆回転させたもので、意味のある言葉だった。シーマンとの会話は言葉のやりとりを練りに練られた結果、生み出されたものだった。斎藤氏はシーマンの続編で、北京原人語という架空の言語作りにも挑戦している。

シーマン人工知能研究所をつくった意味

編集部

ここシーマン人工知能研究所を設立されましたが、シーマンの新作を制作するためではなく、日本語におけるAIの研究開発をする研究所だと聞きました。

斎藤

そうです。「シーマン」という冠をつけた理由は3つあります。
ひとつは「エンターテインメントであることを忘れない」ためです。最新技術は製品になるところの戦略がしっかりしていないと消費者がガッカリするものになってしまいます。最近登場しているロボットの多くもガッカリさせられるものが多いですよね。ヒトが会話をするには情報の伝達や共有のほかにエンターテインメントであることが重要なんです。
ふたつめは、研究所の成り立ちに関係するのですが、政府の助成金などの公的な資金援助を受けられなかったので、有志の人たちが集まって知恵と資金をしぼって草の根の底力だけで運営していこうと思っているからです。「下町ロケット」のように(笑)。その意思が込められています。
みっつめは、とはいえ消費者の皆さんには応援して欲しいという気持ちがあります。お馴染みである「シーマン」というイメージがあった方が親しまれやすく、気軽に応援してもらいやすいのではないかと考えたのです。
ただ、私達自身が注意しなければいけないのは、消費者の方々に「新しいシーマンを作るために設立した」という誤解を与えてはいけないということです。私達は、新しいシーマンを作るのではなく、シーマン開発の知見やノウハウを活かして、今までにない全く新しい「フロントエンドの日本語音声会話システム」を作るために設立したのです。

全く新しい「フロントエンドの日本語音声会話システム」とは

斎藤

ロボットやコンピュータが人間と会話する時代がやってきていますが、私達が作るフロントエンドの日本語会話システムの役割は2つあります。
ひとつは人間と会話をして、人間の言っている言葉を数値化し、クラウドにある人工知能システムや専用の質疑応答システムに受け渡すインタフェースです。すなわち、すべてのロボットや端末に組み込むことができ、質疑応答システムやコグニティブシステムと連携することができる日本語会話システムです。

編集部

例えば、コミュニケーションロボットに組み込んだり、IBM Watsonのフロントエンドで会話をするシステムになり得るという意味ですね。

斎藤

そうです。世の中には既にすぐれた質疑応答システムやFAQ応答システムはたくさんありますが、私達の会話エンジンはそれらと競合しません。むしろ協力して共存し、お互いを高め合うシステムです。
多くのシステムはユーザーからの質問を理解して、それに対して最適な回答を返すようなシナリオが作られています。シーマンの基本的なしくみも同じです。現在では、ディープラーニングを使って機械学習することで膨大なシナリオをコンピュータが学習し、自律的で高精度な会話ができるようになってはいます。
しかし、賢いはずの質疑応答システムが実務であまり機能できないのはなぜでしょうか。いくら膨大なシナリオや豊富な回答を持っていても、ユーザーがシナリオ通りに質問しなかったり、ユーザーが聞きたいことを正確にコンピュータが把握できないために正しい回答を出せないのです。
私達が開発するフロントエンドの日本語音声会話システムは「ユーザーが何を聞きたいのかをはっきりと理解した上で質疑応答システムに渡す」という役割を担います。

編集部

シーマン人工知能研究所が開発しようとしているのは、高精度な質疑応答システムや情報を提供するシステムと協業する、ユーザーの矢面に立つ会話システムの部分ということですね。

斎藤

優秀な質疑応答システムを開発したのだけど、日本語の多様性に対応できていないためにユーザにとって満足度が高い会話ができない、できそうにないという企業がパートナーになりうると感じています。私達は日本人の会話を長年研究し、シーマンを通して培った知見を活かし、口語での会話を熟知したシステムを提供したいと考えています。

編集部

なるほど。シーマン研究所の日本語会話システムのもうひとつの役割とはなんでしょうか。

斎藤

もうひとつは、相づちを打ったり、受け返の言葉を返したりするような、バックエンドの人工知能システムやビッグデータでは、決して答えが返って来ない会話にローカルで対応することです。
質疑応答システムを例にしましたが、ヒトとの会話は質問や命令だけではなく、「今日ふられちゃったよ」とか「やる気なくすよな」と言った回答のないものもたくさんあります。しかし「今日ふられちゃったよ」と言えば「またかよ、今年に入って何度目だよ」とか「やる気なくすよな」と言えば「どうしたの? 会社でなにかあったの?」など、ヒトは受け返す言葉を期待して話すこともあります。質疑応答システムでは正解のないものは返せませんが、私達の日本語音声会話システムがそこも担当します。相づちをうったり、受け返しながら、ただ聞いてあげることでも、親和性を高めてエンタテインメントに近付くものになると思っています。相談する相手はヒトにとってとても重要で親しみやすい存在たりえますから。

編集部

そこでも、シーマン開発のときの研究が役立つわけですね。

日本語の会話に文法は使えない、だから自分でつくっている

斎藤

人間が人間らしく自然にしゃべった日本語を、コンピュータが理解するのは実はとても難しいんです。
例えば、料理の話をしているときには「食べた」という言葉が出てきますよね。でも「口にした」とか「食った」と言う人もいます。どれも同じことを言っているんだということをコンピュータに理解させるためには、それらの単語をコンピュータに登録して紐付ければいいと思うかもしれませんが、日常の会話では「食ってみた」「食っちゃった」「食いまくった」「食っちまえ」「食おうかなと思って」など活用と表現の方法が膨大に増えます。「食べた」という言葉だけでもこれだけたくさんあるのですから、とてもすべての言葉を登録して紐付けすることはできません。

編集部

ロボットやコンピュータと会話するときは、人間側が機械に自分の意思を理解してもらいやすいように言葉を選んで、気を遣って話すことを強いられている。それが実状ですね。

斎藤

この課題を解決する方法は、日本語の文法にとらわれないようにすることです。
日本語の文法は学校で習いますが、会話にはその文法はあてはまらないという観点から、「日本語に文法はない」という仮説を立てて考え直した結果、「自分なりに会話の文法を作るしかないな」という結論に至りました。その研究と作業を以前からやってきて、ようやくその新しい文法の片鱗が見えてきました。その文法に沿って開発すれば日本語会話の人工知能が可能になるかもしれないと。

編集部

今年の9月に、シーマン人工知能研究所は九州大学と「メロディ言語認識」の完成を目指して「会話型AIのための新口語文法体系」の完成に向けて共同研究をスタートしたと発表しましたが、その件も文法作りに関係しているのですね。

斎藤

はい。新しい文法の片鱗が見えてきた頃、友人から「九州大学に日本語文法の権威の先生がいるから、そこまでできたのなら一度評価を受けてみたらどうだ?」と言われ、首を洗って(笑)九州大学を訪ねてみました。”バカヤロウ、日本語なめてんのか”って怒られるかもしれないと内心ビクビクしながらお会いしたんですね(笑)。

そうしたら「いいですね、これ。これからはまさにこれですよ！」と言われて、自分が今までやってきたことは、学術的視点から見ても間違いではなかったんだと、ホッと胸を撫で下ろしました。さらに「言語学的にも大きな進歩に繋がるのではないか」と言って頂き、共同研究を一緒に行うことになったんです。

「会話はテキストだけで成立していない」メロディ認識とはなにか

編集部

「メロディ認識」とはどんなものなのでしょうか?

斎藤

業界では「ピッチ認識」と呼ばれるものに近いのですが、「メロディ認識」は”メロディを文法に当てはめるとメロディが意味に変わってくる”という点で異なります。私達の会話の中では交わしているヒトの感情を推測するのにアクセントやピッチがとても大切なのは承知の通りです。
もし仮に、父親の前に娘が彼氏を連れてきて「結婚したいの・・」と言ったときに、父親が跳ねるように明るく「結婚?」と答えるのと、がなり立てるような声で「結婚?」と答えるのでは、テキストは同じでも伝わり方がまるで異なりますし、それが言葉の代わりにもなります。
言葉の代わりになる重要なものは他に「目線」がありますよね。ヒトは会話している相手の目線を見て、感情を推しはかりますよね。「わかりました」といって下を向けば、”あぁ、本当はやりたくないんだな”と推測します。

編集部

感情認識の技術を使ったりしていますね

斎藤

目線は感情だけではなく、会話を補完する力を持っているんです。その会話の主語や目的語を目線で相手に伝えることができるし、日常から誰でもそれをやっているんです。例えば、「いくら?」と聞かれたとき、”相手は目線の先にあるこの商品の値段を聞いているんだな”とか、「いい色だな」と言って相手が果物を見ていたら”この果物が熟れていることを言っているんだな”とわかります。会話では当たり前のように目線が主語を補完しているんです。
ヒトの会話とは、決してテキストや文法が中心に構成されているのではなく、メロディや目線、仕草も大きな要素になって構成されているということなんです。

編集部

なるほど、理解できました。新しい会話システムでは形態素解析だけでなく、メロディ解析や画像解析も複合的に行い、精度を上げていくということですね

斎藤

そうです。技術的には顔認識システムを使って目線を捉え、その先にあるものを会話解析の要素に加えるという発想です。今まで、会話と顔認識は別の技術として捉えられてきましたが、これからは技術的にも、用途においても、融合してくると考えています。

日本語会話の未来を作るメンバーを募集

斎藤氏によれば、新しい日本語会話システムは来年の春を目指してアルファ版を開発中であり、目処は立っていると言う。そこから1年2ヶ月をかけてブラッシュアップし、実際のサービスとして公開する計画だ。

斎藤

なにせ、やるべきことがたくさんあって人手がたりません。テキストtoスピーチの会話技術やユーザーフレンドリーなピッチ認識を開発したい技術者の方々に手伝って欲しいと考えています。音声認識エンジンの技術を持っている方や企業の方は、ぜひ次世代のものを一緒に研究していきましょう。システム設計のエンジニアも募集中です。兼業やボランティアでも構わないので、有志のエンジニアの方、一緒に研究していきたいという企業の方にはぜひ手を挙げて欲しいと思っています。

斎藤

実は、私達が開発する会話システムはベンダーやメーカーには0円で提供することも視野に入れています。

編集部

えっ!? それではビジネスになりませんよね

斎藤

今の時代、お金のことは後で考えればいいと思っています。今まで日本語が下手だった高精度な質疑応答システムが、私達の日本語会話システムを導入することで自然な会話ができるようになり、その結果、多くのユーザに広く活用されれば、それはそれで大きな社会貢献になります。そのときビジネスにならなくても、多くのユーザーに使ってもらうことで、私達のシステム内に会話のビッグデータが蓄積され、それが次の日本語研究の糧となれば、それがまた強みになっていくでしょう。

首尾よくリリースされた以降の世界を想像してみる。
世の中にあるロボットやスマートスピーカー、質疑応答システムなどを筆頭に、あらゆる種類のしゃべる機械たちが、人間の言ったことをもっと正確に聞き取り、理解し、ヒトの愚痴やぼやき、相談にも耳を傾けてくれる存在になっていれば、彼ら(機械)は本当の意味でヒトに寄り添う存在になっていることだろう。

斎藤

今までゲームをはじめとして「作品」と呼ばれるものはたくさん作ってきました。しかし、今回のこれは、生意気なようですが自分ではある種、公共的なインフラとなるツールを作っているような気持ちでいます。作品は「The END」のテロップが表示された瞬間にそこで完結しますが、インフラは未来に受け継がれて進化し、シーマン人工知能研究所という名前もしかるべき別の名前に変わっていくのでしょう。
願わくば、当たり前のように日本人と機械が日本語会話文法を使ってコミュニケーションしている社会がになっている将来、振り返って「あのときのシーマン人工知能研究所がすべてのはじまりだった」と、私達のことを思い出してくれたら嬉しいなぁ、とは思っています。

斎藤由多加氏プロフィール
1962年東京生まれ。オープンブック株式会社代表取締役/ゲームデザイナー。代表作は「ザ・タワー」「シーマン～禁断のペット～」「大玉」「エアポーター」など。文化庁メディア芸術祭特別賞など受賞多数。著書に『ハンバーガーを待つ3分の値段』（幻冬舎刊）『マッキントッシュ伝説』（オープンブック刊）『指名される技術』堀江貴文氏との共著（ゴマブックス刊）など多数。