「シーマンの知見を活かして次世代の日本語会話AIをつくる」シーマン人工知能研究所・斎藤由多加氏インタビュー - (page 2)

日本語の会話に文法は使えない、だから自分でつくっている

斎藤

人間が人間らしく自然にしゃべった日本語を、コンピュータが理解するのは実はとても難しいんです。
例えば、料理の話をしているときには「食べた」という言葉が出てきますよね。でも「口にした」とか「食った」と言う人もいます。どれも同じことを言っているんだということをコンピュータに理解させるためには、それらの単語をコンピュータに登録して紐付ければいいと思うかもしれませんが、日常の会話では「食ってみた」「食っちゃった」「食いまくった」「食っちまえ」「食おうかなと思って」など活用と表現の方法が膨大に増えます。「食べた」という言葉だけでもこれだけたくさんあるのですから、とてもすべての言葉を登録して紐付けすることはできません。

編集部

ロボットやコンピュータと会話するときは、人間側が機械に自分の意思を理解してもらいやすいように言葉を選んで、気を遣って話すことを強いられている。それが実状ですね。

斎藤

この課題を解決する方法は、日本語の文法にとらわれないようにすることです。
日本語の文法は学校で習いますが、会話にはその文法はあてはまらないという観点から、「日本語に文法はない」という仮説を立てて考え直した結果、「自分なりに会話の文法を作るしかないな」という結論に至りました。その研究と作業を以前からやってきて、ようやくその新しい文法の片鱗が見えてきました。その文法に沿って開発すれば日本語会話の人工知能が可能になるかもしれないと。

斎藤

はい。新しい文法の片鱗が見えてきた頃、友人から「九州大学に日本語文法の権威の先生がいるから、そこまでできたのなら一度評価を受けてみたらどうだ?」と言われ、首を洗って(笑)九州大学を訪ねてみました。”バカヤロウ、日本語なめてんのか”って怒られるかもしれないと内心ビクビクしながらお会いしたんですね(笑)。


そうしたら「いいですね、これ。これからはまさにこれですよ!」と言われて、自分が今までやってきたことは、学術的視点から見ても間違いではなかったんだと、ホッと胸を撫で下ろしました。さらに「言語学的にも大きな進歩に繋がるのではないか」と言って頂き、共同研究を一緒に行うことになったんです。



「会話はテキストだけで成立していない」メロディ認識とはなにか

編集部

「メロディ認識」とはどんなものなのでしょうか?

斎藤

業界では「ピッチ認識」と呼ばれるものに近いのですが、「メロディ認識」は”メロディを文法に当てはめるとメロディが意味に変わってくる”という点で異なります。私達の会話の中では交わしているヒトの感情を推測するのにアクセントやピッチがとても大切なのは承知の通りです。
もし仮に、父親の前に娘が彼氏を連れてきて「結婚したいの・・」と言ったときに、父親が跳ねるように明るく「結婚?」と答えるのと、がなり立てるような声で「結婚?」と答えるのでは、テキストは同じでも伝わり方がまるで異なりますし、それが言葉の代わりにもなります。
言葉の代わりになる重要なものは他に「目線」がありますよね。ヒトは会話している相手の目線を見て、感情を推しはかりますよね。「わかりました」といって下を向けば、”あぁ、本当はやりたくないんだな”と推測します。

編集部

感情認識の技術を使ったりしていますね

斎藤

目線は感情だけではなく、会話を補完する力を持っているんです。その会話の主語や目的語を目線で相手に伝えることができるし、日常から誰でもそれをやっているんです。例えば、「いくら?」と聞かれたとき、”相手は目線の先にあるこの商品の値段を聞いているんだな”とか、「いい色だな」と言って相手が果物を見ていたら”この果物が熟れていることを言っているんだな”とわかります。会話では当たり前のように目線が主語を補完しているんです。
ヒトの会話とは、決してテキストや文法が中心に構成されているのではなく、メロディや目線、仕草も大きな要素になって構成されているということなんです。

編集部

なるほど、理解できました。新しい会話システムでは形態素解析だけでなく、メロディ解析や画像解析も複合的に行い、精度を上げていくということですね

斎藤

そうです。技術的には顔認識システムを使って目線を捉え、その先にあるものを会話解析の要素に加えるという発想です。今まで、会話と顔認識は別の技術として捉えられてきましたが、これからは技術的にも、用途においても、融合してくると考えています。


日本語会話の未来を作るメンバーを募集

斎藤氏によれば、新しい日本語会話システムは来年の春を目指してアルファ版を開発中であり、目処は立っていると言う。そこから1年2ヶ月をかけてブラッシュアップし、実際のサービスとして公開する計画だ。

斎藤

なにせ、やるべきことがたくさんあって人手がたりません。テキストtoスピーチの会話技術やユーザーフレンドリーなピッチ認識を開発したい技術者の方々に手伝って欲しいと考えています。音声認識エンジンの技術を持っている方や企業の方は、ぜひ次世代のものを一緒に研究していきましょう。システム設計のエンジニアも募集中です。兼業やボランティアでも構わないので、有志のエンジニアの方、一緒に研究していきたいという企業の方にはぜひ手を挙げて欲しいと思っています。

斎藤

実は、私達が開発する会話システムはベンダーやメーカーには0円で提供することも視野に入れています。

編集部

えっ!? それではビジネスになりませんよね

斎藤

今の時代、お金のことは後で考えればいいと思っています。今まで日本語が下手だった高精度な質疑応答システムが、私達の日本語会話システムを導入することで自然な会話ができるようになり、その結果、多くのユーザに広く活用されれば、それはそれで大きな社会貢献になります。そのときビジネスにならなくても、多くのユーザーに使ってもらうことで、私達のシステム内に会話のビッグデータが蓄積され、それが次の日本語研究の糧となれば、それがまた強みになっていくでしょう。



首尾よくリリースされた以降の世界を想像してみる。
世の中にあるロボットやスマートスピーカー、質疑応答システムなどを筆頭に、あらゆる種類のしゃべる機械たちが、人間の言ったことをもっと正確に聞き取り、理解し、ヒトの愚痴やぼやき、相談にも耳を傾けてくれる存在になっていれば、彼ら(機械)は本当の意味でヒトに寄り添う存在になっていることだろう。

斎藤

今までゲームをはじめとして「作品」と呼ばれるものはたくさん作ってきました。しかし、今回のこれは、生意気なようですが自分ではある種、公共的なインフラとなるツールを作っているような気持ちでいます。作品は「The END」のテロップが表示された瞬間にそこで完結しますが、インフラは未来に受け継がれて進化し、シーマン人工知能研究所という名前もしかるべき別の名前に変わっていくのでしょう。
願わくば、当たり前のように日本人と機械が日本語会話文法を使ってコミュニケーションしている社会がになっている将来、振り返って「あのときのシーマン人工知能研究所がすべてのはじまりだった」と、私達のことを思い出してくれたら嬉しいなぁ、とは思っています。


斎藤由多加氏 プロフィール
1962年東京生まれ。オープンブック株式会社代表取締役/ゲームデザイナー。代表作は「ザ・タワー」「シーマン ~禁断のペット~」「大玉」「エアポーター」など。文化庁メディア芸術祭特別賞など受賞多数。著書に『ハンバーガーを待つ3分の値段』(幻冬舎刊)『マッキントッシュ伝説』(オープンブック刊)『指名される技術』堀江貴文氏との共著(ゴマブックス刊)など多数。

ABOUT THE AUTHOR / 

神崎 洋治

神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。

PR

連載・コラム