ドコモと日テレがニュース記事を要約する自動化システムを開発 メリットが異なる生成式と抽出式を用意 ドコモオープンハウスで展示(3)

日本テレビ放送網とNTTドコモは、AIを活用したニュース記事の自動要約システムの実用化をめざす実証実験を行い、WEB用ニュース記事の要約作業を自動化するシステムのプロトタイプを開発したことを発表した。このシステムは1月23~24日に開催されるNTTドコモ主催のイベント「DOCOMO Open House 2020」(ドコモオープンハウス2020)でデモ展示されている。

要約(サマリー)には手法の異なる「抽出式要約システム」と「生成式要約システム」の2つが用意されている。「抽出式」はニュース全文から重要な部分をそのまま抜き出す方式。一方の「生成式」はニュース全文からAIが要点を判断して短い文章を作成する方式。後者はサマリーとして魅力的なものになるが、AIが文章を作成するため、システムが生成した文章のため破綻する可能性がデメリットとしてある。

抽出式のデモ。文章をそのまま抜き出すので正確

生成式のデモ。要所をピックアップして文章をAIが生成する。文章の破綻がないか確認が必要

どちらも要約の文字数を指定することができる(冒頭の写真)。今後実用化をめざし、日本テレビ内にて現場担当者による事前の性能テストを行う。


日本テレビが大量に保有する記事データを学習させプロトタイプを開発

ドコモは2016年より、AIを活用した同システムの研究開発に着手しており、文章の中から重要度の高い文章をAIが判定して抜粋したり、AIが言葉を補いながら新たに文を生成して要約したりする自動要約システムを作成していた。

■自動要約システムはNTTドコモ北京研究所のDNNにより実現
システムの基盤となる技術には、NTTドコモ北京研究所の自動要約技術を用いている。自動要約技術は、北京研がAI技術を用いて独自に開発したニューラルネットワーク(DNN:Deep Neural Networks)により実現されており、既存技術と比較して重要情報の網羅性を高めただけでなく、必要な接続詞などを選択・生成することにより読みやすい文章を生成できる。

両者は2018年9月から、日本テレビが大量に保有する20万件近い過去記事データと人が要約したデータセットを自動要約システムに学習させ、要約の精度向上に取り組むとともに、2019年5月から開始した実証実験では、本システムの機能拡充やインターフェースの実装を行い、現場で使用するためのWEBアプリケーション型のプロトタイプを開発した。

今回の機能拡充においては、日本テレビの原稿制作ノウハウをルールベースで実装するとともに、タイトルに含まれる単語やユーザーが指定した任意の単語の重要度を向上させ要約結果に反映する機能や、要約後の単語が要約前文章のどの部分で出現しているかをトレースできる機能など、現場の声を反映したアイデアを追加実装している。

なお、実証実験で開発したプロトタイプは、2020年1月23日(木)~24日(金)に開催するドコモのイベント「DOCOMO Open House 2020」のAI展示ブースにて、実際にデモを体感できる。両社は今後現場での検証を通じてさらなる要約精度の向上を図り、同システムの実用化を目指していく。


抽出式と生成式

日本テレビが運営するニュース専門サイト「日テレNEWS24」では、最新のニュースを動画とニュース原稿(全文記事と要約記事)で配信しており、特に要約記事をサイト上に表示することにより読者にニュース概要を分かりやすく伝えている。一方で、このニュース記事の要約作業には人手による要約の手間が発生している。また、要約作業には熟練したスキルが必要であるため、スタッフの育成に一定期間の研修が必要で、人員の確保も課題となっている。

WEB用ニュース記事の要約作業を自動化するシステムは、要約手法の異なる「抽出式要約システム」と「生成式要約システム」の2つの自動要約システムに大別され、各々についてプロトタイプを開発。

■抽出式要約システム
抽出式では、全文原稿から重要度の高い文を抜き出して要約する。


<基本機能>
・ AIを用いた文書要約機能
・ 要約元の全文原稿から、文単位でそのまま文章を抽出し、要約結果として表示

●ヒントありの抽出式自動要約
この抽出式要約システムに追加機能を搭載したのが、ヒントありの抽出式自動要約。人間が全文テキストの中から任意の重要部分を選択した場合、その重要部分が含まれる文を優先的に抽出することで、重要部分が必ず要約テキストに含まれるようにする。


<追加機能>
・ 要約元原稿のニュース記事のタイトルやユーザーが指定した任意の単語を重要語として
判定し、要約結果に反映する機能
・ 要約結果が要約元原稿のどの文章から抽出されたのかをトレースする機能
・ あらかじめ設定した上限文字数内で要約を生成する機能

■生成式要約システム
生成式では、全文原稿からの抽出だけでなく、言葉を補いながら新たに文を生成して要約する。


<基本機能>
・ AIを用いた文書要約機能
・ 要約元の全文原稿を参考に、重要な文を抜き出して新たな文書を生成

●ヒントありの生成式自動要約
この機能に機能を追加したのがヒントありの生成式自動要約。人間が全文テキストの中から任意の重要部分を選択した場合、その重要部分に含まれる単語が必ず要約テキストに含まれるようにするとともに、その前後の文脈的に必要な部分の重要度を高め、結果的に要約文に含まれやすいようにする。


<追加機能>
・ 要約元原稿のニュース記事のタイトルやユーザーが指定した任意の単語を重要語として判
定し、要約結果に反映する機能
・ 要約結果が要約元原稿のどの文章から生成されたのかをトレースする機能
・ あらかじめ設定した上限文字数内で要約を生成する機能
・ 起承転結を考え、必要な接続詞などを選択・生成する機能
関連サイト
DOCOMO Open House 2020

ABOUT THE AUTHOR / 

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

PR

連載・コラム