くずし字資料をスマートフォンで手軽に解析 凸版印刷が資料館・大学等と連携した実証実験を開始 2023年3月に正式リリース予定

凸版印刷株式会社はスマートフォンで撮影したくずし字資料を、その場で手軽に解読できるスマホアプリを開発したことを発表した。

同アプリケーションは一般利用者でもスマートフォンで撮影したくずし字資料をその場で手軽に解読できるサービス。木版を用いて印刷されたくずし字資料に対応したAI-OCRに加えて、新開発の手書きの古文書に対応したAI-OCRを搭載し、幅広い資料の解読を支援。資料館等での古文書の解読や調査業務の効率化をはじめ、一般利用者の「手元にある古文書の概要を知りたい」「くずし字を読めるようになりたい」といったニーズに対応する。

2022年9月より公益財団法人三井文庫、京都市歴史資料館、和洋女子大学などの協力のもと実証実験を開始。2023年1月にベータ版公開、3月に正式版の一般販売を予定している。


開発の背景

日本国内に数十億点以上残存すると推測されている古文書には循環型社会といわれる江戸時代の生活の様子や災害の記録といった現代の社会課題にも直結する情報、また、地域特有の祭事や料理など、観光資源の創出や地域の活性化にもつながる貴重な情報が記されている。しかし古文書のほとんどは「くずし字」で書かれているため現代人にとって判読が困難となってしまい、当時の記録・文献を活用する際の大きな障壁になっている。また、個人が所有している古文書は内容がわからないために破棄されるケースも多く、解読されないまま災害による損傷や紛失、焼失などのリスクにさらされた状態で各地に眠っている。

凸版印刷はこれらの課題を解決する新たな手法として、2015年より大学共同利用機関法人人間文化研究機構 国文学研究資料館との共同研究を開始し、以後、多数の研究機関等とくずし字OCR技術の開発・実証を重ねてきた。2017年にリリースした原本画像と解読テキストを重ねて表示できる「ふみのはビューア」、2021年にリリースしたオンラインくずし字解読支援システム「ふみのはゼミ」は慶應義塾大学、早稲田大学坪内博士記念演劇博物館、大正大学をはじめ、多くの研究機関や大学などで採用されている。

手書きの古文書対応AI-OCRは、公益財団法人三井文庫などの資料・データ提供協力の下、凸版印刷が独自に開発。また、「ふみのはゼミ」のリリース以降、「手元の古文書を手軽に読みたい」といった一般利用者向けのサービス提供について多数の要望から今回のアプリ開発に至った。

「ふみのは」サービス 全体像



想定される利活用のシーンとアプリケーションの特長

今回開発したアプリケーションは専門家はもちろん、専門知識がない人でも利用が可能。研究機関や資料館等においてくずし字資料の事前調査・目録作りに同アプリケーションを使用することで作業の効率化を図ることはもちろん、個人の所有する古文書の解読を支援することで貴重な歴史資料の破棄や散逸の防止にも貢献する。AI-OCRを使うことで、これまでくずし字を学習したことのない人の「手元にある古文書の概要を知りたい」「くずし字を読めるようになりたい」などのニーズに対応する。

想定される利活用のシーン



手書きと木版印刷物それぞれのくずし字資料に対応したAI-OCRエンジンを搭載

くずし字で書かれた資料は手書きのもの(書簡や証文、日記などの古文書)と木版を用いて印刷されたもの(版本や錦絵など)があり、それぞれ文字の形や使われている字種が異なる。同アプリケーションはそれぞれに対応した2種類のAI-OCRを搭載し、幅広い資料の解読を支援する。

新開発の古文書対応AI-OCRは解読率90%の精度を誇っている。(古文書対応AI-OCRは近世の代表的な書体である御家流で書かれた資料を中心として字形を学習している。精度90%は御家流で書かれた古文書に対してAI-OCRを使って解読した際の結果。)


AIにおまかせの「フルオートモード」さらに高精度な「1文字モード」

「フルオートモード」は画像の中にある文字領域を自動で検出し、つなげて書かれた文字の区切り位置も含めてAIがくずし字を解読する。さらに詳細に解読したい場合は「1文字モード」を使用することで、AIが提示する候補文字が表示される。「フルオートモード」より高精度かつ利用者が文脈に合った文字を選択しながら解読することが可能。解読モードやAI-OCRの切り替えは、大きく見やすいボタンによってパソコンやスマートフォンの操作に不慣れな人でも手軽な解読が可能。




今後の展開

同サービスは2022年9月より公益財団法人三井文庫、京都市歴史資料館、和洋女子大学、他と実証実験を開始するとともに、iOS版アプリは2023年1月にベータ版公開、3月に正式版をリリースしApp Store販売を予定している。2025年度までに、API提供や関連事業を含め、一般利用者をはじめ、教育機関、博物館・資料館、地方自治体などへ向けてサービス提供を拡大し、約3億円の売上を目指す。凸版印刷は同サービスをはじめ、全国各地に眠る貴重な歴史的資料の研究・活用の支援に継続して取り組んでいく。

<公益財団法人三井文庫 主任研究員 下向井 紀彦氏のコメント>
現在くずし字解読システム「ふみのは®ゼミ」を使用した史料翻刻会を行っています。翻刻会は、①史料画像の全ページに一気にAI-OCRをかけて仮翻刻させる、②それをもとにAIの誤読・未読の文字を参加者で埋めていく、③穴埋めした翻刻文を使って内容を読み込んでいく、というやり方で進めています。過去に開催した史料翻刻会では、参加者が①部分を担っていたため、本務を抱える中での翻刻作業は負担でした。今回AI-OCRで全文仮翻刻したため、参加者の作業を省力化でき文字修正と内容読解に注力することができました。

AI-OCRで、大量の史料の仮翻刻データをあっという間に作成できる意義は大きいと思います。例えば自治体史編さんや史料集刊行など、翻刻人材の不足している現場の負担軽減に寄与してくれるものと考えています。

他方、先日アプリの試作品に触れる機会を得ました。スマートフォン等のカメラで撮影した画像にAI-OCRをかけられるアプリで、保存しておいた画像に後からAI-OCRをかけることも可能です。出先での史料調査や史料リストの作成時に、史料の概要を把握する手助けになると思われます。また、調査現場で史料の撮影に専念して、後日OCRをかけて内容確認する、といったこともできそうです。取り回しの良いアシストツールとして、現場での作業の省力化に繋げられるものと期待しています。

ABOUT THE AUTHOR / 

山田 航也

横浜出身の1998年生まれ。現在はロボットスタートでアルバイトをしながらプログラムを学んでいる。好きなロボットは、AnkiやCOZMO、Sotaなどのコミュニケーションロボット。

PR

連載・コラム