凸版印刷、江戸期以前のくずし字を 高精度でテキストデータ化する新方式OCR技術を開発

2015年7月4日 04:09

印刷

「源氏物語」(絵入本,国文研所蔵)のOCRによるテキストデータ化(凸版印刷の発表資料より)

「源氏物語」(絵入本,国文研所蔵)のOCRによるテキストデータ化(凸版印刷の発表資料より)[写真拡大]

 凸版印刷は3日、江戸期以前のくずし字で記されている古典籍(内容・形態の優れた古い書物)の文字を判別し、テキストデータ化するOCR(光学文字認識)技術を開発したと発表した。同技術によるサービスを、今年夏より試験的に提供開始する予定。

 同社は2013年からさまざまな書籍を高い精度でテキストデータ化する「高精度全文テキスト化サービス」を提供している。このサービスで確立したテキストデータ化技術のシステム基盤をベースに、はこだて未来大学(北海道函館市)の寺沢憲吾准教授が開発した「文書画像検索システム」と組み合わせることで、くずし字で記されている古典籍のOCR処理を実現した。

 同技術開発に際して、2014年度に実施した原理検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することに成功し、効率のよいテキストデータ化が可能であることを実証した。原理検証実験を行う上で、人間文化研究機構国文学研究資料館の古典籍共同研究事業センターとともに課題整理と検討を重ね、古典籍の選定に関する助言、および所蔵する古典籍の画像とテキスト情報の提供を受けた。

 近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められている。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた。

 同社の技術を使えば、専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能となる。また、テキストデータを、PDFなどさまざまなデータ形式へ変換し、利活用することも可能となる。(記事:町田光・記事一覧を見る

関連記事