情報システムのトピックス-PR-

止まらないOCRの進化、江戸時代のくずし字攻略が目の前に

2015/09/08
岡部 一詩=日経コンピュータ (筆者執筆記事一覧

 約2カ月前、あるニュースに目が釘付けになった。凸版印刷が、江戸時代以前のくずし字を自動解読し、テキストデータ化する「くずし字OCR」なる技術を開発した、というのだ。多くの人にとっては日常的なニュースの一つかもしれない。しかし、大学時代に日本史を専攻・研究していた筆者にとっては驚くべき事態だ。

 くずし字は、そう簡単に読めるものではない。少なくとも筆者はマスターできなかった。いくらテクノロジーの進化が日進月歩とはいえ、OCRで自動解読できるとは、にわかに信じがたいことだ。真相を探るべく、凸版印刷に向かった。出迎えてくれたのは、同社情報コミュニケーション事業本部の大澤留次郎氏と山本純子氏だ(写真)。

写真●凸版印刷情報コミュニケーション事業本部の大澤留次郎氏(左)と山本純子氏
[画像のクリックで拡大表示]

文字の区切りを判別するのは困難

 既に3回も“くずし字”という言葉を使ってしまったが、そもそもくずし字とは何かというと、明治時代以前の人々が使っていた書体の一種だ。山本氏が開いている本に並んでいるのがくずし字で、まぎれもない日本語だ。多くの古文書や古典籍が、こうしたくずし字で書かれている。

 1文字だけ抜き出してみても読むのが難しい。百聞は一見にしかず。下の青枠で囲った文字をご覧いただきたい(図1)。ひらがななのだが読めるだろうか。ちなみに大澤氏によると「初級問題」らしい。

図1●くずし字の例
[画像のクリックで拡大表示]
昔習ったはずだが、筆者には分からなかった。正解は...
次ページ以降はITpro会員(無料)の方のみお読みいただけます。
会員の方は、 ログインしてご覧ください。
まだ会員でない方は、ぜひ登録(無料)していただき、ITproの豊富なコンテンツをご覧ください。

今週のトピックス-PR-

今日のピックアップコンテンツ-PR-

>>もっと見る

ITpro Special

>>もっと見る

▲ ページトップ

これからのIT投資術-PR-

ピックアップコンテンツ-PR-

>>もっと見る

日経コンピュータ Digital

ITpro partners

イベントINFO -PR-

ITpro EXPO in 名古屋

最新号

注目のセミナー

申込受付中!

IT法務リーダー養成講座
【6/10開催】

発注者視点で解説。システム開発・運用委託契約の注意点!システム関連裁判で実績のある凄腕弁護士が指南!