情報システムのトピックス-PR-
止まらないOCRの進化、江戸時代のくずし字攻略が目の前に
約2カ月前、あるニュースに目が釘付けになった。凸版印刷が、江戸時代以前のくずし字を自動解読し、テキストデータ化する「くずし字OCR」なる技術を開発した、というのだ。多くの人にとっては日常的なニュースの一つかもしれない。しかし、大学時代に日本史を専攻・研究していた筆者にとっては驚くべき事態だ。
くずし字は、そう簡単に読めるものではない。少なくとも筆者はマスターできなかった。いくらテクノロジーの進化が日進月歩とはいえ、OCRで自動解読できるとは、にわかに信じがたいことだ。真相を探るべく、凸版印刷に向かった。出迎えてくれたのは、同社情報コミュニケーション事業本部の大澤留次郎氏と山本純子氏だ(写真)。
文字の区切りを判別するのは困難
既に3回も“くずし字”という言葉を使ってしまったが、そもそもくずし字とは何かというと、明治時代以前の人々が使っていた書体の一種だ。山本氏が開いている本に並んでいるのがくずし字で、まぎれもない日本語だ。多くの古文書や古典籍が、こうしたくずし字で書かれている。
1文字だけ抜き出してみても読むのが難しい。百聞は一見にしかず。下の青枠で囲った文字をご覧いただきたい(図1)。ひらがななのだが読めるだろうか。ちなみに大澤氏によると「初級問題」らしい。
連載新着記事一覧へ >>
- ウーバーは「イキイキシニア」を量産するか (2016/06/16)
- 手を動かさないと始まらないが動かすだけでは行き詰まる (2016/06/15)
- ビッグデータ/IoT/AIが国際政治の表舞台に立った日 (2016/06/14)
- Windows 10へ安全にアップグレードする (2016/06/13)