情報システムのトピックス-PR-

記者の眼

日経コンピュータ

止まらないOCRの進化、江戸時代のくずし字攻略が目の前に

2015/09/08
岡部一詩＝日経コンピュータ（筆者執筆記事一覧）

記事一覧へ >>

ツイート

　約2カ月前、あるニュースに目が釘付けになった。凸版印刷が、江戸時代以前のくずし字を自動解読し、テキストデータ化する「くずし字OCR」なる技術を開発した、というのだ。多くの人にとっては日常的なニュースの一つかもしれない。しかし、大学時代に日本史を専攻・研究していた筆者にとっては驚くべき事態だ。

　くずし字は、そう簡単に読めるものではない。少なくとも筆者はマスターできなかった。いくらテクノロジーの進化が日進月歩とはいえ、OCRで自動解読できるとは、にわかに信じがたいことだ。真相を探るべく、凸版印刷に向かった。出迎えてくれたのは、同社情報コミュニケーション事業本部の大澤留次郎氏と山本純子氏だ（写真）。

写真●凸版印刷情報コミュニケーション事業本部の大澤留次郎氏（左）と山本純子氏

[画像のクリックで拡大表示]

文字の区切りを判別するのは困難

　既に3回も“くずし字”という言葉を使ってしまったが、そもそもくずし字とは何かというと、明治時代以前の人々が使っていた書体の一種だ。山本氏が開いている本に並んでいるのがくずし字で、まぎれもない日本語だ。多くの古文書や古典籍が、こうしたくずし字で書かれている。

　1文字だけ抜き出してみても読むのが難しい。百聞は一見にしかず。下の青枠で囲った文字をご覧いただきたい（図1）。ひらがななのだが読めるだろうか。ちなみに大澤氏によると「初級問題」らしい。

図1●くずし字の例

[画像のクリックで拡大表示]

昔習ったはずだが、筆者には分からなかった。正解は...

1 2 3 次ページ>>

次ページ以降はITpro会員(無料)の方のみお読みいただけます。
会員の方は、ログインしてご覧ください。
まだ会員でない方は、ぜひ登録（無料）していただき、ITproの豊富なコンテンツをご覧ください。

ツイート

連載新着記事一覧へ >>

今週のトピックス-PR-

今日のピックアップコンテンツ-PR-

>>もっと見る

ITpro Special

What's New!

>>もっと見る

▲ ページトップ

情報システムの最新記事>>一覧

いま読まれている記事

これからのIT投資術-PR-

ピックアップコンテンツ-PR-

>>もっと見る

ITpro Active 昨日読まれた記事

Focus

記事カテゴリ

イベントINFO -PR-

ITpro EXPO in 名古屋

最新号

特番/イベント

注目のセミナー

申込受付中！

IT法務リーダー養成講座
【6/10開催】

発注者視点で解説。システム開発・運用委託契約の注意点！システム関連裁判で実績のある凄腕弁護士が指南！

｜ITproについて｜会員登録・変更｜メルマガ登録｜アクセス履歴の利用について｜ITproへのお問い合わせ・ご意見｜広告について｜サイトマップ｜日経BP書店｜
｜著作権・リンクについて｜個人情報保護方針/ネットにおける情報収集/個人情報の共同利用について｜利用規約｜スマートフォン版について｜ID統合について｜

Copyright © 1995-2016 Nikkei Business Publications, Inc. All rights reserved.
このページに掲載されている記事・写真・図表などの無断転載を禁じます。著作権は日経BP社、またはその情報提供者に帰属します。
掲載している情報は、記事執筆時点のものです。