はじめに
NHocrを試したがあまり納得いかなかったので、今度はtesseract-ocrに手をつけてみることにした。Googleから提供されているなら相当凄い可能性があると期待して。
インストール
READMEを見ながらやったのだが、最新は3.0系のようなので下の方までスクロールして見ること。上の方に書いてあるのは2.X系のものなので注意。
必要なライブラリをインストールする。
yum install libpng-devel yum install libjpeg-devel yum install libtiff-devel yum install zlib-devel
また、leptonicaも一緒に入れろと言われるのだが、無くても問題なかった。一応入れてはある。一般的なインストール方法と同じでダウンロードしたtarを展開した後
./configure make make install
で良い。tesseract-ocrも同様に何のオプションも無くインストールできる。
試してみる
以下のような要領で使う。
tesseract test.tiff test.txt -l jpn
これだと、言語データが無いとメッセージが出て、言語データを探っているパスがわかるのでそこへ言語データをコピーもしくはシンボリックリンクでもするのが良いだろう。環境変数で指定する方法もある。詳しくはREADME参照。
日本語の言語データをダウンロードページから落とし、解凍して配置する。再度コマンドを入力するとtest.txt.txt(なぜ?)というファイルの中に解析した文字列がUTF8で出力された。
NHocrと同じデータをtiffに変換して試したが、やはり数字には弱い様子。380がSS0と認識されていた。うーむ。
おしまいに
とりあえず二種類のOCRソフトをインストールできたので、少し弄って感覚を見ることにする。数字はできれば正確であって欲しいものだが、なかなか難しい。調整の方法を学べばどうにかなるだろうか。これ以上は熟読してやらねば難しいだろう。