2010年10月05日

Google提供のOCRエンジンtesseract-ocrが日本語に対応しているらしいのでインストール

はじめに

NHocrを試したがあまり納得いかなかったので、今度はtesseract-ocrに手をつけてみることにした。Googleから提供されているなら相当凄い可能性があると期待して。

インストール

READMEを見ながらやったのだが、最新は3.0系のようなので下の方までスクロールして見ること。上の方に書いてあるのは2.X系のものなので注意。

必要なライブラリをインストールする。

yum install libpng-devel
yum install libjpeg-devel
yum install libtiff-devel
yum install zlib-devel

また、leptonicaも一緒に入れろと言われるのだが、無くても問題なかった。一応入れてはある。一般的なインストール方法と同じでダウンロードしたtarを展開した後

./configure
make
make install

で良い。tesseract-ocrも同様に何のオプションも無くインストールできる。

試してみる

以下のような要領で使う。

tesseract test.tiff test.txt -l jpn

これだと、言語データが無いとメッセージが出て、言語データを探っているパスがわかるのでそこへ言語データをコピーもしくはシンボリックリンクでもするのが良いだろう。環境変数で指定する方法もある。詳しくはREADME参照。

日本語の言語データをダウンロードページから落とし、解凍して配置する。再度コマンドを入力するとtest.txt.txt(なぜ?)というファイルの中に解析した文字列がUTF8で出力された。

NHocrと同じデータをtiffに変換して試したが、やはり数字には弱い様子。380がSS0と認識されていた。うーむ。

おしまいに

とりあえず二種類のOCRソフトをインストールできたので、少し弄って感覚を見ることにする。数字はできれば正確であって欲しいものだが、なかなか難しい。調整の方法を学べばどうにかなるだろうか。これ以上は熟読してやらねば難しいだろう。

posted by ms2sato at 13:19 | Comment(0) | TrackBack(3) | ITの利用・活用 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/164757313
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック

タイミングに乗るのが大事らしい〜今月のアクセス分析〜
Excerpt: はじめに ようやっと月間3000PVが出せるようになった。ちょうど良いタイミングで多くの人が興味を持つ内容を書けたことも大きいと思う。実際に見た人の役に立ったのかどうかはわからないが、少なくとも人目に..
Weblog: 何かできるまでのとんでもなく遠回りな道のり
Tracked: 2010-12-01 00:59

はてブとtwitterはやはり凄い 〜 今月のアクセス分析 〜
Excerpt: はじめに 先月「月間5000PVいきたい」と書いていたのだが、月末時点では一歩及ばず。一瞬越えているのだが後半息切れしてしまった。山の部分はたまたま要素が大きいので定着した稼ぎ方がしたいと思う。 お..
Weblog: 何かできるまでのとんでもなく遠回りな道のり
Tracked: 2010-12-29 13:31

放置してもそれなり 〜今月のアクセス分析〜
Excerpt: はじめに あけましておめでとうございます。別に中国で暮らしていたりするわけでは無いのだが、新年一発目のブログが二月になってしまった。年末からここまでちょっと仕事が忙し過ぎてブログどころでは無かった為だ..
Weblog: 何かできるまでのとんでもなく遠回りな道のり
Tracked: 2011-02-04 01:13
gaAddons (Stephane Hamel) / CC BY-NC-ND 3.0