CPU上で動作するPaddleOCRをインストール(2023/12/02)
pdfや画像を文字認識したいのでPaddleOCRというOCRソフトを入れた。
https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.7
動作環境(2023/12/02)
まともなGPUがないノートパソコン
WSL2 Ubuntu 22.04
python 3.10.12
venvで作成した仮想環境上にインストール
インストール手順
公式インストール手順ページ(中国語)
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/quickstart.md
paddlepaddleをインストール。これがベースらしい。
python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simpleGPUを使わないpaddleocrをインストール。
pip install "paddleocr>=2.0.1"早速使用してみる。`--image_dir <ファイル>`で文字認識したいpdfや画像、`--use_gpu false`でGPUを使用しないこと、`--lang japan`で日本語認識を設定する。
paddleocr --image_dir test.png --use_gpu false --lang japan初めて使用する文字認識モデルはインターネットでダウンロードされ、`~/.paddleocr/whl`以下に保存されるようだ。
PaddleOCRの仕組み
中国語は読めないが、最新バージョンの解説ページが中国語版しか見つからないのでGoogle翻訳で読んだ。中国語→日本語翻訳は分かりづらい部分が多いので、古い英語版解説も読んだ。
PP-OCRv4(最新バージョン)解説ページ(中国語)
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/PP-OCRv4_introduction.md
PP-OCR解説ページ(英語)
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_en/ppocr_introduction_en.md
テキスト検出(Detection)→テキスト認識(Recognition)の2段階で処理している。
テキスト検出モデルは`~/.paddleocr/whl/det`、テキスト認識モデルは`~/.paddleocr/whl/rec`以下にダウンロードされる。



コメント