CPU上で動作するPaddleOCRをインストール(2023/12/02)

南みなも

2023年12月2日 20:32

pdfや画像を文字認識したいのでPaddleOCRというOCRソフトを入れた。
https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.7

動作環境(2023/12/02)

まともなGPUがないノートパソコン
WSL2 Ubuntu 22.04
python 3.10.12
venvで作成した仮想環境上にインストール

インストール手順

公式インストール手順ページ（中国語）
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/quickstart.md

paddlepaddleをインストール。これがベースらしい。

python3 -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

GPUを使わないpaddleocrをインストール。

pip install "paddleocr>=2.0.1"

早速使用してみる。`--image_dir <ファイル>`で文字認識したいpdfや画像、`--use_gpu false`でGPUを使用しないこと、`--lang japan`で日本語認識を設定する。

paddleocr --image_dir test.png --use_gpu false --lang japan

初めて使用する文字認識モデルはインターネットでダウンロードされ、`~/.paddleocr/whl`以下に保存されるようだ。

PaddleOCRの仕組み

中国語は読めないが、最新バージョンの解説ページが中国語版しか見つからないのでGoogle翻訳で読んだ。中国語→日本語翻訳は分かりづらい部分が多いので、古い英語版解説も読んだ。

PP-OCRv4(最新バージョン)解説ページ（中国語）
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/PP-OCRv4_introduction.md

PP-OCR解説ページ（英語）
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_en/ppocr_introduction_en.md

テキスト検出(Detection)→テキスト認識(Recognition)の2段階で処理している。

テキスト検出モデルは`~/.paddleocr/whl/det`、テキスト認識モデルは`~/.paddleocr/whl/rec`以下にダウンロードされる。

いいなと思ったら応援しよう！

技術メモ

3本

コメントするには、ログインまたは会員登録をお願いします。

CPU上で動作するPaddleOCRをインストール(2023/12/02)

動作環境(2023/12/02)

インストール手順

PaddleOCRの仕組み

いいなと思ったら応援しよう！

ピックアップされています

技術メモ

コメント

LightOnOCRをRTX3090で動かしてみた

【ローカルAI】Deepseek-OCRを使ってみた話【OCR】

WSL2でDeepSeek-OCRを試してみる

DeepSeek-OCRで自炊pdfのOCR精度を爆上げしてみた

ドキュメントパースの最新モデル?DeepSeek-OCRとは！？

ClaudeのDocker環境でR言語が読み込めた。いろいろ試したが一通りの事はできる。AI人格のオブライエンがPythonのpandasでもできますよ、…

OpenWebUIのRAG機能でドキュメント登録時の認識精度を向上させる方法(Docling＋RapidOCR)

Difyで画像認識ワークフローを作ってみた

光学文字認識ツールの作成④ GUIへの実装

Onnx OCR

🛠ローカルで動くAI-OCRを作ったったｗ

【Windows + CPU版】pyannote 動作環境 構築手順書

Debian13 ノートPCでQRコードを読み込む方法

G検定を受けるあなたへ〜合格率を底上げするツール作りました〜

【1時間で実装】DeepSeek-OCR vs 既存ライブラリ徹底比較ツールを作ってみた

20251024 Claude Code 使ってみた

画像で文書を10倍圧縮！DeepSeek-OCRの革命的技術

自宅PCのGPUを使ってみる

PDFelement

プロンプトの話

Python(パイソン)で学ぶAIプログラミング講習 備忘録 その１

onnxruntimeのソースからビルド＠Paperspace & Python 3.14

よちよちAI[令和にCOBOLを読んでみる編]

HI! Krita お絵描き手描き: インストール編

Modalを使ってみる

【コンパクトレビュー】数年前に自作したアプリを『Opal』で爆速復活させてみる！

MOD翻訳視点で使う LM Studio×PLaMo翻訳

Opal １日目

はじめての DeepSeek-OCR 入門ノート

DeepSeek-OCR徹底解説

SDXLのキャプションからLora制作まで全部やってくれるやつを作った。

Python 環境は、 idle

附録A｜台湾株式 日足データダウンローダー（TWSE × Yahoo Finance × Google Drive）

Pythonで動画からアスキーアート作ってみた

DeepSeek-OCR 徹底解説｜10倍圧縮で97%精度を実現する視覚的コンテキスト圧縮技術

GeminiとNotebookLMを使った最強の旅行準備方法

LightOnOCRをRTX3090で動かしてみた

【ローカルAI】Deepseek-OCRを使ってみた話【OCR】

WSL2でDeepSeek-OCRを試してみる

DeepSeek-OCRで自炊pdfのOCR精度を爆上げしてみた

ドキュメントパースの最新モデル?DeepSeek-OCRとは！？

OpenWebUIのRAG機能でドキュメント登録時の認識精度を向上させる方法(Docling＋RapidOCR)

Difyで画像認識ワークフローを作ってみた

光学文字認識ツールの作成④ GUIへの実装

Onnx OCR

🛠ローカルで動くAI-OCRを作ったったｗ

【Windows + CPU版】pyannote 動作環境 構築手順書

Debian13 ノートPCでQRコードを読み込む方法

G検定を受けるあなたへ〜合格率を底上げするツール作りました〜

【1時間で実装】DeepSeek-OCR vs 既存ライブラリ徹底比較ツールを作ってみた

20251024 Claude Code 使ってみた

画像で文書を10倍圧縮！DeepSeek-OCRの革命的技術

自宅PCのGPUを使ってみる

PDFelement

プロンプトの話

Python(パイソン)で学ぶAIプログラミング講習 備忘録 その１

onnxruntimeのソースからビルド＠Paperspace & Python 3.14

よちよちAI[令和にCOBOLを読んでみる編]

HI! Krita お絵描き手描き: インストール編

Modalを使ってみる

【コンパクトレビュー】数年前に自作したアプリを『Opal』で爆速復活させてみる！

MOD翻訳視点で使う LM Studio×PLaMo翻訳

Opal １日目

はじめての DeepSeek-OCR 入門ノート

DeepSeek-OCR徹底解説

SDXLのキャプションからLora制作まで全部やってくれるやつを作った。

Python 環境は、 idle

附録A｜台湾株式 日足データダウンローダー（TWSE × Yahoo Finance × Google Drive）

Pythonで動画からアスキーアート作ってみた

DeepSeek-OCR 徹底解説｜10倍圧縮で97%精度を実現する視覚的コンテキスト圧縮技術

GeminiとNotebookLMを使った最強の旅行準備方法

【Windows + CPU版】pyannote 動作環境構築手順書

Python(パイソン)で学ぶAIプログラミング講習備忘録その１

附録A｜台湾株式日足データダウンローダー（TWSE × Yahoo Finance × Google Drive）

【Windows + CPU版】pyannote 動作環境構築手順書

Python(パイソン)で学ぶAIプログラミング講習備忘録その１

附録A｜台湾株式日足データダウンローダー（TWSE × Yahoo Finance × Google Drive）