(cache)GitHub - kotaro-kinoshita/yomitoku: YomiTokuはAIを活用した日本語文書解析エンジンを提供するPythonパッケージです。 Yomitoku is an AI-powered document image analysis package designed specifically for the Japanese language.

日本語版 | English

🌟 概要

YomiToku は日本語に特化した AI 文章画像解析エンジン(Document AI)です。画像内の文字の全文 OCR およびレイアウト解析機能を有しており、画像内の文字情報や図表を認識、抽出、変換します。

🤖 日本語データセットで学習した 4 種類(文字位置の検知、文字列認識、レイアウト解析、表の構造認識)の AI モデルを搭載しています。4 種類のモデルはすべて独自に学習されたモデルで日本語文書に対して、高精度に推論可能です。
🇯🇵 各モデルは日本語の文書画像に特化して学習されており、7000 文字を超える日本語文字の認識をサポート、手書き文字、縦書きなど日本語特有のレイアウト構造の文書画像の解析も可能です。（日本語以外にも英語の文書に対しても対応しています）。
📈 レイアウト解析、表の構造解析, 読み順推定機能により、文書画像のレイアウトの意味的構造を壊さずに情報を抽出することが可能です。
📄 多様な出力形式をサポートしています。html やマークダウン、json、csv のいずれかのフォーマットに変換可能です。また、文書内に含まれる図表、画像の抽出の出力も可能です。文書画像をサーチャブルPDFに変換する処理もサポートしています。
⚡ GPU 環境で高速に動作し、効率的に文書の文字起こし解析が可能です。また、VRAM も 8GB 以内で動作し、ハイエンドな GPU を用意する必要はありません。

🖼️ デモ

gallery.mdにも複数種類の画像の検証結果を掲載しています。

入力画像	OCR の結果

レイアウト解析の結果	エクスポート (HTML で出力したものをスクショ)

Markdown でエクスポートした結果は関してはリポジトリ内のstatic/out/in_demo_p1.mdを参照

赤枠 : 図、画像等の位置
緑枠 : 表領域全体の位置
ピンク枠 : 表のセル構造(セル上の文字は [行番号, 列番号] (rowspan x colspan)を表します)
青枠 : 段落、テキストグループ領域
赤矢印 : 読み順推定の結果

画像の出典:「令和 6 年版情報通信白書 3 章 2 節 AI の進化に伴い発展するテクノロジー」：（総務省）を加工して作成

📣 リリース情報

2025 年 11 月 5 日 YomiToku v0.10.1 CPU推論向けに最適化したGPU Free OCRモデルのサポート
2025 年 4 月 4 日 YomiToku v0.8.0 手書き文字認識のサポート
2024 年 11 月 26 日 YomiToku v0.5.1 (beta) を公開

💡 インストールの方法

pip install yomitoku

pytorch はご自身の CUDA のバージョンにあったものをインストールしてください。デフォルトでは CUDA12.4 以上に対応したものがインストールされます。
pytorch は 2.5 以上のバージョンに対応しています。その関係で CUDA11.8 以上のバージョンが必要になります。対応できない場合は、リポジトリ内の Dockerfile を利用してください。

🚀 実行方法

通常モデルでの推論

yomitoku ${path_data} -f md -o results -v --figure

軽量モデルでの推論 --liteオプションを使用してください。

yomitoku ${path_data} -f md --lite -d cpu -o results -v --figure

軽量モデルは１行あたり読み取り可能な最大文字列長が50文字の制限があります。英文や１行あたりの文字数が多い文書は通常モデルを使用することを推奨します。

${path_data} 解析対象の画像が含まれたディレクトリか画像ファイルのパスを直接して指定してください。ディレクトリを対象とした場合はディレクトリのサブディレクトリ内の画像も含めて処理を実行します。
-f, --format 出力形式のファイルフォーマットを指定します。(json, csv, html, md, pdf(searchable-pdf) をサポート)
-o, --outdir 出力先のディレクトリ名を指定します。存在しない場合は新規で作成されます。
-v, --vis を指定すると解析結果を可視化した画像を出力します。
-l, --lite を指定すると軽量モデルで推論を実行します。通常より高速に推論できますが、若干、精度が低下する可能性があります。
-d, --device モデルを実行するためのデバイスを指定します。gpu が利用できない場合は cpu で推論が実行されます。(デフォルト: cuda)
--ignore_line_break 画像の改行位置を無視して、段落内の文章を連結して返します。（デフォルト：画像通りの改行位置位置で改行します。）
--figure_letter 検出した図表に含まれる文字も出力ファイルにエクスポートします。
--figure 検出した図、画像を出力ファイルにエクスポートします。
--encoding エクスポートする出力ファイルの文字エンコーディングを指定します。サポートされていない文字コードが含まれる場合は、その文字を無視します。(utf-8, utf-8-sig, shift-jis, enc-jp, cp932)
--combine PDFを入力に与えたときに、複数ページが含まれる場合に、それらの予測結果を一つのファイルに統合してエクスポートします。
--ignore_meta 文章のheater, fotterなどの文字情報を出力ファイルに含めません。

その他のオプションに関しては、ヘルプを参照

yomitoku --help

NOTE

GPU での実行を推奨します。CPU を用いての推論向けに最適化されておらず、処理時間が長くなります。
Yomitoku は文書 OCR 向けに最適化されており、情景 OCR(看板など紙以外にプリントされた文字の読み取り)向けには最適化されていません。
AI-OCR の識別精度を高めるために、入力画像の解像度が重要です。低解像度画像では識別精度が低下します。最低でも画像の短辺を 720px 以上の画像で推論することをお勧めします。

📝 ドキュメント

パッケージの詳細はドキュメントを確認してください。

LICENSE

本リポジトリ内に格納されているソースコードおよび本プロジェクトに関連する HuggingFaceHub 上のモデルの重みファイルのライセンスは CC BY-NC-SA 4.0 に従います。非商用での個人利用、研究目的での利用はご自由にお使いください。商用目的での利用に関しては、別途、商用ライセンスを提供しますので、https://www.mlism.com/ にお問い合わせください。

Name	Name	Last commit message	Last commit date
Latest commit kotaro-kinoshita Merge pull request #175 from kotaro-kinoshita/docs/add-readme Nov 5, 2025 1a6f2dc · Nov 5, 2025 History 407 Commits
.github	.github	fix cli	Oct 15, 2025
configs	configs	fix export	Apr 2, 2025
demo	demo	fix	Jul 11, 2025
docs	docs	Merge pull request #162 from kotaro-kinoshita/feature/cli-page-filtering	Oct 15, 2025
schemas	schemas	add schema dcos	Jul 30, 2025
scripts	scripts	support cpu inference mode	Nov 5, 2025
src/yomitoku	src/yomitoku	support cpu inference mode	Nov 5, 2025
static	static	fix	May 16, 2025
tests	tests	Explicitly set file encoding to UTF-8 to prevent UnicodeDecodeError.	Sep 30, 2025
.gitignore	.gitignore	convert onnx	Dec 15, 2024
.pre-commit-config.yaml	.pre-commit-config.yaml	pre-commit	Nov 25, 2024
.python-version	.python-version	convert onnx	Dec 15, 2024
CHANGELOG.md	CHANGELOG.md	docs: update CHANGELOG	Aug 20, 2025
README.md	README.md	add readme	Nov 5, 2025
README_EN.md	README_EN.md	add readme	Nov 5, 2025
dockerfile	dockerfile	merge main	Nov 26, 2024
gallery.md	gallery.md	update models	Apr 3, 2025
mkdocs.yml	mkdocs.yml	add releasenote for docs	Jul 30, 2025
pyproject.toml	pyproject.toml	fix	Nov 2, 2025
pytest.ini	pytest.ini	add unittest	Nov 16, 2024
uv.lock	uv.lock	support cpu inference mode	Nov 5, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🌟 概要

🖼️ デモ

📣 リリース情報

💡 インストールの方法

🚀 実行方法

📝 ドキュメント

LICENSE

About

Releases 23

Sponsor this project

Packages

Contributors 4

Languages

kotaro-kinoshita/yomitoku

Folders and files

Latest commit

History

Repository files navigation

🌟 概要

🖼️ デモ

📣 リリース情報

💡 インストールの方法

🚀 実行方法

📝 ドキュメント

LICENSE

About

Topics

Resources

Stars

Watchers

Forks

Releases 23

Sponsor this project

Packages

Contributors 4

Languages