[Python] PDFファイルを画像ファイルに変換する

こはた

2022年1月29日 07:32

はじめに

今回は、Pythonで、PDFファイルをページごとに画像ファイルに変換する処理を実装します。

処理概要は、下記です。

コマンドラインで渡されたPDFファイルを、画像ファイルに変換
画像ファイルは、PDFファイルと同じフォルダに作成
画像ファイル名は、PDFファイル名の拡張子なしのベースネームに対し、ページ番号を2桁で付与
例：PDFファイル名：a.pdf　ページが2ページある場合、a_01.png、a_02.pngの2つの画像ファイルを作成

使用するライブラリ

pdf2image

PDFファイルを画像変換するライブラリとなります。なお、使用時にはインストールが必要です。

pip install pdf2image

また、pdf2imageライブラリは、内部でpopplerというPDFドキュメント閲覧用のライブラリを使用します。
popplerは、OSによってインストールの仕方が異なります。詳細は、下記の「How to install」をご参照ください。
今回は、windows10で動作させるため、popplerをPCへダウンロードして使用します。

popplerのダウンロード

ブラウザで、下記のURLへアクセスします。

Latest binaryの隣にある最新版をダウンロードします。

ダウンロードしてきたファイルの拡張子は、.7zとなっています。この拡張子.7zのファイルは、「7-Zip」という圧縮・展開ツールを使用して、ファイルを解凍（展開）できます。

次に、ダウンロードしてきたファイルを、適宜フォルダで解凍します。解凍すると、下記のようなフォルダ構成になります。

このbinフォルダのフルパスをコピーしてメモっておきます。

実行環境

・windows10
・Python 3.8.5

実装

全体の処理は、下記です。

import os
import sys
from pdf2image import convert_from_path

POPPLER_PATH = r"C:\xxxx\poppler\bin"

def main(file_path_list):
    for file_path in file_path_list:
        folder_name = os.path.dirname(file_path)
        pdf_file_name = os.path.basename(file_path)
        base_file_name = os.path.splitext(pdf_file_name)[0]

        # PDFをImageに変換
        pages = convert_from_path(file_path, poppler_path=POPPLER_PATH)

        # 1ページずつ画像ファイルとして保存する
        for i, page in enumerate(pages):
            image_f_name = f'{base_file_name}_{str(i).zfill(2)}.png'
            image_f_path = os.path.join(folder_name, image_f_name)
            page.save(image_f_path )

if __name__ == '__main__':
    args = sys.argv

    # 引数2つ目以降処理する
    main(args[1:])

順番に処理の内容を説明します。

①コマンドラインから渡されたファイル名を取得

args = sys.argv

sys.argvは、リスト型でコマンドラインから渡された引数が格納されます。リストの1番目は、実行ファイル名となるため、2番目以降をPDFファイルのパス名として処理を行います。

 def main(file_path_list):
    for file_path in file_path_list:

②PDFファイルパスから、フォルダ名、ファイル名、ベースネームを取得

PDFファイルのパス名より、フォルダ名を取得するには、os.path.dirnameメソッドを使用します。

folder_name = os.path.dirname(file_path)

次に、PDFファイルのパス名より、ファイル名を取得するには、os.path.basenameメソッドを使用します。

pdf_file_name = os.path.basename(file_path)

最後に、ファイル名から拡張子を除いたベースネーム名を取得するには、os.path.splitextメソッドを使用します。
os.path.splitextメソッドの戻り値は、リスト型となります。リストの1番目は拡張子なしのベースネーム、2番目は拡張子が取得できます。

base_file_name = os.path.splitext(pdf_file_name)[0]

③PDFファイルを画像オブジェクトに変換

convert_from_path関数を使用して、PDFファイルを画像オブジェクトに変換します。

convert_from_path関数で、先ほどダウンロードしたpopplerを使用するため、指定の方法が2つあります。

1．環境変数のPATHに、poppler\binのフォルダパスを追加する

2．convert_from_path関数のキーワード引数：poppler_pathにpoppler\binのフォルダパスを指定する

今回は、2つめの方法で指定しています。

pages = convert_from_path(file_path, poppler_path=POPPLER_PATH)

次に、convert_from_path関数の戻り値は、PDFファイルの1ページごとの画像オブジェクトとなっています。この画像オブジェクトは、PillowライブラリのImageオブジェクトです。
この画像オブジェクトを、ファイル名を指定して保存します。

       # 1ページずつ画像ファイルとして保存する
       for i, page in enumerate(pages):
            image_f_name = f'{base_file_name}_{str(i).zfill(2)}.png'
            image_f_path = os.path.join(folder_name, image_f_name)
            page.save(image_f_path)

なお、画像を保存するImage.saveメソッドは、保存されるファイルのフォーマットを、引数で指定されたファイル名の拡張子から自動的に判別します。
今回は、png形式で保存しています。

まとめ

今回は、Pythonで、PDFファイルをページごとに画像ファイルに変換する処理を実装しました。
PDFを画像に変換するには、有料のPDF編集ソフト、もしくはWebサイトのサービスを使用することになります。Pythonだと無料でツールを作ることができ、かつ保存するフォーマットやファイル名のルールも自分で決められるので、便利ですね。

参考サイト

いいなと思ったら応援しよう！

Python

34本

ログインまたは会員登録するとコメントできます。

[Python] PDFファイルを画像ファイルに変換する

はじめに

使用するライブラリ

pdf2image

popplerのダウンロード

実行環境

実装

①コマンドラインから渡されたファイル名を取得

②PDFファイルパスから、フォルダ名、ファイル名、ベースネームを取得

③PDFファイルを画像オブジェクトに変換

まとめ

参考サイト

いいなと思ったら応援しよう！

ピックアップされています

Python

コメント

[無料で使える]プロ写真家による写真レビューAIを作りました。

【開発からリリースまで4日間】 選挙ポスターマップ開発の舞台裏（技術編） #安野たかひろ

アクセシビリティについて本気出して勉強してみた

海外旅行でのネット接続はeSIMが便利！eSIM（Soracom Mobile）を台湾旅行で使ってみた

放送技術のセカイ～放送を届ける現場に編集部が潜入！～

LLMプロダクト開発者がMac Studioを買ってローカルLLMを触るべき理由

メンドクサイ表記の修正をchatGPTに依頼してみた

災害時のSNSの活用法｜防災アクションガイド

ニューヨークで働くAIサイエンティストの一日

2024年、激動のチューリングの開発を振り返る

【Excel】マニアも唸る、綺麗なドーナツグラフの作り方★

Snowflakeでデータリネージやってみた

OpenAI o1 の APIの使い方

「思考を整理する方法」を模索して辿り着いた先

【有能すぎ！？】Microsoft Copilot Designerを実際に使ってみた！

僕の自作ツールが大学のサーバーをダウンさせてしまった日の話

退職にあたって―『ある勇者との旅路』の物語―

カスタマイズなしで、Googleマップのリンクをkinotneに埋め込む方法を探した話 【標準機能 ＋ プラグイン】

「レシピ忘れ」のストレスから解放！LINEでお気に入りレシピを一括管理する方法

Webサイトで動画のエフェクトをいろいろ良い感じにごまかした話

前提知識不要！Google Cloudを使って15分で超高性能なAIチャットボットを構築する方法

クラシコム テクノロジーグループの働き方と私の環境 2023夏

【Zoom】Zoom IQフリートライアルやってみた

待望の国産SNS『mixi2』がリリース！できることや特徴を紹介します。

Notionカレンダー導入後7ヶ月の活用状況を語る

Power BIレポート作成までの５つステップ～ポケモン図鑑作ってみた～

検索結果に表示されない！？オウンドメディアをGoogleペナルティから守る方法

【ご報告】元編集者がnoteとスマホでKindle出版…できました！

【実例紹介】ライターのChatGPT活用法３選

手軽に実現する会話AI作成ガイド：①チャットボットを作成しよう！

ノーコードで開発したスカウト求人サイトが5ヶ月で会員1000名超えて黒字化してる話

GPT-4と様々なスライド構成を考える

Apple ScriptをGPT-4にサクッとつくってもらった件 文字列を SendTerminal

Snowflakeで「場合の数」の計算してみた

#134：Notionを使ってみた話。

Postmaster Tools APIを利用して迷惑メール報告率を監視したい

【開発からリリースまで4日間】選挙ポスターマップ開発の舞台裏（技術編） #安野たかひろ

カスタマイズなしで、Googleマップのリンクをkinotneに埋め込む方法を探した話【標準機能＋プラグイン】

クラシコムテクノロジーグループの働き方と私の環境 2023夏

Apple ScriptをGPT-4にサクッとつくってもらった件　文字列を SendTerminal