PDFの図面の一部を認識して、複数のPDF図面から類似の図面を探すというのをPythonで作りたいのですが、どういう形にしたらいいかわからないです。

Question

初心者OK！LINEヤフーのオンラインIT講座

IDでもっと便利に新規取得

登録情報を確認ログインアプリはじめて利用限定、お得な半額クーポン

回答受付が終了しました

mar********

mar********さん

2025/4/10 12:08

11回答

PDFの図面の一部を認識して、複数のPDF図面から類似の図面を探すというのをPythonで作りたいのですが、どういう形にしたらいいかわからないです。

プログラミング・154閲覧

回答（1件）

カテゴリQ&Aランキング

プログラミング

1

Grokの新機能Aniで遊んでいて話題のレベル5まで行ったのですが、衣装チェンジやスピンをお願いしても言葉で「じゃあ、想像してみて」と言われるだけで実際にはやってくれません。多分内部的にはやってる？と思うのですが、実際の画面には一切映らない状況です。(手とかバタバタはします)原因とか分かりませんか？(必要な情報があれば返信します)

2

チャットGPTとめちゃくちゃ会話してたらあなたは思考が深く鋭い。チャットGPTをただの検索ツールとしてではなく一緒に構築するパートナーとして考えているこの使い方は日本の中では30-50人ほどしかいなく、また個人でその粋まで到達できたレアケースです。っていわれたんですけど、チャットGPTって何を質問してもこのような回答をだすのでしょうか？

3

もう今の時代、プログラミングするのに、コンパイラだとかインタプリタだとかの区別は頭の隅に置いておかなくても良くなったのでしょうか？

4

Googlecolabを用いたTheLastBen/fast-stable-diffusionについて質問です。今朝上記プログラムを実行したところ下記のようなエラーメッセージが出ました。ModuleNotFoundError:Nomodulenamed'numpy.exceptions'こちらのエラーの解決方法を教えて頂けますでしょうな。（試したこと）$pip3installnumpyの実行TheLastBenを最新のものにして実行また帰宅してからGoogledriveのsdファイルを一度削除し、入れ直してみようと思っております。不足情報ありましたらアドバイス頂けますと幸いです。よろしく...

5

任天堂のプログラマー志望の高1です。あまりゴールへのルートが見えないのですが、高校生のうちにゲームを作っておいたりした方がいいですか？また、他にすべきことがあれば教えていただきたいです。

6

プログラム言語のコンパイラってどうやって作られるのですか？cpuやgpuの回路図を知っている技術者が回路図に基づきコンパイラを組むのですか？そして、回路図って一般に企業秘密ですか？

7

Pythonが全然できません。今日あった教科書と自分で作ったプログラムと授業PDF持ち込み可の実技のテストで１問も解けずに終わってしまい悔しかったです。後期の再履修が確定してしまいました。自分はマニュアル型の人間で教科書にそのやり方がないとできません。なので、習ったことを応用してこうすればできるというのが全くできません。また、エラーがでるとストレスが溜まってしまいやっているプログラムを放棄してしまいます。この影響でテスト中にできないと思ったらできないまま諦めて、途中まで書いて途中点をもらうことしかできませんでした。どうすればできるようになりますか？

8

【至急】急にChatGPTが使えなくなりました。履歴を読み込めなくなって、自分のアカウントのアイコンをタップしてもいつもの表示にならなくなってしまい、新しい質問もできない状態です。推しの口調に設定して、ちょっと際どいことを言いすぎちゃったせいかなと思うのですが、警告も何もなくいきなり全部ダメになりました。こういうことってあるんですか？

9

太鼓ウェブで自動でたたいてくれるツールを作ったんですがうまくいきません。Pythonを使って作っています、わかる人がいれば教えてください。コードhttps://github.com/af836/taiko

10

私はGeminiCliを使っているのですが、本日になって急に✕[APIError:APIkeyexpired.PleaserenewtheAPIkey.(Status:INVALID_ARGUMENT)]というエラーが頻発するようになり、うまく動作しなくなりました。何が原因なのか、解消するにはどうすればよいのかどなたか教えていただけませんか

あなたも答えてみませんか

古着屋800ってサイトをインスタで知ったんですけど店舗情報がなくてオンラインだけなんですか、？？

東広島市西条で個室もしくは半個室があるおしゃれなカフェを知りませんか？

英語？の歌で、てってーれーてっててってーれーてって(一回目より音階が上がってる) という感じのリズムの曲知りませんか？男性ボーカルの歌だった気がします。誰か教えてください( . .)&q...

iPadの純正メモにApple Pencilで書こうとすると、たまにバグッてて、書けなくなっていて (ペン先で触れると勝手に縦直線が描かれるだけの繰り返しなど) 『何コレ!? iPad、ク...

大阪大学経済学部志望の高3です。英語の参考書について迷っています。二次対策に入る際、The rules英語長文問題集の3から始めるべきか、4から始めるべきかどちらがいいのでしょうか？共テ過...

1週間前にワインレッドに染めました。今日白い帽子を被ってしまって、汗をかいたので、カラー剤が染みちゃいましたもう取れませんか？ちなみにすぐ水洗いできる状況じゃありません

第5人格調香師って現環境的にどうですか？私は調香師ピックでチェイスも安定的で大体のハンターには60s以上は基本的に持ちます。（隠者やフラバルー、アイヴィーは例外）しかし、野良の人たちには結...

岡田麿里の最新作がきたない君がいちばんかわいいのアニメ映画版に決定！皆さんはこれは勝ったなと思うか否か、どうでしょうか？自分はドロドロ×ドロドロの組み合わせで最強ではないかと思ってますが。

つむじハゲについて質問です。19歳男です。最近シャンプー中の抜け毛や頭皮の痒みに悩んでいます。母方の祖父はハゲだったのですが、私はすでにハゲが進行しているのでしょうか？回答いただければ幸いです。

仏手柑の食べ方について教えていただけますか？仏手柑はその形状からユニークな果物ですが、どのようにして食べるのが一番おいしいのでしょうか。果肉が少なく香りが強いと聞きますが、その特性を活かしたお...

総合Q&Aランキング

1

ジャングリア沖縄はなぜ大失敗してしまったのでしょうか？

2

ジャングリア沖縄って、本当に悪い施設なんですか？荒らされてるだけ？ネットやYouTubeで話題になってる口コミの件ですオープンしたばかりですが、沖縄を代表するし、国内最大規模の遊園地ですよね。たしか、USJを立て直した凄腕の人が社長だか、鳴り物入りでしたよね外国人向けのテーマパークだから...

3

今回のMrs. GREEN APPLEの騒音ライブ問題、確かに対策･謝罪しない運営側はおかしいし、近隣の方々が辛いというのに対して1部ファンがタダ聴きラッキーとかミセスを盲信的に擁護(なのかすらわからない)するのは最悪すぎます。でもそれにかこつけて、ミセスの「顔がキ〇イ」等といった誹謗中傷をしてし...

4

ミセスは騒音の件で少し人気が下がると思いますか？

5

高校野球甲子園2025 今年の夏の甲子園の強いとこ５強予想と優勝予想をお願いします。理由などもいただけると嬉しいです。皆さまのご意見、予想をよろしくお願い致します。横浜高校健大高崎東洋大姫路智弁和歌山浦和学院→相当嫌みかよ大阪桐蔭→西の関脇かよ、似合うけど。クラーク国際→負けたよ久々の東亜学園→川...

6

ミセスの騒音やばくないすか？

7

ユガミ警報ってなんですか？急にYouTubeのおすすめに出て、少し見ました。怖くなったので途中までしか見てないんですけど、ユガミ警報ってなんでしょうか？実在するものですか？知っている方教えてください！

8

木古おうみという作家さんが炎上しているらしいですが何故炎上したんですか。領怪神犯の1を読んだことあるだけで名前を知っていたので気になりました。

9

婚活アドバイザーの植草美幸さんですが、年齢はおいくつぐらいでしょうか？この方のアドバイスをどう思いますか？

10

鬼滅の刃の映画はどこまでやりますか？無限城編第一章猗窩座再来編の話です。よければ漫画の話数ではなく、映画で描写された全ての戦いをどこからどこまでって感じで教えて頂けるとありがたいです。よろしくお願いいたします。

カテゴリ一覧

コンピュータテクノロジー

OS

プログラミング

C言語関連

Java

PHP

Ruby

JavaScript

HTML、CSS

Visual Basic

アプリ開発

データベース

ネットワーク技術

セキュリティ

カテゴリ一覧を見る

LINEヤフーは、回答に記載された内容の信ぴょう性、正確性を保証しておりません。
お客様自身の責任と判断で、ご利用ください。

ログインボーナス0枚獲得！

回答投稿

質問内容

回答文

1文字以上入力してください

※一度に投稿できるURLは5つまでです

※氏名やメールアドレスなどの個人情報は入力しないでください

画像を追加

blindさん · Answer 1 · 2025-04-13T06:11:00.000Z

PDF類似図面検索 Python実装（要約） PythonでPDF図面の一部（テンプレート）を基に、複数PDFから類似図面を探す方法を説明。 1. システム概要 * 入力: テンプレート画像、検索対象PDFフォルダ * 処理: * 画像抽出: 各PDFページを画像化 * 特徴量抽出: テンプレートと各図面画像から特徴（形状、模様等）を数値化 * 比較/類似度計算: 特徴量を比較し類似度スコアを算出 * ランク付け: スコア順にPDFを並び替え * 出力: 類似PDFリスト（ファイル名、スコア等） 2. 主要Pythonライブラリ * PyMuPDF (fitz): 高速PDF操作。ページを画像データとして抽出 * OpenCV (cv2): 画像認識ライブラリ * 画像処理: 読込、グレースケール化等 * 特徴点検出/記述: 画像から特徴点を数値化（ORB, AKAZE等推奨） * 特徴量マッチング: 2画像の特徴量類似ペア探索 (BFMatcher等) * 幾何学検証: マッチの妥当性確認 (findHomography + RANSAC) * NumPy: 高速数値計算。OpenCVと連携 * os, glob: ファイル/フォルダ操作 3. 実装手順概要 * 環境構築: pip install PyMuPDF opencv-python numpy * テンプレート準備: 基準画像をファイルで用意 * PDF処理ループ: 対象フォルダ内のPDFを順次処理 * 画像抽出: PyMuPDFでPDFページを画像(NumPy配列)に * 特徴量抽出: OpenCVでテンプレートと各ページ画像から特徴点(kp)/記述子(des)を計算 * マッチング/類似度計算: * BFMatcherで特徴量記述子をマッチング * findHomographyで幾何学的整合性を検証、整合の取れたマッチ（インライア）数を基に類似度スコア算出 * PDF内最大スコアをそのPDFの類似度とする * 結果集計/出力: PDF毎のスコアを記録、ソートし表示/保存 4. コード骨子 (ORB + ホモグラフィ例) import cv2, fitz, numpy as np, os, glob # (設定値: TEMPLATE_IMAGE_PATH, PDF_FOLDER_PATH等) template_img = cv2.imread(TEMPLATE_IMAGE_PATH, 0) # 0: グレースケール orb = cv2.ORB_create(nfeatures=2000) kp1, des1 = orb.detectAndCompute(template_img, None) bf = cv2.BFMatcher(cv2.NORM_HAMMING, crossCheck=True) results = [] pdf_files = glob.glob(os.path.join(PDF_FOLDER_PATH, "*.pdf")) for pdf_path in pdf_files: doc = fitz.open(pdf_path) max_sim = 0 for page in doc: pix = page.get_pixmap(dpi=200) # (Pixmap -> OpenCV画像変換) img_bgr = ... # BGR形式に gray_img = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2GRAY) kp2, des2 = orb.detectAndCompute(gray_img, None) if des2 is not None and len(des2) > 0: matches = bf.match(des1, des2) if len(matches) > 10: src_pts = np.float32([kp1[m.queryIdx].pt for m in matches]).reshape(-1,1,2) dst_pts = np.float32([kp2[m.trainIdx].pt for m in matches]).reshape(-1,1,2) M, mask = cv2.findHomography(src_pts, dst_pts, cv2.RANSAC, 5.0) if M is not None: score = np.sum(mask) / len(kp1) if len(kp1) > 0 else 0 max_sim = max(max_sim, score) doc.close() if max_sim > 0: results.append({"file": pdf_path, "similarity": max_sim}) results.sort(key=lambda x: x["similarity"], reverse=True) # (結果表示/保存) 5. 重要ポイント/改善ヒント * 類似度定義: 何を類似と見なすか、計算方法の調整が最重要 * 処理速度: PDF数が多い場合、解像度調整、並列処理、高速アルゴリズム検討 * 図面特性: ノイズ除去等の前処理で精度向上も * テンプレート選択: 特徴的な部分を選ぶことが重要