SearXNGを用いたWebスクレイピングをしてみた

2025年9月22日 08:30

こんにちは！本記事ではSearXNGを用いたWebスクレイピングについてまとめます。
日本語のドキュメントが少ないため、沼にハマると苦労する（苦労した）ので、最低限Webスクレイピングができるように、やり方を書いていきます。

はじめに

インターネット上のウェブサイトからデータを自動的に抽出する技術を「Webスクレイピング」と呼ぶ。プログラムを用いて行われるため、手作業に比べて効率的かつ正確に情報収集でき、得られたデータはデータ分析やマーケティング戦略に用いられることが多い。
今回は、複数の検索サービスを利用した同時検索ができるSearXNGをWebスクレイピングに導入して、ブラウザごとのAPI呼び出し回数や速度低下を回避できれば効率的に有益なデータ収集ができるはずである。
そこで、今回は実際にSearXNGを用いたWebスクレイピングについて、環境構築から沼にハマった点までまとめて紹介する。
Webスクレイピングに関する注意点として、Webスクレイピングは以下の理由から、サイトによっては禁止しており、最悪の場合は違法になることがある。

不正利用を防ぐ
サーバーに過剰な負担をかける
著作権侵害を防ぐ

そのため、健全な目的でWebスクレイピングをしようと思っている人は上記のことに注意して行うと良いと思われる。

SearXNGとは

検索＋生成AIサービスである「Perplexity」の検索部分によく使われている（らしい）

GitHub - searxng/searxng: SearXNG is a free internet metasearch engine which aggregates results from various search services and databases. Users are neither tracked nor profiled.
Welcome to SearXNG — SearXNG Documentation (2025.9.14+23257bddc)

公式ドキュメントによると

SearXNGは、最大247の検索サービスから検索結果を集約する無料のインターネットメタ検索エンジンです。ユーザーの追跡やプロファイリングは一切行われません。さらに、SearXNGはTor経由で利用でき、オンラインの匿名性を確保できます。

とのこと。

Google APIは一日100件のリクエスト制限があり、DuckDuckGoも改悪されたようで最近速度が低下されていることに加え、一日当たりの呼び出し回数に制限があるようなので、多くのデータを集めたいWebスクレイピングにはうってつけではないかと思われる。

インストール

結果論になるが、dockerが安定して動作する。
適当なdocker環境で、安定的なネットワークで放置すると現状一番良いように思うため、docker環境でのやり方を書いておく。

作業ディレクトリを作成

mkdir my-searxng-scraping && cd my-searxng-scraping

SearXNGのイメージをpull

docker pull searxng/searxng

コンテナを起動

export PORT=8080
docker run --rm \\
    -d -p ${PORT}:8080 \\
    -v "${PWD}/searxng:/etc/searxng" \\
    -e "BASE_URL=http://XXX.XXX.XXX.XXX:$PORT/" \\
    -e "INSTANCE_NAME=my-searxng-instance" \\
    searxng/searxng

起動したらブラウザにアクセスする。BASE_URL を上記のままにした場合はhttp://localhost:8080にアクセスすれば良い。

試しに、「東京　天気」と検索した結果は以下のような感じになる。GoogleやDuckDuckGo, Bingなど複数の検索エンジンから取得されていることがわかる。

Webスクレイピング環境構築

タイムアウトエラーについて

DuckDuckGoの検索が10秒かかってでタイムアウトになることがあるらしい。対策は2つある。

setting.ymlをいじる。デフォルトは3秒なので、20秒や30秒に変更すると良い。

outgoing:
  # default timeout in seconds, can be override by engine
  request_timeout: 3.0

設定を変更し、コンテナを再起動すれば良い。

ホストモードを使用

今回使用していないが紹介する。コンテナ起動時に --net=host をつければ良いだけ。

docker run --rm \\
    --net=host \\
    -v "${PWD}/searxng:/etc/searxng" \\
    -e "BASE_URL=http://XXX.XXX.XXX.XXX:8080/" \\
    -e "INSTANCE_NAME=my-searxng-instance" \\
    searxng/searxng

secret keyの設定（やらなくても良さそう）

適当な文字列を生成し、

openssl rand -hex 32

setting.ymlのsecret keyに設定

bingなどの検索エンジンを有効にする

なぜかは知らないが、デフォルトでは検索エンジンがオフになっているものがある。

  - name: bing
    engine: bing
    shortcut: bi
    disabled: true # ← この行を削除する

disable を削除する。

403エラーが出続けた。

多くのpublic instanceはJSONフォーマットを持っていないため、設定で追加する必要がある。これを入れると綺麗に403エラーは解消される。

search:
	'''
  # formats: [html, csv, json, rss]
  formats:
    - html
    - json
	'''

(参考) https://github.com/open-webui/open-webui/issues/2824

実装

コードはcursorやgeminiなどに書かせれば良い。今回はpythonで作成した。
今回はWebスクレイピングを行った結果のcsvファイルにある情報から追加情報を検索するということがやりたかったので以下のように実装した。

Webスクレイピング基本実装:
- ツール: requestsライブラリでWebページを取得し、BeautifulSoup4でHTMLを解析する、Pythonスクレイピングの構成を採用。
- 情報抽出: 正規表現（reモジュール）を使い、HTMLテキスト内から電話番号やメールアドレスのパターンを抽出。
並列処理による高速化:
- 課題: 1件ずつ処理すると時間がかかりすぎるため、大幅な時間短縮が必要。
- 解決策: concurrent.futures.ProcessPoolExecutorを導入。これにより、複数のプロセスで同時にスクレイピングを実行する並列処理を実現。
抽出精度の向上:
- 課題: 電話番号を抽出しようとした際、北海道の郵便番号（例: 059-0032）を誤って取得してしまう問題が発生。
- 解決策: 正規表現のルールを強化。「0から始まる」「ハイフンを除いた桁数が10桁または11桁」という2段階のチェックを導入する。

まとめと感想

本取り組みでは、SearXNGを用いたWebスクレイピングを実装しました。
いくつかやり方はあるみたいですが、dockerを用いるのが一番安定してそうです。
私自身Webスクレイピング自体初めてだったことに加えて、SearXNGは日本語ドキュメントが少なく、エラーにハマって抜け出すのが大変でした。
少しでも同じことをする人の参考になれば幸いです。それでは！

参考文献

いいなと思ったら応援しよう！

コメントするには、ログインまたは会員登録をお願いします。

SearXNGを用いたWebスクレイピングをしてみた

はじめに

SearXNGとは

インストール

Webスクレイピング環境構築

タイムアウトエラーについて

secret keyの設定（やらなくても良さそう）

bingなどの検索エンジンを有効にする

403エラーが出続けた。

実装

まとめと感想

参考文献

いいなと思ったら応援しよう！

コメント

【Python学習29日目】ネットの情報を自動収集！スクレイピングの第一歩

8.Webスクレイピング入門：データを自動取得！

初めてのwebスクレイピング

スニーカー・通販！スニダンから商品の情報をスクレイピングする

Step89 【副業に向けての学習シリーズ＃0】Selenium導入とWeb操作

【無料】snscrapeでSNSデータを収集する方法｜APIキー不要のスクレイピング入門

簡単なWebスクレイピング(Python)

インスタグラムのスクレイピングを研究して、実際に案件を獲得できた話

【2025年最新】Google Antigravityで超簡単WEBスクレイピング！AIが全部やってくれる時代が来た

【情報略奪】第5弾：全世界のサイトを跪かせろ！〜Webスクレイピングという名の情報支配術〜

【完全無料】有料級のスクレイピングコード50選（コピペで使える!）

立ち塞がる壁 1241ページのプロ野球データ

Webから欲しいデータを自動取得｜手作業は終わり

【全コード公開】SNSリサーチを1秒で。指定URLからタイトルを一括抽出するPythonツール🧩

AIを使って、ウェブページをスクレイピングしたい時

【100日100アプリ】Day28: プロジェクト開始１日目にアク禁くらった話

Python × Streamlit × OpenAI企業情報を自動収集するWebアプリを作ってみました

GoogleAppScript検証#2：webスクレイピング

【GAS】生成AIの新着記事だけを、毎朝自動で収集する【自動化100本ノック #004】

SUUMOスクレイピング ③ChatGPTに丸投げで作ったら１日で動いたけど、そこからが大変だった。

Pythonでやってみよ。seleniumでページのスクロール

難しいことは一切なし。ネット情報を自動で集める一番やさしいOctoparseの話

【超有料級】AIを駆使した「超速」Webスクレイピング完全攻略：Pythonと最新ライブラリで競合データを独占する技術

Claude AIに毎月40時間の業務を丸投げしたら、本当にゼロになった全手順を公開する

【実践】GAS×外部連携⑤：ネットの情報を自動で収集！「GETリクエスト」の仕組み【学習125日目】

Pythonでデータ収集するなら知っておくべきAPIサービス10選

CursorとGeminiをつかったAI駆動の開発をはじめた話（2026/2/8）

ローカルLLMが嘘をつく問題と戦った10日間 — マルチエージェント品質管理の実践【前編】

競馬プログラム開発（2026年1月27日）

PythonとSelenium入門|Chrome検証ツールで要素取得からコーディングまでを解説

いらすとやダウンローダーでONE PIECEが混入！？HTMLパーサーの罠と3回の修正の記録

RailsのRakeタスクスクレイピングの例外処理改善（実務 × AI 時代の最短解法）

なんでも画像のポッケ

Inoreaderの翻訳一覧のChrome拡張ツールのブラッシュアップ

Claude 3.7 Sonnet と Claude Code の概要

生成AI時代に「生成AI以外」の技術戦略を考える

【Python学習29日目】ネットの情報を自動収集！スクレイピングの第一歩

8.Webスクレイピング入門：データを自動取得！

初めてのwebスクレイピング

スニーカー・通販！スニダンから商品の情報をスクレイピングする

Step89 【副業に向けての学習シリーズ＃0】Selenium導入とWeb操作

【無料】snscrapeでSNSデータを収集する方法｜APIキー不要のスクレイピング入門

簡単なWebスクレイピング(Python)

インスタグラムのスクレイピングを研究して、実際に案件を獲得できた話

【2025年最新】Google Antigravityで超簡単WEBスクレイピング！AIが全部やってくれる時代が来た

【情報略奪】第5弾：全世界のサイトを跪かせろ！〜Webスクレイピングという名の情報支配術〜

【完全無料】有料級のスクレイピングコード50選（コピペで使える!）

立ち塞がる壁 1241ページのプロ野球データ

Webから欲しいデータを自動取得｜手作業は終わり

【全コード公開】SNSリサーチを1秒で。指定URLからタイトルを一括抽出するPythonツール🧩

AIを使って、ウェブページをスクレイピングしたい時

【100日100アプリ】Day28: プロジェクト開始１日目にアク禁くらった話

Python × Streamlit × OpenAI企業情報を自動収集するWebアプリを作ってみました

GoogleAppScript検証#2：webスクレイピング

【GAS】生成AIの新着記事だけを、毎朝自動で収集する【自動化100本ノック #004】

SUUMOスクレイピング ③ChatGPTに丸投げで作ったら１日で動いたけど、そこからが大変だった。

Pythonでやってみよ。seleniumでページのスクロール

難しいことは一切なし。ネット情報を自動で集める一番やさしいOctoparseの話

【超有料級】AIを駆使した「超速」Webスクレイピング完全攻略：Pythonと最新ライブラリで競合データを独占する技術

Claude AIに毎月40時間の業務を丸投げしたら、本当にゼロになった全手順を公開する

【実践】GAS×外部連携⑤：ネットの情報を自動で収集！「GETリクエスト」の仕組み【学習125日目】

Pythonでデータ収集するなら知っておくべきAPIサービス10選

CursorとGeminiをつかったAI駆動の開発をはじめた話（2026/2/8）

ローカルLLMが嘘をつく問題と戦った10日間 — マルチエージェント品質管理の実践【前編】

競馬プログラム開発（2026年1月27日）

PythonとSelenium入門|Chrome検証ツールで要素取得からコーディングまでを解説

立ち塞がる壁　1241ページのプロ野球データ

SUUMOスクレイピング　③ChatGPTに丸投げで作ったら１日で動いたけど、そこからが大変だった。

立ち塞がる壁　1241ページのプロ野球データ

SUUMOスクレイピング　③ChatGPTに丸投げで作ったら１日で動いたけど、そこからが大変だった。