Playwright × Anti-Detection でブラウザ自動化【プロンプト全公開】

2026年2月16日 20:05

はじめに：ある日、全てのスクレイピングが止まった

……マジか。

2024年11月のある朝、僕は自分のPCの前で絶句していた。

昨日まで完璧に動いていたスクレイピングスクリプトが、全部エラーを吐いている。何が起きたのか全くわからない。コードは一行も変えていない。なのに、全てのサイトで「Access Denied」「403 Forbidden」「Bot検出されました」のメッセージが並んでいる。

スマホ119の競合調査で使っていた価格チェックBot、NextCodeのアプリ開発で使っていた画像収集スクリプト、meishi.digitalのリード獲得用のLinkedInスクレイパー。全部死んだ。

これ、ヤバいやつだ。

僕は工業高校時代からプログラミングをやっているけど、「Webスクレイピング」は昔からグレーゾーンだった。技術的には可能だけど、サイト側からすれば「勝手にデータを持って行かれる」わけで、歓迎されない。でも、ビジネスをやっていると「競合の価格を毎日チェックしたい」「市場データを自動で集めたい」みたいなニーズはどうしても出てくる。

スマホ119を8店舗展開している今、競合の修理価格を手動でチェックするなんて無理だ。月3,000件の修理をこなしながら、毎日10店舗のWebサイトを開いて価格表をExcelに打ち込む？そんな時間あるわけない。

だから、自動化していた。Pythonで書いたスクレイピングスクリプト。毎朝6時に自動実行されて、競合8社の価格データをスプレッドシートに入れてくれる。このおかげで、僕は「県内最安値」を維持できていた。

でも、それが突然止まった。

原因を調べると、どうやら各サイトが「Bot検出システム」を導入したらしい。Cloudflare、DataDome、PerimeterX……聞いたこともない名前のサービスが、僕のスクリプトを「Bot」と認識してブロックしている。

「ユーザーエージェントを変えれば突破できるんじゃないか？」

そう思って試した。でも、ダメ。ヘッダーを弄っても、Cookieを削除しても、IPを変えても、全部検出される。

……これ、どうやって突破するんだ？

そこから僕の、「Anti-Detection」の戦いが始まった。

第1章：Bot検出の仕組みを理解する

まず、敵を知らないと勝てない。

僕は3日間かけて、「Bot検出システム」がどうやって動いているのかを調べた。スマホ119で培った「修理するにはまず構造を知れ」の精神だ。iPhone の画面を直すにも、内部構造を理解していないと失敗する。同じことだ。

Bot検出の3つの手法

Bot検出システムは、大きく分けて3つの方法で「これはBotだ」と判断している。

**1. ブラウザフィンガープリント**

これがヤバい。マジでヤバい。

たとえ話をします。

あなたが銀行強盗をするとして（やらないけど）、マスクをかぶって顔を隠しても、指紋は残る。歩き方、声のトーン、癖、全部が「あなた」を特定する手がかりになる。

ブラウザも同じ。ユーザーエージェントを偽装しても、Webサイト側は「あなたのブラウザ」を何百種類の特徴から識別している。

WebGLレンダラーの情報
- インストールされているフォントのリスト
- Canvas指紋（HTML5 Canvasで描画したピクセルデータ）
- Audio指紋（Web Audio APIの出力）
- ブラウザのプラグイン
- 画面解像度
- タイムゾーン
- 言語設定
- バッテリー情報
- ハードウェアコンカレンシー（CPUのコア数）

これ全部を組み合わせると、99.9%の精度であなたのブラウザを一意に識別できる。

僕が使っていたPuppeteerは、これらの情報が「ヘッドレスブラウザ特有の値」になっていた。つまり、サイト側から見たら「こいつ明らかにBotだよね」とバレバレだったわけだ。

**2. 行動パターン解析**

人間は不規則に動く。マウスの軌道は曲線を描くし、クリックするまでに0.3秒くらい迷う。スクロールも「ヌルッ」と慣性がある。

でも、Botは違う。

マウスが直線移動する
- クリックが瞬時（0.001秒）
- スクロールが等速（人間は加減速する）
- ページ読み込みから0.1秒で次のアクションを起こす

これだけで「Bot」と判定される。

僕のスクリプトは、ページを開いた瞬間に `document.querySelector()` で要素を取得していた。人間なら最低でも1秒は「読む時間」があるはずなのに、0.05秒で次のページに飛ぶ。そりゃバレるよね。

**3. IPレピュテーション**

「このIPアドレス、怪しくない？」というデータベースがある。AWSのIPアドレスとか、VPNのIPアドレスとか、短時間に大量アクセスしているIPとか、全部記録されている。

僕はAWSのEC2でスクリプトを動かしていた。これがまずかった。AWSのIPは「データセンターIP」として知られているから、それだけで疑われる。

Bot検出の進化スピードがヤバい

2023年までは、ユーザーエージェントを変えるだけで突破できた。

2024年前半は、Headless Chromeの `--disable-blink-features=AutomationControlled` フラグを立てれば大丈夫だった。

でも、2024年後半から、Cloudflareが「Turnstile」というBot検出システムを導入して、もう何やってもダメになった。

ぶっちゃけ、「イタチごっこ」なんだけど、サイト側の防御が圧倒的に強くなっている。個人開発者が対抗するのは、もう無理ゲーに近い。

……そう思っていた。PlaywrightとAnti-Detectionに出会うまでは。

ここから先は

25,552字 / 8画像

¥ 1,980

ログイン

この記事が気に入ったらチップで応援してみませんか？

購入者のコメント

コメントするには、ログインまたは会員登録をお願いします。

Playwright × Anti-Detection でブラウザ自動化【プロンプト全公開】

はじめに：ある日、全てのスクレイピングが止まった

第1章：Bot検出の仕組みを理解する

Bot検出の3つの手法

Bot検出の進化スピードがヤバい

ここから先は

購入者のコメント

スクレイピングで必ずハマる10の壁と突破法【2026年決定版】

【超有料級】AIを駆使した「超速」Webスクレイピング完全攻略：Pythonと最新ライブラリで競合データを独占する技術

技術習得記録：PythonとSeleniumによる高度なUI自動化への挑戦

第3回:【実弾投下】14MBを強制完走させた「Gemini 2.5 Pro」との共作スクリプト

Pythonサイト要約_サプーYT_BeautifulSoupで挫折した人へ。SeleniumでWeb操作を自由自在に自動化する5つの衝撃テクニック

【パチスロ×スクレイピング=革命】データ取りに革命を起こす!!/生成AIを使って設定狙いの"根拠作り"に使えるツールを作成したノウハウ/…

【2025年最新】Google Antigravityで超簡単WEBスクレイピング！AIが全部やってくれる時代が来た

【開発日記】スクレイピングとの戦い。3回やり直した話

スクレイピングとか、あれこれ

Claude AIに毎月40時間の業務を丸投げしたら、本当にゼロになった全手順を公開する

GA4では見えない「AIボット15種」を完全可視化。維持費0円のアクセス解析基盤【EdgeShaping Log Insight】

AIを使って現代の賞金稼ぎになろう！バグバウンティのススメ

富山の自宅からドイツを動かす。育休エンジニアがPythonでLouis Vuittonの壁を突破した全記録

【実践】OpenClaw × Google Apps Scriptで業務自動化｜メール監視からSlack通知まで20分で構築

【毎日30分消す】放置スクレイピング実務テンプレ〜HTML変更に強く、差分だけを通知する最強の型〜

デプロイしたら画面が真っ白！Cloudflare Workers DOリセット問題の全貌と解決法

4つのAIにデビルズアドボケートを頼んだら、最後に人類論になった話

【知らずに利用は危険?】WebスクレイピングとAIのいま

PythonとSelenium入門|Chrome検証ツールで要素取得からコーディングまでを解説

Webサイトは“人間だけ”をどう見分けるのか？〜AIエージェント（LAM）がWebを自律操作する時代の「人間証明」〜

SUUMOスクレイピング ③ChatGPTに丸投げで作ったら１日で動いたけど、そこからが大変だった。

【情報略奪】第5弾：全世界のサイトを跪かせろ！〜Webスクレイピングという名の情報支配術〜

🐦 X（Twitter）の#株クラで言及数が1時間で100件超えた銘柄🔥Pythonスクレイピングで自動通知するコード全文とAPI制限を回避する裏技的…

5年間続けたWordPress保守作業、Claude Codeに丸投げしたら全自動になった

Webから欲しいデータを自動取得｜手作業は終わり

【Vibe Coding】40代ワンオペママが「推し」に愛されたくて、SEO診断ツールをGeminiで自作した話：ど素人でも堅牢なコードを書くための実…

AIを使って、ウェブページをスクレイピングしたい時

「Pythonで人工知能！」←稼ぎたいなら今すぐやめとけ。

非エンジニアがClaude Codeで"自動トレンド収集AI"を作ってみた

Pythonでデータ収集するなら知っておくべきAPIサービス10選

【保存版】時給5,000円を「楽に」キープする。理系女子大生がAI案件で愛用する"5つの魔法の杖"（ツール・拡張機能編）

Day6: メルカリ本価格チェッカー完成！✨

法律関連検索の60%がクリックなしで終了、AI検索が法律事務所に与える影響、他 2026-01-18 ハッカーニュースまとめ読み

camofox-browser: AIエージェントのWebアクセスを解放する、"ブロックされない"ブラウザ技術

API制限を回避する高度なテクニック｜1日100リクエストを超える方法

ChatGPTの新機能『Codex』：「これ、やっといて」がAIエージェントの本質