ウェブ魚拓「megalodon.jp」がrobots.txtを無視するようになったので対策



ウェブ魚拓」はrobots.txtで拒否しています。

# Megalodonblock
User-agent: Megalodon
Disallow: /
view raw gistfile1.txt hosted with ❤ by GitHub

robots.txtを設置する方法

以前は「ブロックされました」と表示され魚拓を拒否することができたのですが、何気にテストしたらバッチリ魚拓が取れたという。びっくり。

ヘッダーにmetaタグを置いてキャッシュ取得を防御します。

<!-- no cache -->
<meta name="robots" content="noarchive">
view raw gistfile1.txt hosted with ❤ by GitHub

megalodon.jp にURLを入力→「検索と確認」→「取得」をクリック。

「メタタグ・ロボットにより取得が禁止されております」と表示され、魚拓をはじくことができました。

尚、「noarchive」の指定はただキャッシュを拒否しているだけなのでSEO的には問題ないようです。

「魚拓が取れない!」と文句を言う人へ

「魚拓が取れない」「どうすれば魚拓が取れる?」「拒否するなんて卑怯・悪知恵」と書いている人を見かけますがPDFで取れば良いだけの話。Google拡張機能で全てスクショできるものもあります。