(cache)ウェブ魚拓「megalodon.jp」がrobots.txtを無視するようになったので対策

「ウェブ魚拓」はrobots.txtで拒否しています。

view raw gistfile1.txt hosted with ❤ by GitHub

以前は「ブロックされました」と表示され魚拓を拒否することができたのですが、何気にテストしたらバッチリ魚拓が取れたという。びっくり。

ヘッダーにmetaタグを置いてキャッシュ取得を防御します。

	<!-- no cache -->
	<meta name="robots" content="noarchive">

view raw gistfile1.txt hosted with ❤ by GitHub

megalodon.jp にURLを入力→「検索と確認」→「取得」をクリック。

「メタタグ・ロボットにより取得が禁止されております」と表示され、魚拓をはじくことができました。

尚、「noarchive」の指定はただキャッシュを拒否しているだけなのでSEO的には問題ないようです。

「魚拓が取れない！」と文句を言う人へ

「魚拓が取れない」「どうすれば魚拓が取れる？」「拒否するなんて卑怯・悪知恵」と書いている人を見かけますがPDFで取れば良いだけの話。Google拡張機能で全てスクショできるものもあります。