2011-01-18 【.htaccess】ウェブ魚拓を拒否する方法(2011年現在)
【.htaccess】ウェブ魚拓を拒否する方法(2011年現在)
SetEnvIf User-Agent "^Mozilla\/4.0 \(compatible; MSIE 7.0; Windows XP\)$" deny_ua
order allow,deny
allow from all
deny from env=deny_ua
軽く解説
.htaccessのSetEnvIfは正規表現で書くので、エスケープを適切にします。
「これで大丈夫なの?」
「正規のWindowsXP + MSIE 7.0ユーザが巻き込まれない?」
>Mozilla/4.0 (compatible; MSIE 7.0; Windows XP)
>Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
……おわかりですよね。Windows XPってユーザ情報吐くのは『通常のブラウザでは無い』んです。
あるとしても、昔のOperaの偽装ユーザエージェントとかでしょう(爆)
通常ユーザとの違いは、確認くんとかでウェブ魚拓のUSER AGENTを調べたりしましょう。
IP/HOSTは変動しているようだし、「今の所は」コレで制限できます、ということで。
>Megalodon(http://megalodon.jp/)
>Mozilla/4.0 (compatible; MSIE 7.0; Windows XP)
http://megalodon.jp/?url=http%3A%2F%2Fwww.ugtop.com%2Fspill.shtml&type=simple
ほとんどの正規ユーザが、Windows NT 5.1; 以降に.NET CLR 1.0.****;やら色々くっつけてます。
ウェブ魚拓のエージェントは、短すぎなんですね。たしか、TrendMicroもMSIE吐くけど短め。
正攻法〜オフィシャルなやり方
http://megalodon.jp/pc/page/qa#prohibitcache
キャッシュの取得を禁止するにはどうすればいいですか?
(2) ルートディレクトリにrobots.txtを設置して、"Megalodon"が取得不可能なパスを指定する
なお、robots.txtはキャッシュしておりますので、変更が反映されるまで長くて3日かかります。
とのことです。NOINDEX,FOLLOWだとどうなのかわかりませんが。
・robots.txtの場合は、
User-agent: Megalodon
Disallow: /
で大丈夫なはず。
- 36 http://pipes.yahoo.com/pipes/pipe.info?_id=0kJqAOKW3RGniq6n1ZzWFw
- 31 http://pipes.yahoo.com/pipes/pipe.info?_id=3572f9da2c8db3951cc02c59f68f43ba
- 12 http://search.yahoo.co.jp/search?p=Firefox 高速化 軽量化&rs=2&rs=2&aq=0&oq=fire&ei=UTF-8&fr=top_ga1_sa
- 11 http://www.google.co.jp/search?q=firefox+軽量化+3.6&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:ja:official&hl=ja&client=firefox-a
- 5 http://search.yahoo.co.jp/search?p=ブラウザ 軽量化&search.x=1&fr=top_ga1_sa&tid=top_ga1_sa&ei=UTF-8&aq=&oq=
- 5 http://webcache.googleusercontent.com/search?q=cache:5YU4PCQQocMJ:d.hatena.ne.jp/galle_the_joker/20101027/1288136445+firefox+軽量化&cd=3&hl=ja&ct=clnk&gl=jp&client=firefox-a&source=www.google.co.jp
- 4 http://search.yahoo.co.jp/search?p=@pages+広告を消す方法&search.x=1&fr=top_ga1_sa&tid=top_ga1_sa&ei=UTF-8&aq=&oq=
- 4 http://search.yahoo.co.jp/search?p=webブラウザ 軽量&aq=-1&oq=&ei=UTF-8&fr=top_ga1_sa&x=wrt
- 4 http://www.google.co.jp/search?hl=ja&safe=off&client=firefox-a&hs=KGD&rls=org.mozilla:ja:official&&sa=X&ei=ubE7TbmVDZGkvgO6z4zQCg&ved=0CBcQBSgA&q=Firefox+動作+軽量化&spell=1
- 4 http://www.google.co.jp/search?hl=ja&safe=off&q=@pages+綺????+羔????&aq=2mr&aqi=g-r1g-mr2&aql=&oq=pages+??????