>かつて存在した(今もある?) ○-rex というロボットのアクセスは絨毯爆撃と呼ばれるほどひどいものでした。
http://tech.bayashi.net/pdmemo/robots.html
百度が(今現在もそうなのかどうか確信はありませんが)robot.txtを無視しているそうです。
http://ja.wikipedia.org/wiki/%E7%99%BE%E5%BA%A6
2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、 特にBaiduMobaiderはRobot.txtを無視してクロールしている。
Googleでもrobot.txtで制御していても、検索結果にURLだけ表示する場合もあるようです。
Googleは、決してrobots.txtを無視したり、理解できていなかったりするわけでありません。
ある条件のもとでは、 robots.txtでブロックされたページをSERPに表示することがあります。
たいていの場合は、ブロックページに多くのリンクが張られている場合です。
リンクが張られているということは、参照する(検索する)ユーザーが多いと考えられます。
Googleとしては、ユーザーが求めている情報を返すことが最重要です。
robots.txtでブロックされているとはいえ、そのページがもっとも関連性が高いとリンクによって判断できるのなら、結果として提示したいのです。
そこで、妥協案としてページはクロールしない代わりに、URLだけを見せるようにしました。
URLは、ページの中身を見なくてもリンクによって分かりますよね。
ページを見ないので、titleタグやmeta descriptionタグは読めません。
Yahoo! やBingも程度の差はあれ、同じような仕組みをとっているようです(完全に無視しているとしか思えないケースもありますが)。
http://www.suzukikenichi.com/blog/why-pages-blocked-by-robots-tx...
コメント(3件)
いつの間にかそんな変なルールが出来たんだ。
robots.txtは紳士協定、慣習に過ぎず、必ずしも守る義務は無い。
まあ紳士協定ですから、守らないのは「行儀が悪い」とは言えますけどね。
ただ守らなかったところで何らかのペナルティがあるわけでもなく、どうということもないです。