ウェブ上を自動的に巡回し、Webページの内容を収集していくプログラム、クローラー(スパイダー)の働きと制御、主なUA名について説明します。
ウェブ上を自動巡回し情報を収集するクローラー
クローラー(スパイダー)とは、検索エンジンがWebページの内容を収集するために用いるプログラムのことです。検索エンジンは、登録申請されたURIをもとに、Webページ内に含まれるリンク情報をたどりながら、WWW上のあらゆるWebページの情報を収集します。
情報を収集するという、検索エンジンにとって重要な役割を持つため、各検索エンジンベンダーは他よりもより精度の高い情報収集が行えるよう、独自に様々なクローラーを開発してウェブ上を巡回させています。
クローラーの動作の制御
サイトによっては、特定のページやディレクトリをクロールさせたくない場合もあります。テスト運用中のページや、CMSによって生成されるコンテンツの重複したページなどがそれにあたります。検索エンジンには、ウェブマスターがクロールを制御する方法(主にインデックスを避ける方法)が用意されています。
- robots.txtによる制御
- ロボット排除プロトコル(REP:Robots Exclusion Protocol)に対応している検索エンジンでは、サイトのルートディレクトリにrobots.txtを設置することで、クローラーの巡回を制御することができます。Googleなど一部の検索エンジンでは、robots.txtで正規表現を使った細かな制御も可能です。
- meta要素による制御
- 個別のページごとに制御する場合には、ロボット排除プロトコル(REP:Robots Exclusion Protocol)のうちmeta要素を使用して制御することもできます。書式は次の通りです。
<meta name="robots" content="noindex,nofollow" />
- microformatsによる制御
- ハイパーリンクに「rel="nofollow"」を加えることによって、そのリンク先に重み付けを行わないように指定することができます。ただし注意したいことは、これはリンクを重み付けに使用しないことを指示するだけであって、インデックスに加えないようにする指示ではないということです。書式は次の通りです。
<a href="URI" rel="nofollow">スパム</a>
- rel="canonical"というURL正規化のためのmicroformatsも用意されており、検索エンジン各社は対応を表明していますが、今のところ(2010年4月)対応状況はまちまちです。
検索エンジンが用いる主なクローラーのUA名
日本語に対応している主な検索エンジンのクローラーのUAとその詳細を下記にまとめました。(上段:サーバーに返されるUA名/下段:詳細 "*"は任意の英数字)
- Googlebot/* (+http://www.googlebot.com/bot.html)
- Googleのクローラーです。確認できているホスト名・IPは次のようになります。
crawler*.googlebot.com(216.239.46.* , 64.68.*.*)
crawler*.googlebot.com(64.68.*.*) - Googlebot-Image/* (+http://www.googlebot.com/bot.html)
- Googleの画像収集用クローラーです。確認できているホスト名・IPは次のようになります。
crawl*.googlebot.com(64.68.8*.*) - Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)
- GoogleのAdSense用のクローラーです。確認できているホスト名・IPは次のようになります。
crawl*.googlebot.com(64.68.8*.*) - Mozilla/* (Slurp/*; slurp@inktomi.com; http://www.inktomi.com/slurp.html)
- inktomのクローラーです。確認できているホスト名・IPは次のようになります。
*.inktomisearch.com(66.196.*.*) - indexpert/*
- FreshEyeのクローラーです。確認できているホスト名・IPは次のようになります。
robot.fresheye.com(211.13.222.*) - InfoSeek Sidewinder/*
- InfoSeekのクローラーです。確認できているホスト名・IPは次のようになります。
211.13.222.*
*.infoseek.co.jp(210.155.159.* , 202.33.250.* , その他多数) - Mozilla/3.0 (aruyo/*;http://www.aaacafe.ne.jp/ ;support@aaacafe.ne.jp)
- AAA!CAFEのクローラーです。確認できているホスト名・IPは次のようになります。
h*.p253.iij4u.or.jp(210.130.253.*) - FAST-WebCrawler/* (atw-crawler at fast dot no; http://fast.no/support/crawler.asp)
- FASTのクローラーです。確認できているホスト名・IPは次のようになります。
*.sac2.fastsearch.net(66.77.73.*) - Scooter/*
- altavistaのクローラーです。確認できているホスト名・IPは次のようになります。
*.buildrack*.sv.av.com(216.39.48.*) - Cowbot-*
- Naverのクローラーです。確認できているホスト名・IPは次のようになります。
61.78.61.*
220.73.165.*
218.145.25.*