Googlebot
Googlebot とは、Google のウェブ クロール用ロボットです(「スパイダー」と呼ばれる場合もあります)。クロールは、Googlebot が Google のインデックスに追加する、新しいページや更新されたページを検出するプロセスです。
Google では、大規模なコンピュータ群を使用して、ウェブ上の数十億のページを取得(クロール)します。Googlebot はアルゴリズムによるプロセスを使用します。クロールするサイト、クロールの頻度、各サイトから取得するページ数はコンピュータ プログラムによって決定されます。
Googlebot でクロールを開始する際は、前回のクロールで生成され、ウェブマスターから提供されたサイトマップ データで補強された、ウェブページの URL リストを使用します。Googlebot はこれらのウェブサイトすべてにアクセスし、各ページのリンク(SRC と HREF)を検出して、クロール対象のページ リストに追加します。また、新しいサイト、既存のサイトへの変更、無効なリンクを検出し、この情報で Google インデックスを更新します。
ウェブマスター向け: Googlebot とサイトについて
Googlebot のサイト アクセス方法
Googlebot は、平均して数秒に 1 回を超える頻度でサイトにアクセスすることはありません。ただし、ネットワークの遅延などにより、短時間でアクセス頻度が少し増えたように見える場合があります。通常、Googlebot は各ページを一度に 1 回だけダウンロードします。Googlebot が何度もページをダウンロードする場合は、クローラーが停止され、再起動されたことが考えられます。
Googlebot は、複数のマシンに分散してパフォーマンスを向上し、ウェブの拡大に伴って拡張するように設計されました。また、帯域幅の使用量を節約するため、ネットワーク上で、インデックス登録するサイトの近くにあるマシンで多数のクローラーを稼働させています。そのため、google.com の複数のマシンからのアクセス(ユーザーエージェントはすべて Googlebot)がログに記録される場合があります。Google では、サーバーの帯域幅に大きな負荷をかけることなく、1 回のアクセスでサイトのできるだけ多くのページをクロールすることを目標としています。必要に応じてクロール速度の変更をリクエストしてください。
サイトのコンテンツを Googlebot からブロックする
ウェブ サーバーへのリンクを公開しないようにして、そのウェブ サーバーの存在を隠すことはまず不可能です。誰かが「秘密」のサーバーからリンクをたどって別のウェブ サーバーにアクセスすると、「秘密」の URL がリファラー タグに追加され、他のウェブ サーバーのリファラー ログに保存、公開されます。同様に、ウェブ上には、古くなったリンクや無効になったリンクが多数存在します。サイトに対して間違ったリンクを公開したり、リンクの更新に失敗してサーバーでの変更を反映できなかったりすると、Googlebot は間違ったリンクをサイトからダウンロードしようとします。
Googlebot によるサイト コンテンツのクロールをブロックするには、robots.txt を使用してサーバー上のファイルやディレクトリへのアクセスをブロックするなど、複数の方法があります。
robots.txt ファイルを作成してから Googlebot が変更を検出するまで少し時間がかかる場合があります。robots.txt でコンテンツをブロックしても Googlebot からクロールされる場合は、robots.txt の場所が正しいかどうかを確認してください。robots.txt は、サーバーのトップ ディレクトリ(例: www.myhost.com/robots.txt)に配置する必要があります。サブディレクトリに配置しても機能しません。
ウェブ サーバー ログに「ファイルが見つかりません」というエラー メッセージが出力されないようにするには、robots.txt という名前の空ファイルを作成します。サイト ページ上のすべてのリンクが Googlebot からクロールされないようにするには、nofollow メタ タグを使用します。個別のリンクが Googlebot からクロールされないようにするには、リンク自体に rel="nofollow"
属性を追加します。
その他のヒントは以下のとおりです:
- robots.txt が期待したとおりに機能しているかどうかをテストします。[ブロックされた URL] ページ([健全性] セクション)で robots.txt ツールをテストすると、robots.txt ファイルのコンテンツが Googlebot によって実際にどのように解釈されるかを確認できます。Google のユーザーエージェントは
Googlebot
です。 - ウェブマスター ツールの Fetch as Google ツールを使用すると、サイトが Googlebot からどのように認識されるかを確認できます。このツールは、サイトのコンテンツや検索結果への表示の問題のトラブルシューティングを行う場合にとても便利です。
サイトがクロールされるようにする
Googlebot は、リンクをたどってページからページへ移動し、サイトを検出します。ウェブマスター ツールのクロール エラー ページには、サイトのクロール中に Googlebot で発生した問題が表示されます。定期的にクロール エラーを確認して、サイトで問題が発生していないかどうかを確認することをおすすめします。
検索結果に表示するコンテンツで AJAX アプリケーションを実行している場合は、Google がおすすめする AJAX ベースのコンテンツのクロールとインデックス登録を可能にする方法をご確認ください。
robots.txt ファイルが正しく機能しているのにサイトへのトラフィックが増えない場合は、コンテンツの掲載順位が上がらない理由をこちらで確認してください。
スパムや他のユーザーエージェントの問題
Googlebot が使用する IP アドレスは、その時々で変化します。Googlebot のアクセスを確認する最も確実な方法は、ユーザーエージェント(Googlebot)を使用することです。DNS リバース ルックアップを使用して、サーバーにアクセスしているロボットが本当に Googlebot かどうかを確認します。
Googlebot や信頼できる検索エンジンのロボットは robots.txt のディレクティブに従いますが、一部の悪質なロボットやスパムは従いません。スパムを見つけたら Google に報告してください。
Google には、Feedfetcher(ユーザーエージェント名は Feedfetcher-Google)など、他にも使用しているユーザーエージェントがいくつかあります。Feedfetcher のリクエストは iGoogle や Google リーダーにフィードを追加したユーザーによる明示的なアクションから発生し、自動化されたクローラーからは発生しないため、Feedfetcher は robots.txt のガイドラインに従いません。Feedfetcher によるサイトのクロールをブロックするには、ユーザーエージェント Feedfetcher-Google に対して 404 や 410 などのエラー ステータス メッセージを返すようにサーバーを設定してください。Feedfetcher について詳しくは、こちらをご覧ください。