Googlebot

Googlebot とは、Google のウェブクロール用の bot です（「スパイダー」と呼ばれる場合もあります）。クロールは、Googlebot が Google のインデックスに追加する、新しいページや更新されたページを検出するプロセスです。

Google では、大規模なコンピュータ群を使用して、ウェブ上の数十億のページを取得（クロール）します。Googlebot はアルゴリズムによるプロセスを使用します。クロールするサイト、クロールの頻度、各サイトから取得するページ数はコンピュータプログラムによって決定されます。

Googlebot でクロールを開始する際は、前回のクロールで生成され、ウェブマスターから提供されたサイトマップデータで補強された、ウェブページの URL リストを使用します。Googlebot はリストにあるウェブサイトすべてにアクセスし、各ページのリンク（SRC と HREF）を検出して、クロール対象のページリストに追加します。また、新しいサイト、既存のサイトへの変更、無効なリンクを検出し、Google インデックスの更新情報として使用します。

ウェブマスター向け: Googlebot とサイトについて

Googlebot のサイトアクセス方法

Googlebot は、平均して数秒に 1 回を超える頻度でサイトにアクセスすることはありません。ただし、ネットワークの遅延などにより、短時間でアクセス頻度が少し増えたように見える場合があります。

Googlebot は、複数のマシンに分散させることでパフォーマンスを向上させ、ウェブの拡大に伴って拡張される設計になっています。また、帯域幅の使用量を節約するため、ネットワーク上で、インデックス登録するサイトの近くにあるマシンで多数のクローラーを稼働させています。そのため、google.com の複数のマシンからのアクセス（ユーザーエージェントはすべて Googlebot）がログに記録される場合があります。Google では、サーバーの帯域幅に大きな負荷をかけることなく、1 回のアクセスでサイトのできる限り多くのページをクロールすることを目標にしています。クロール速度の変更をリクエストする方法をご確認ください。

サイトのコンテンツを Googlebot からブロックする

ウェブサーバーへのリンクを公開しないようにして、そのウェブサーバーの存在を隠すことはまず不可能です。誰かが「非公開」のサーバーからリンクをたどって別のウェブサーバーにアクセスすると、「非公開」の URL がリファラータグに追加され、他のウェブサーバーのリファラーログに保存、公開されます。同様に、ウェブ上には、古くなったリンクや無効になったリンクが多数存在します。サイトに対して間違ったリンクを公開したり、リンクの更新に失敗してサーバーでの変更を反映できなかったりすると、Googlebot は間違ったリンクをサイトからダウンロードしようとします。

Googlebot によるサイトコンテンツのクロールをブロックするには、robots.txt を使用してサーバー上のファイルやディレクトリへのアクセスをブロックするなど、複数の方法があります。

robots.txt ファイルを作成してから Googlebot が変更を検出するまで少し時間がかかる場合があります。robots.txt でコンテンツをブロックしても Googlebot からクロールされる場合は、robots.txt の場所が正しいかどうかを確認してください。robots.txt はサーバーの最上位ディレクトリに置く必要があります（例: www.example.com/robots.txt）。このファイルをサブディレクトリに置いても効果はありません。

ウェブサーバーログに「ファイルが見つかりません」というエラーメッセージが出力されないようにするには、robots.txt という名前の空ファイルを作成します。サイトのページ上のすべてのリンクが Googlebot からクロールされないようにするには、nofollow メタタグを使用します。Googlebot が各リンクをたどらないようにするには、リンク自体に rel="nofollow" 属性を追加します。

その他に、次のようなおすすめの方法があります。

robots.txt が正しく機能するかをテストする。[ブロックされた URL] ページにある robots.txt のテストツールを使用すると、robots.txt ファイルの内容が Googlebot によって実際にどのように解釈されるかがわかります。Google のユーザーエージェントは（そのまま）Googlebot です。
Search Console の Fetch as Google ツールでは、サイトが Googlebot にどのように見えるかを正確に把握できます。このツールは、サイトのコンテンツや検索結果への表示の問題のトラブルシューティングを行う場合にとても便利です。

サイトがクロールされるようにする

Googlebot は、リンクをたどってページからページへ移動し、サイトを検出します。Search Console の [クロールエラー] ページには、Googlebot がサイトのクロール時に検出した問題が表示されます。定期的にクロールエラーを確認して、サイトで問題が発生していないかどうかを確認することをおすすめします。

robots.txt ファイルが正しく機能しているのにサイトへのトラフィックが増えない場合は、コンテンツの掲載順位が上がらない理由についての説明をご覧ください。

スパムや他のユーザーエージェントの問題

Googlebot が使用する IP アドレスはその都度変わります。Googlebot のアクセスを特定する方法としては、ユーザーエージェント（Googlebot）を使用することをおすすめします。DNS リバースルックアップを使用して、サーバーにアクセスしている bot が本当に Googlebot かどうかを確認します。

Googlebot や信頼できる検索エンジンの bot はすべて robots.txt のディレクティブに従いますが、一部の悪質なロボットやスパムは従いません。スパムを見つけたら Google に報告してください。