検索
検索をクリア
検索終了
Google アプリ
メインメニュー

Googlebot

Googlebot とは、Google のウェブクロール用の bot です(「スパイダー」と呼ばれる場合もあります)。クロールは、Googlebot が Google のインデックスに追加する、新しいページや更新されたページを検出するプロセスです。

Google では、大規模なコンピュータ群を使用して、ウェブ上の数十億のページを取得(クロール)します。Googlebot はアルゴリズムによるプロセスを使用します。クロールするサイト、クロールの頻度、各サイトから取得するページ数はコンピュータ プログラムによって決定されます。

Googlebot でクロールを開始する際は、前回のクロールで生成され、ウェブマスターから提供されたサイトマップ データで補強された、ウェブページの URL リストを使用します。Googlebot はリストにあるウェブサイトすべてにアクセスし、各ページのリンク(SRC と HREF)を検出して、クロール対象のページリストに追加します。また、新しいサイト、既存のサイトへの変更、無効なリンクを検出し、Google インデックスの更新情報として使用します。

ウェブマスター向け: Googlebot とサイトについて

Googlebot のサイトアクセス方法

Googlebot は、平均して数秒に 1 回を超える頻度でサイトにアクセスすることはありません。ただし、ネットワークの遅延などにより、短時間でアクセス頻度が少し増えたように見える場合があります。

Googlebot は、複数のマシンに分散させることでパフォーマンスを向上させ、ウェブの拡大に伴って拡張される設計になっています。また、帯域幅の使用量を節約するため、ネットワーク上で、インデックス登録するサイトの近くにあるマシンで多数のクローラーを稼働させています。そのため、google.com の複数のマシンからのアクセス(ユーザー エージェントはすべて Googlebot)がログに記録される場合があります。Google では、サーバーの帯域幅に大きな負荷をかけることなく、1 回のアクセスでサイトのできる限り多くのページをクロールすることを目標にしています。クロール速度の変更をリクエストする方法をご確認ください。

サイトのコンテンツを Googlebot からブロックする

ウェブサーバーへのリンクを公開しないようにして、そのウェブサーバーの存在を隠すことはまず不可能です。誰かが「非公開」のサーバーからリンクをたどって別のウェブサーバーにアクセスすると、「非公開」の URL がリファラータグに追加され、他のウェブサーバーのリファラーログに保存、公開されます。同様に、ウェブ上には、古くなったリンクや無効になったリンクが多数存在します。サイトに対して間違ったリンクを公開したり、リンクの更新に失敗してサーバーでの変更を反映できなかったりすると、Googlebot は間違ったリンクをサイトからダウンロードしようとします。

Googlebot によるサイト コンテンツのクロールをブロックするには、robots.txt を使用してサーバー上のファイルやディレクトリへのアクセスをブロックするなど、複数の方法があります。

robots.txt ファイルを作成してから Googlebot が変更を検出するまで少し時間がかかる場合があります。robots.txt でコンテンツをブロックしても Googlebot からクロールされる場合は、robots.txt の場所が正しいかどうかを確認してください。robots.txt はサーバーの最上位ディレクトリに置く必要があります(例: www.example.com/robots.txt)。このファイルをサブディレクトリに置いても効果はありません。

ウェブサーバー ログに「ファイルが見つかりません」というエラー メッセージが出力されないようにするには、robots.txt という名前の空ファイルを作成します。サイトのページ上のすべてのリンクが Googlebot からクロールされないようにするには、nofollow メタタグを使用します。Googlebot が各リンクをたどらないようにするには、リンク自体に rel="nofollow" 属性を追加します。

その他に、次のようなおすすめの方法があります。

  • robots.txt が正しく機能するかをテストする。[ブロックされた URL] ページにある robots.txt のテストツールを使用すると、robots.txt ファイルの内容が Googlebot によって実際にどのように解釈されるかがわかります。Google のユーザー エージェントは(そのまま)Googlebot です。
  • Search Console の Fetch as Google ツールでは、サイトが Googlebot にどのように見えるかを正確に把握できます。このツールは、サイトのコンテンツや検索結果への表示の問題のトラブルシューティングを行う場合にとても便利です。

サイトがクロールされるようにする

Googlebot は、リンクをたどってページからページへ移動し、サイトを検出します。Search Console の [クロールエラー] ページには、Googlebot がサイトのクロール時に検出した問題が表示されます。定期的にクロールエラーを確認して、サイトで問題が発生していないかどうかを確認することをおすすめします。

robots.txt ファイルが正しく機能しているのにサイトへのトラフィックが増えない場合は、コンテンツの掲載順位が上がらない理由についての説明をご覧ください。

スパムや他のユーザー エージェントの問題

Googlebot が使用する IP アドレスはその都度変わります。Googlebot のアクセスを特定する方法としては、ユーザー エージェント(Googlebot)を使用することをおすすめします。DNS リバース ルックアップを使用して、サーバーにアクセスしている bot が本当に Googlebot かどうかを確認します。

Googlebot や信頼できる検索エンジンの bot はすべて robots.txt のディレクティブに従いますが、一部の悪質なロボットやスパムは従いません。スパムを見つけたら Google に報告してください。

Google には、Feedfetcher(ユーザー エージェント Feedfetcher-Google)など、他にも使用しているユーザー エージェントがいくつかあります。Feedfetcher のリクエストは Google のホームページにフィードを追加したユーザーによる明示的なアクションから発生し、自動化されたクローラーからは発生しないため、Feedfetcher は robots.txt のガイドラインに従いません。Feedfetcher によるサイトのクロールをブロックするには、ユーザーエージェント Feedfetcher-Google に対して 404 や 410 などのエラー ステータス メッセージを返すようにサーバーを設定してください。Feedfetcher についての詳細をご確認ください。

この記事は役に立ちましたか?
改善できる点がありましたらお聞かせください。