robot.txt(ロボットテキスト)というのは、検索エンジンのクローラーに対して読み込ませるテキストファイルです。ホームページ内に設置しておく事で、一定の範囲内ですが検索エンジンに対してクロールしないように設定したりすることができます。
特別必要ないかもしれませんが、重複するコンテンツなどがある場合はrobot.txtを設定しておくべきです。
robot.txtで重複コンテンツのインデックスを予防する
robot.txtが役立つ場面というのは、コンテンツは同じでも複数のファイルが生成されるようなプログラムを使ってサイトを構築した場合、似たようなコンテンツが多数生成される場合があります。
例えば、ネットショップを作って商品ページがあった場合、同じAという商品ページに
(1)/goods/id/11345.html(通常商品ページ)
(2)/goods/id/print/11345.html(印刷用ページ)
(3)/search?11345(検索を通じて表示した商品ページ)
という3つのページ(URL)が存在するとします。この(1)~(3)は同じ商品の情報を掲載しており、内容はほぼ同じで、3つ全てをクロールさせる必要はありません。
その場合、静的リンクでつながっているメインとなる(1)の商品ページだけをクロールさせて、(2)と(3)はrobot.txtでクロールさせないようにするのが一つの手法です。
なぜ、重複コンテンツはよくないのか
重複コンテンツが存在すると、検索エンジンはどのファイルが重要なファイルなのかが理解できません。そのため、似たようなコンテンツがある場合、どれをどのように評価するのかに差が生じてしまいます。(場合によっては悪質な検索エンジンスパムであると判断される場合もあります。もっともGoogleは悪意のない重複コンテンツはスパムでないと名言していますが、悪意があると判断された場合は・・・。・)
そのため、ウェブマスター自身で重複コンテンツについてはできるだけ、検索エンジンに分かりやすい形で、表現しておいてあげると、余計なリスクをおう必要がなくなります。
robot.txtの書き方
robot.txtの設定は以下のように行います。まず、メモ帳などのテキストエディタを開き、以下のように記載します。
User-agent: *
Disallow: /id/print/
Disallow: /search
先ほどの例でいうと、上のように書いてテキストファイルを「robot.txt」としてFTPなどでアップすれば完了です。詳しいrobot.txtの書き方はいずれまた別の機会に解説します。
検索エンジンに100%インデックスされないというわけではないので注意
ただし、robot.txtというのは100%信頼できるものではないという点に注意する必要があります。ロボット型検索エンジンは世の中に多数あり、Googleなどの大手のロボット型検索エンジンはしっかりとrobot.txtを読みますが、中にはrobot.txtを無視するような検索エンジンもいます。
非公開としたいような情報の取り扱いには注意しましょう。
本文書はGoogle発行の「検索エンジン最適化スタートアップガイド(PDF)」を元にSEO対策を解説しています。まとめ記事は「Googleが教えてくれる検索エンジン最適化(SEO)14のポイント」。