robots.txtファイルを使うことにより、検索エンジンクローラーのアクセスの許可や拒否を行うことができます。
robots.txtで迷惑Botクローラーなどのアクセスを拒否
設置する場所
https://ドメイン/robots.txt
サブドメインにも設置できますが、サブディレクトリの設置は不要です。設置しても認識されません。
FTPソフトなどを使ってファイルのダウンロード&アップロードすることができます。
robots.txtの基本形
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
| User-agent: * | |
| Disallow: /wp-admin/ | |
| Allow: /wp-admin/admin-ajax.php | |
| Sitemap: https://ドメイン/sitemap.xml |
意味は「検索エンジンは許可するけどwp-adminの中は拒否」「wp-adminのadmin-ajax.phpは許可」「サイトマップはこちら」になります。
記述例
サイト全体でクロールを禁止する
User-agent: * Disallow: /
Google画像検索からブロック
User-agent: Googlebot-Image Disallow: /
特定のファイルを拒否(例 PDF)
User-agent: Googlebot Disallow: /*.gif$
特定のページを拒否。
User-Agent: * Disallow: /ページURL/
サイト全体を全てのクロールから拒否
Disallow:/
注意点としてはJavaScriptやCSSのファイルは拒否しない方が良いです。
サーチコンソールのrobots.txtテスターは廃止された
その代わりにrobots.txt レポートが提供されましたが、チェックツールは廃止されました。
プロパティを選択すると問題点があれば件数が表示されます。
更新した場合は「再クロールのリクエスト」を行うと反映されます。