ia_archiver (robot)
「ia_archiver」さんがいらっしゃいました。
・Internet Archive: Wayback Machine
http://www.archive.org/web/web.php
ここのサイトの方らしい。
古いWEBコンテンツも大事にとっておいてくれるらしい。
別に悪さはしないけど、昔のやつをほじくられるのも恥ずかしいので、はじいておこう。
幸いrobots.txtは読んでいるので、以下を追加。
User-Agent: ia_archiver Disallow: /
トラックバック(4)
このブログ記事を参照しているブログ一覧: ia_archiver (robot)
このブログ記事に対するトラックバックURL: http://kinshachi.ddo.jp/mt/mt-tb.cgi/22
ia_archiverたるのがこないだからログに日によっちゃえらい数字で叩き出される様になったので調べたよ…。 何者か。 「ia_archiver」とだけ打って一番上に表示されたとこに答え発見。 すぐ見つかるってステキ(ぁ …お前かっー!! キャッシュ覘いてる人がいたのか(笑 さぞ... 続きを読む
ia_archiverとは… そして僕は弾いた! そして僕は怒った! 怒り爆発! ia_archiverが来た時は、Internet Archive: Wayback Machineに強制リダイレクト! 続きを読む
アクセスログをチェックしていたらこんなものが見つかりました。209.237.238.172 - - [08/Mar/2005:10:51:25 +0900] "GET /robots.txt HTTP/1.0" 404 204 "-" "ia_archiver"ユーザーエージェントのia_archiverてな... 続きを読む
自サイトへの不明アクセスが最近増えていて、「なんだろう?」とアクセス解析を眺めていた。不明アクセスの大半は、auの新端末であった。(au端末はユーザーエージェントを取るだけでは機種が分からないので新機種発... 続きを読む
初めておじゃまいたします。
ロボットにどんどん入られてしまい、サイトを閉じようかと思っておりますサイトの管理人です。
(ロボットタグは知人に教えてもらって、おまじないのように付けていました)
最近、ia_archiverというのをログ解析で発見し、gogle検索にてこちらに飛んでまいりました。
私事で恐縮ですが、
残念ながら現在は正月休みなしの仕事をしておりまして、CGIを勉強する時間がまだ取れません。
いきなりやってきて、不躾で恐縮ですが、もしよろしかったら、1つだけ質問に答えていただければ有り難く存じます。安心して眠れます。
もしお答えになりたくない場合は、どうぞ無視なさってくださいませ。
私はレンタル共有サーバーを利用しドメイン内にフォルダーに分けて複数のサイトデータを入れているのですが、index.html(表紙のみでどこにもリンクはらず)にia_archiverが来ておりました。
この場合、他のフォルダーに入れて、上記のindex.htmlと同じ階層(というのでしょうか)に置いてあるデータは読まれずにすむでしょうか?
初歩的な質問で申し訳ありません。
リンクしてなければ安全だとどこかで聞いた気がするのですが・・・。
何卒よろしくお願い申し上げます。
年始からお仕事お疲れ様。
タカシさんのサイト見させてもらいました。
まず最初に、ia_archiverは特別悪いロボットではないと思います。
ia_archiverが提供しているサービスは、巡回した時のサイトのコンテンツを(勝手に)保存して、コンテンツを書き換えた後も昔のコンテンツを見ることができるようにするサービスです。
不特定多数の人に見られるのが嫌だというのであれば、悪いロボットになりますが。
では、質問の返事です。
ロボットは、リンクをたどってサイト内を見ていくので、どこからもリンクが張られていなければそのページは見られることはないと思います。
ただし、
1. タカシさんのサイトに第三者が勝手にリンクを張っていることはありえませんか?
2. タカシさんのサイトからリンクが張ってあると、リンク先のサイトのアクセスログにRefererとしてタカシさんのサイトのURLが表示されます。
このReferer機能を利用して、「どこからリンクされているか」を表示するサイトがあります。そういう事はないでしょうか?
実際、サイトを完全に秘密にするのは難しいと思います。
不特定多数に公開するつもりがないならば、(CGIレベルでも、サーバーレベルでも)パスワードをつけた方がいいと思います。
タカシさんがサーバの設定をいじれるなら、「UserAgentが○○だったら特定のページを表示する」または「IPアドレスがxx.xx.xx.xxだったら特定のページを表示する」ように設定するのもいいと思います。
(サーバがApacheだったら、mod_rewriteあたりです。)
そうそう、予備知識として。
タカシさんは
<meta name="robots" content="noindex,nofollow">
というMETAタグをつけているようですね。
noindex は検索を禁止、nofollow はリンク先参照を禁止します。
NOARCHIVEというのもあって、ロボットがそのページをアーカイブ(キャッシュ)しないようにします。
METAタグをつけていても、一度はそのページは読まれます。
読まないとMETAタグの内容を知ることができないので。
robots.txtの方法も、ないよりはましなので、参考にしてみるといいと思います。
タカシさんが、WEBルート( http://www.example.jp/ のようにサブフォルダがない)にファイルを置くことができるなら、robots.txtというファイルを作成して、
User-Agent: *
Disallow: /
と書いておきます。
行儀のいいロボットなら効きます。
お役に立てたでしょうか?
それでは、がんばってください。
ike 様
さっそくレスをありがとうございました。
ご丁寧に説明していただけ、とても心強いです。
恥ずかしながら私は、METAタグの意味も今はじめて知ったような程度ですが、この正月仕事^^が一段落し次第、勉強を始めてみます。
おかげさまで自分のサイトを(自分なりの力だったとしても)自分でコントロールできるようになりたいと強く思うようになりました。
私も過去に検索のおかげでサイトをやってみようと思いましたので、基本的には不特定多数の方に来ていただけるオープンなサイトにしたいと願っております。入口でいきなりパスワードでは、何だろう?と思って飛んで来られた方に、申し訳ないですものね。
なんとか諦めないで、よりよい方法を探してみたいと思います。
お正月早々本当にありがとうございました。
ike様にとって楽しい1年でありますように。
あぁぁぁ…。
エラー出てたと思ったら2回も飛ばしちゃってる…。
ほんとごめんなさい。
そして参考になりましたありがとうございました(ペコン
坂上さん。
参考になったみたいでよかったです。
このサーバはちょっとレスポンスが悪いことがあるので、原因はこっちかもー。