ブログトップ 記事一覧 ログイン 無料ブログ開設

あまたの何かしら。 このページをアンテナに追加 RSSフィード Twitter

2008年03月02日 今日はあばく日。

閉鎖したサイトを閲覧する方法 - RSSリーダーのもうひとつの使い方

オンライン上で閉鎖したサイトのログを見るあるいは調べる方法は、大まかに以下の4つ。

  1. Internet Archive - Wayback Machineを使う。
  2. 検索エンジンのキャッシュを使う。
  3. ウェブ魚拓にあるか調べる。
  4. 引用されているか調べる(誰かさんがミラーしていないか調べる)。

おそらく大抵の人はこれらの方法を使って過去ログを閲覧・取得すると思うのですが、もうひとつ確実に過去ログを取得する方法があるんですね。


この記事から始まってフィードに関するいろんな記事が出てきたのですが、いい点ばかり強調されて問題点が出てこなかったので今になって書きますよ。




RSSリーダー過去ログ倉庫

ええとですね、RSSリーダーと言ってもlivedoor Readerのような誰かが提供しているWebサービスのオンラインリーダーにおいて有効な方法なのですね。


オンラインリーダーはサイトが配信しているだけのFeedを表示するのではなく、初めて購読された時に配信されたFeedからサイトが閉鎖するまでに配信されたFeedを表示するのです。つまり、全自動魚拓なのです。


例1

サイトAをa,bの2人が購読していたとします。

f:id:amatanoyo:20080302141747p:image

この時、もしc,d,eがサイトAを購読し始めたとしたら、c,d,eはa,bが初めて購読したFeedを見ることができます。

この状況は今現在も誰かがやっている、購読風景(なんだそれ)ですね。


例2

サイトAをa,bの2人が購読していて、サイトAが閉鎖したとします。

f:id:amatanoyo:20080302142928p:image

この時、c,d,eはサイトAのFeedのURLさえ分かればオンラインリーダーにキャッシュされた過去ログを閲覧することができます。

しかも、サイトA閉鎖後a,bが購読を解除していたとしてもc,d,eは過去ログを閲覧することができるのです。


キャッシュは半永久的に残る。

昨年末に閉鎖したコピペブログ・( ;^ω^)<へいわぼけを、一度も見たことがないという人はFeedのURLhttp://www.heiwaboke.com/atom.xmlをlivedoor Readerなりに登録してみてください。おそらくほとんどの過去ログを閲覧することができます。

また、これは数年前のサイトでも有効です。ブログ騒動で閉鎖したニャー速(2年前に閉鎖)ももはやInternet Archiveでしか閲覧できないと思うでしょうが、http://www.nyasoku.com/atom.xmlを登録すれば過去ログを閲覧することができます。


よって、閉鎖したサイトでFeedを配信していたところは、FeedのURLさえ分かれば過去ログを見ることができちゃうってことになります。


この方法で特定サイトの過去ログを閲覧することができますが、注意すべき点があります。

  1. オンラインリーダーに誰か一人でも購読していた人がいたら、キャッシュが残る。
  2. 購読者が0人になってもキャッシュは残る。
  3. 最初の購読者が購読したFeedから閉鎖するまでのFeedがキャッシュされている。

途中で購読0人になった場合Feedは更新され続けるのか、までは調べていませんが、もしかしたら閉鎖するまで最新のキャッシュが作られるのかもしれません。

オンラインリーダーは便利なものですが、保存されたキャッシュをどうにかするという方法は今現在あるのか私は知りません。


追記


追記2

今更ですが。

サービスによってはキャッシュ上限が決まっていると思います。Bloglineは200個までとかどこかでみたことがあるような。LDRも上限があるようですね。

Google Readerだと有名サイトのFeedが最古でも2005年10月のFeedを見ることができます。 via RSSリーダーのWEB魚拓機能 - ArtSaltのサイドストーリー

ArtSaltさんのコメントのほうに書きましたが、Google Readerのリリースが2005年10月11日で、その日から購読されたFeedが閲覧できるって訳なんですね。突き詰めると、Google Readerで購読されちゃうと、購読された時から閉鎖するまでのログがずーーーっと残っちゃうよ!ってことになります。


追記3

実際のところどうなっているのかはわかりませんが、間違いないと思います。


  • http://d.hatena.ne.jp/amatanoyo/rss

このFeedには9件の記事がありますね。ってことはですね、この9件の記事が仮に編集されたとしたらそれはすぐさまFeedに反映されるっていうことです。裏を返せば、それ以前の過去記事は更新されないってことになります。更に、このFeedにある記事を削除するとオンラインリーダーからも消えてくれますが*1、それ以前のものは消されることがありません。

もし、自分が使っているブログサービスで「全件更新」ができたり「すべてを再構築」できたりするものであれば、定期的にやっておいたほうがいいでしょう。

*1:ただし、一度反映されてしまえば次回巡回時まで晒され続けることになる。

こんにちはこんにちは 2009/04/30 21:38 サイト大変参考になります。恐縮ですが、お聞きしたいことがありますので、ご教授いただけましたら助かります。(Q1)Web魚拓で「robots.txtによってキャッシュが禁止されており取得できません。」と表示されるようなサイトでも、Livedoor Readerで閲覧できますでしょうか。(Q2)Web魚拓で取得できないキャッシュ(「robots.txtによってキャッシュが禁止されており取得できません。」)の、キャッシュを取得できる方法をご存知でしたらご教授いただけませんでしょうか。以上、ご回答いただけましたら助かります。よろしくお願いいたします。

amatanoyoamatanoyo 2009/05/01 00:09 (Q1)livedoor Readerは魚拓のように"型を取る"ものではなく、サイトが配信しているRSSフィードのキャッシュを保存しているだけです。もし、そのサイトがRSSフィードを配信している、あるいはしていたのであればlivedoor Readerでキャッシュを閲覧できるでしょう。
(Q2)基本的に魚拓のようなサービスはサイト側の意向を酌んでいることが多いので、外部で取得できるところは無いと思われます。あるとすれば自分で保存するか(たとえばFirefoxのScrapBookやWeBox)もしくはスクリーンショットをとるかでしょう。
なお、魚拓以外にもhttp://backupurl.com/ というサービスがありますが、こちらがどのような動作をするのかは知りません。

ありがとうございましたありがとうございました 2009/05/01 12:31 親切なアドバイス、ありがとうございました。backupurlは試してみたところ、日本語サイトでは文字化けがでるようでした。参考になりました。重ねて御礼申し上げます。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証