「インターネットの図書館」とも呼ばれる、WebArchiveというサービスをご存じだろうか?「○○というURLの○○年○○月○○日の状態」というように、インターネット上のページを時系列でキャッシュ化しまくっているウェブサービス。URLを検索すれば、そのサイトの過去の姿を拝むことが出来るのだ。当然、既に閉鎖されて見れなくなっているサイトでもOK。ただ、いかんせんサイトが重いし、日本語はエンコードの関係で文字化けする。ページ単位での閲覧なら実用的に不満はないが、「昔の神サイトを全部まとめて読みたい」といったケースではストレスが溜まってしまう。Warrickを使い、サイト全体を一括でダウンロードしてしまおう。ローカルに過去の神サイトアーカイブを保存することができるぞ。
Warrickの動作にはActivePerlが必要だ。作者のページからダウンロードしてインストールし、さらにWarrickを作者のページからダウンロードして解凍。「C:\Program Files\warrick」にコピーする。基本的にパスは任意だが、コマンドプロンプトに不慣れな人は、必ずこのパスを使うこと。
まずWebArchiveで当該URLを検索する。検索結果に並ぶのは、そのアドレスの各時期におけるキャッシュ。なるべく新しく、かつ閉鎖前のキャッシュを探すのだ。日本語サイトの場合は、検索結果を開くと文字化けが発生するが、エンコードをShift_JISに変更すれば直る。既に閉鎖した個人サイト、ニーツオルグの場合は2006年2月27日だった。
また、詳しいメカニズムは割愛するが、キャッシュページでサイト内ページへのリンク(「過去ログ」など)にマウスを載せてみよう。ステータスバーに表示されるリンク先アドレスが「http://web.archive.org/web/~」になっているサイトなら、この後の方法で復元可能だ。このページのように、サイト内リンクが「http://そのサイトのアドレス/~」になっているサイトの場合は無理。
コマンドプロンプトを起動し、まず「cd ../../Program Files\warrick」と入力しエンター。「C:\Program Files\warrick」と表示されるはずなので、「warrick.pl -r -c -wr ia -dr 年-月-日 一括DLしたいサイトのURL」と入力しエンター。
あとは完全自動。一つずつページがダウンロードされるのでしばらく待とう。
warrickフォルダ以下にドメイン別のフォルダが作成され、内部にファイルがダウンロードされる。ちなみに、このファイルを開いた場合は、日本語ページでも文字化けは起こらないので、エンコード変更の必要はない。
2007年01月24日 16:56