10月 27

Internet ArchiveのWayback Machineが大幅にサービスをリニューアル

先のエントリでアプリケーションのWaybackの話を紹介しましたが、今回はInternet Archiveが提供するWayback Machineというサービスの話です。Internet ArchiveのWayback Machineが10月25日リニューアルし、サービス・機能を大幅に強化しました。

00
Internet Archive: Wayback Machine

 リニューアル前の画面も当然ですが、Internet Archiveに保存されていますので、見ることができます。
11
Internet Archive: Wayback Machine 2013/10/21

リニューアルの詳細

  リニューアルの詳細は、以下のIAブログで紹介されています。「この世界(インターネット)は俺たちに任せろ」といわんばかりのInternet Archiveの「アーカイブ」に対する強い自負が感じられるエントリです。

 まとめると以下になります。

1.アーカイブされたウェブページをより早く公開

 アーカイブされたウェブページをクローラーで収集されてから1時間強で利用できるようになりました。これまでは利用できるまで数ヶ月かかっていたようですので、すごい時間短縮です。


収集したことを知らせるとともに、利用できるようになるまで数ヶ月かかることを知らせる従来のメッセージ
from
Internet Archive“Wayback Machine” | 世界のウェブアーカイブ|国立国会図書館インターネット資料収集保存事業より

2.インスタント・オンデマンド・アーカイブサービス

 と、勝手ながら呼ばせていただきましたが、Internet Archiveはユーザーのリクエストに応じてウェブサイトにクローラーを走らせ、ウェブページを保存するサービスを開始しました。

 アーカイブされてから提供されるまで1で紹介したような機能強化がされても1時間強はかかりますが、リンクを貼るためのWayback Machineにおけるウェブページの固定URLはユーザーがアーカイブをリクエストをしたタイミングで知らせてくれます。

 ウェブページを引用や参考文献に使いたい研究者やWikipediaの執筆者、法律家、学生などだれでも利用することができます。1のクローラーによる収集からアーカイブされたウェブページの公開に至るまでの時間短縮とあわせて考えるとこれは凄い機能です。

 簡単に流れを紹介しますと

 トップページに以下のようなフォームが用意されています。Internet Archiveに保存を依頼したいウェブページのURLを入力します。
Save Page Nowというフォーム

そうすると、すぐにIAのクローラーが走り、ウェブページのアーカイブが開始します。
アーカイブ処理中をしらせる画面

無事、アーカイブ処理が終了するとその固定URLが表示されます。
アーカイブ処理が終了したことをしらせ、その固定URLが表示される

 上のURLでアーカイブされたウェブページが利用できるようになるのは、1時間ほど先ですが、固定URLはすぐに取得できます。論文やなにかの執筆などに挙げる参考文献のために安定したURLを提供する機能として考えれば、アカデミズムへの貢献という観点からみてもウェブアーカイブの面目躍如たる機能だと思います。

3.Wayback Availability JSON API

 Wayback Machineに保存されているかどうかをプログラムによって確認できるWayback Availability JSON APIが公開されました(おそらく新規公開)。

4.Web上からリンク切れをなくす取り組み

 Internet Archiveがアーカイブしたウェブサイトをオリジナルのウェブサイト管理者に活用してもらうことで、リンク切れをなくす取り組みです。

WordPress.com及びセルフホストでWordpressで構築されたウェブサイト

 WordPress.comで公開されているブログと、Wordpressによりセルフホストで構築されたサイト(えっ・・汗)、そして、それらからリンクが貼られている外部のウェブページを含めて、Internet Archiveはクローラーを走らせて保存しているそうです(1日URL300万件分が保存されているとのこと)。

 リンク切れがあった場合にInternet Archiveが保存したウェブサイトのURLに自動的に変更するWordpressのプラグイン”Broken Link Checker”をInternet Archiveが作成し、提供しています。

Wikipedia.org

 Wikipedia.orgの全ての更新記事や新規記事に掲載されている外部リンク先(outlinks)のウェブサイトにクローラーを走らせ、Wikipedia.orgからリンクを貼られているウェブサイトを保存しているそうです(1日URL500万件分が保存されているとのこと)。

 Wikipediaから貼られた外部のウェブサイトが仮に消失してしまい、リンク切れになったウェブサイトは自動的にInternet Archiveが保存したウェブサイトのURLに自動的に変更されるような仕組みについて、Internet ArchiveとWikipediaで協議しているとのことです。

全てのウェブマスター向け

 全てのウェブマスターに以下の数行を404ページに追加することを呼びかけています。

<div id="wb404"/>
<script src="https://archive.org/web/wb404.js"> </script>

 404ページに上の2行のタグを追加しておくと、あるURLのページが消失し、404画面が表示される際に仮にそのURLの過去のウェブサイトがInternet Archiveが保存されていた場合は以下のような案内を404画面に表示して、Wayback Machineに誘導してくれます。

その例が以下です。

 詳しくはIAブログの以下をご参照ください。

 Internet Arhiveのブリュースター・ケール氏、Internet Archiveへのアクセスの集中がすごいために、アクセスを散らすためにSiteless WebsiteなどというP2P方式のコンテンツ提供方式を考えたりしているらしいのですが、そんなInternet Achiveがアクセスを減らす方向ではなく、よりアクセスを集めそうなサービスを展開する、その姿勢はすげーと思います。

関連エントリ

10月 26

Internet ArchiveがHistorical Software Archiveを公開。あのソフトウェアをブラウザ上で実行できるぞ

  Internet Archiveが10月25日にHistorical Software Archive(Historical Software Collection)を公開しました。Internet Archiveはすでに過去のソフトウェアをアーカイブしたSoftware Collection を公開していますが、Historical Software Archiveはその中から著名で歴史的に重要なものを集めたコレクションだそうです。

 Historical Software Archiveと他のソフトウェアコレクションとの違いは、Historical Software Archiveのほうはソフトウェアをブラウザ上で実行できるということでしょうか。JSMESSというJavaScriptベースのエミューターが使用されているそうです。JSMESSが対応している環境が多くてすごい・・・。

 公開されているソフトウェアは28とまだ多くはなく、気のせいか、いや、まちがいなく、ゲームが多くを占めているような・・・。その多くないタイトルの中にあのカラテカがあったりして、ブラウザで遊べたりとか・・・。

10月 13

Open Wayback Project – Waybackをオープンソース化して開発をリランチ

 Waybackといえば、Internet Arhiveが提供するWayback Machineというアーカイブされた過去のウェブサイトを閲覧するウェブサービスが有名ですが、アーカイブされたウェブサイトを閲覧するためのWaybackというアプリケーションもあります。Internet Archiveが中心となって開発し、Internet Archiveがこのアプリケーションを使用してWayback Machineというサービスを提供していますので、サービスとアプリケーションが混同されがちですが(IAの中の人は区別してないかもねぇ・・)、この両者は一応区別されるべきものです。IA以外にアプリケーション”Wayback”を使用している機関はいくつかあるようです。

 前置きが長くなりましたが、今回は後者のアプリケーションの話です。
 
 これまで、Waybackの開発は前述のようにInternet Archiveが中心になって進めてきましたが、今後はアイスランド国立大学図書館、ロスアラモス国立研究所、ノルウェー国立図書館が中心になり、オープンソースとして開発をすすめることなりました。Internet Achiveは英国図書館、フランス国立図書館とともに中心貢献機関という立場で、コード全体の監督やこれまで作成してきたコードの提供をする立場になり、直接の開発から離れることになったようです。

 International Internet Preservation Consortium(IIPC)のウェブサイトでOpen Wayback Projectのページが公開されています。