最初に言っておくと自分は反AIではないし実際この記事を書くにあたってもリサーチにAIを使ったりしているわけですが、とはいえ何事にも良い面悪い面はあるわけで、これはAIがもたらした負の影響についての話です。
非営利団体のInternet Archiveはみなさんご存じでしょうか。有名なのはWayback Machineというサービスですね。
Web上の膨大なページがアーカイブされていて、今は閉鎖されたサイトなども閲覧することができたり、また時系列で履歴管理されているので、更新をさかのぼって古いバージョンを見ることもできます。
Internet Archiveにはほかにも書籍のアーカイブや音源のアーカイブなどいろいろあるのですが、今日はこのWayback Machineが主役です。
Webのアーカイブ化に危機が訪れている
先日、Internet Archiveの公式Xアカウントがこんなニュースを紹介していました。
ニューヨーク・タイムズ、ガーディアン、USAトゥデイといった大手のメディアや、redditのようなコミュニティサービスが続々とInternet Archiveのクローラ(ページを巡回してデータを保存するbot)をブロックし始めており、それに対して「知識の公共性が損なわれる」とした公開書簡が公開され、100名を超えるメディア関係者が署名したとのことです。
ジャーナリストたちにとってInternet Archiveが重要である理由として
- 政策ジャーナリストが過去の政府文書を閲覧するため
- 調査報道の一環として、不祥事などで削除された資料を再表示するため
- 自治体や公共機関等が一定期間で削除している文書をあとから閲覧するため
- 音楽分野等のジャーナリストがポピュラーカルチャーの過去の歴史をたどるため
等が例に挙げられています。
なぜアーカイブされないと不幸なのか
これは遠い世界の話ではありません。
Internet Archiveはこうした海外のジャーナリストだけのものではないんです。
たとえば、個人的にもこのサービスをよく活用しています。
仕事でサイトの引っ越しをしたときは、引っ越し先でうまく表示されないページが引っ越し前にどのように表示されていたか見るのに活用しました。
また日本ではgeocitiesやinfoseekをはじめとした90年代~2000年代初頭に使用されていたホームページのホスティングサービスの大半がサービス終了しているため、当時の情報はInternet Archiveがないと閲覧できないんですよね。
それから、過去に自分がライターとして執筆していたメディアでサービス終了してしまったものもあり、そういった記事をサルベージするにもInternet Archiveは有効です。
※余談ですがかなりお世話になっているので、毎月少額ですが寄付をしています。(ドネーションページ)
さらに、一時期ロストメディアを捜索するYouTubeをよく見ていたのですが、アーカイブ上にある昔の2chのログや当時のTV番組のサイトが情報源としてフル活用されていました。
それからネットミームに使われている画像の出典はどこなのか、といった調査をする際にもアーカイブが非常に有効です(初出のページが削除されていることは頻繁にある)。
より社会的な視点でいうと、特定の写真の出典が調べられるということはフェイクニュース対策としても有効なのは想像に難くないですよね。
そしてちょっと前に高市首相が自己のサイトの記事を削除したニュースが話題になりましたが、何が消されたのか調べるにはまさにInternet Archiveはうってつけです。
くわえて、Wikipediaには出典元としてInternet Archiveのアーカイブがリンクされていることがよくあります。Wikipediaの信頼性の一部を担保しているのが実はInternet Archiveなわけです。
AIの台頭が状況を悪化させた
話がそれましたが、Internet Archiveのクローラがブロックされている、という話に戻ります。
なぜこのような状況になってきたのか。その大きな原因の一つに、AIの台頭があります。
Webサイトを運営している人は、毎日大量のAIサービスのbotが、学習用データを求めてネットを巡回しているのに気付いていると思います。
メディアとAI事業者の間には対立があります。メディアとしては、苦労して集めた情報/金をかけて仕上げた記事を人に読んでもらうためにアップしているのに、タダでAIに持っていかれたらたまらないわけですよ。そのうえAIサービスはまるで自分の知識のようにその情報を人々に提供し、そのせいでメディアのサイトに人が来なくなり、広告収入も激減です。
それに対抗するため、メディアとしてはブロックする必要がある。それならAIのbotだけブロックすればいいじゃんっていう話なんですけど、実はブロックしても抜け道があるんですね。それがInternet Archiveです。AIはアーカイブされたものをクロールすれば、本家にブロックされていても情報が得られるわけです。
だから、メディアはその抜け道をふさぐため、Internet Archiveのクローラもブロックするようになりました。
で、上で紹介したニュースに至る、というわけです。
とはいってもInternet ArchiveがAIbotのクロールを黙って見ているわけではなくて、ちゃんとAI対策をしていると発表しています。
ただメディア側としては「可能性がある」だけでも看過できないというところはあるでしょうね。
ニュースを見ての感想
まず言っておくと、この件には一定のツッコミどころがあると思います。上で書いたInternet Archiveの利点のうちのいくつか、たとえば過去の政府文書が見られるとか、不祥事で削除された資料見るとかいうのは公文書の話であって、メディアの記事とは関係ありません。なのでちょっとミスリードな印象が正直あります。
とはいえ主張として的外れかというとそうでもなくて、こうしてインターネット全体がアーカイブ軽視の風潮になり、Internet Archiveがその存在感を失っていくと、いずれ公文書等も含めすべてがアーカイブ化されなくなる時代はやってきます。そうならないように、この段階で声を上げておく意味はあると思います。
また、「メディアが金をかけて作った記事を勝手にアーカイブ化しておいて、それができなくなったから抗議するというのは勝手なのでは?」という意見もありそうです。ただこれについては米国では著作権のフェアユースの概念があるので、その社会的意義に照らした場合に、どうあるべきかというのは日本人の感覚とはちょっと違ってくると思います。(もちろん議論はあってもいいと思いますが)
あと別の話として、実はAIがなかったとしても、いまインターネットをアーカイブするのは難しい時代が来ている、ということにも留意が必要です。自分の知る限りでも、3つほどの事情が思い浮かびます。
ひとつにはWebページの動的化があって、要はページを読み込んでからJavascript等であとでコンテンツを読み込むつくりのWebサイトが増えているので、そういった仕組みにInternet Archiveが対応できていないケースがたまにあります。(全く対応していないわけでないが、すべてに対応できているわけではないという話)
それからSNSによる情報の囲い込みです。DiscordやInstagram/Facebookなど、ログインしないと情報が閲覧できないソーシャルサービスが台頭しています。それらのサービスの中の情報はInternet Archiveには残らなくなっています。特定のDiscordチャンネル発のミームの起源を5年後に探ることは不可能でしょう。
最後に、メディアのビジネスモデルの変化です。広告モデルが崩壊しつつあります。記事を無料で読ませて広告収入を得る代わりに、記事の冒頭だけを公開し、有料会員だけに続きを読ませるサイトが増えています。この有料の壁はペイウォールとか呼ばれますが、このペイウォールの存在も情報のアーカイブ化を妨げています。
日本ではどうか
ちなみに日本でいうと、メディア系では朝日新聞や読売新聞はトップページだけアーカイブされているものの個別の記事はアーカイブなし。
一方で日経新聞は個別の記事もアーカイブがあるのですが、「ここから先は有料です」として後半が省略されたものです。
コミュニティ系ではnoteがクローラをブロックしています。
また日本の著作権法には先ほど触れたフェアユースの概念がないことも米国とは事情の違うところだと思います。
Internet Archiveは米国の組織なので即違法とは言えないと思いますが、Web魚拓も同じ事情で米国にサーバを置いているという話もありますし、僕は法律の専門家ではないので確かなことは言えませんが、国内法ではグレーな部分があるのかもしれません。
ただ、アーカイブが残ることの有用性については、日本でも米国でも同じです。
デジタルタトゥーなどという言葉もありネットに載せた情報は消えないと思われることも多いですが、先に触れたgeocitiesやinfoseekの例もあるように、実は情報はどんどん失われています。これは単にデジタル情報が失われているという話ではありません。情報のデジタル化が進み紙の情報がどんどん減っているので、デジタル情報が失われるということは、人類の歴史自体が失われ、あとで振り返ったときに暗黒時代となってしまう可能性が高まっています。
そういった状況を防ぐために、Internet Archiveには頑張ってほしいし、各個人や企業がインターネットに情報を公開するときはできるだけアーカイブできるような形にしてほしいというのが個人的な意見です。