「クローリング」に高まる警戒感…生成AIで加速、著作権侵害やプライバシー懸念
完了しました
ネット上の情報をプログラムで大量収集する「クローリング(crawling)」と呼ばれる技術に警戒感が高まっています。巨大テック企業が検索エンジンのデータ構築などに活用しており、利便性が高まると容認されてきた部分もありましたが、最近は著作権やプライバシーを保護する観点から問題視する声が強くなっているのです。主な原因は、生成AI(人工知能)の急激な高度化と、その学習データの不透明性です。クローリングの歴史も振り返りつつ、警戒感の背景を考えたいと思います。
「クローリング」とは?
クローリングとは英語で「巡回」を意味します。類似のパソコン用語に「スクレイピング(scraping)」という単語がありますが、こちらは「削りとる」という意味です。各ページを構成するプログラミング言語HTMLを調べ、データ構造を分析したうえで、必要な情報を収集することを指します。
クローリングの歴史はネット普及期と重なり、1990年代初頭から開発がはじまっています。ホームページの存在自体が珍しかった時代に、アクセス可能なページ数を計測したのがはじまりです。その後、検索エンジンの基礎データ構築などを目的に高度化してきました。2000年代に入り検索大手のグーグル社が台頭すると、クローリングで蓄積したデータ量は爆発的に増えてきました。
相次ぐ米報道機関の「禁止」明示
最近クローリングへの警戒感が表面化したのは、対話型AIサービス「チャットGPT」を開発した米オープンAIの8月上旬の動きが切っ掛けです。
チャットGPTは大規模言語モデル(LLM)であり、精度向上に大量の学習データを必要とします。後続モデル開発に使う新たなクローリングソフト「GPTBot」の仕様が公表され、巡回される側のサイト運営者が、クローリングを「全面禁止」したり、「一部禁止」したりする方法が明記されたのです。
米メディアの多くは、この事実をニュースとして報道しました。現行のチャットGPTに使われた学習データには、米報道機関の記事や写真も無断利用されているとの懸念が広がっていたためです。報道機関側にとって、自らのコンテンツがGPTの学習データに取り込まれたか立証するのは難しいのが現実です。米報道機関のサイトでは、新たなルールに従って、クローリング禁止を明確化する動きが相次ぎました。
米有力紙ニューヨーク・タイムズのサイト設定ファイルをチェックすると、クローリング禁止が明記されています。
同紙は加えて、サイト規約を改正し、自社サイトの記事や写真をAI学習に使うことを原則禁止としました。ニュースを扱う生成AIが開発された場合、ビジネス上の脅威になるとの思惑も働いたようです。
1
2