「クローリング」に高まる警戒感…生成ＡＩで加速、著作権侵害やプライバシー懸念

2023/10/07 17:00

メディア局デジタル事業グループ主任・元ロサンゼルス支局長　久保庭総一郎

　ネット上の情報をプログラムで大量収集する「クローリング（ｃｒａｗｌｉｎｇ）」と呼ばれる技術に警戒感が高まっています。巨大テック企業が検索エンジンのデータ構築などに活用しており、利便性が高まると容認されてきた部分もありましたが、最近は著作権やプライバシーを保護する観点から問題視する声が強くなっているのです。主な原因は、生成ＡＩ（人工知能）の急激な高度化と、その学習データの不透明性です。クローリングの歴史も振り返りつつ、警戒感の背景を考えたいと思います。

「クローリング」とは？

　クローリングとは英語で「巡回」を意味します。類似のパソコン用語に「スクレイピング（ｓｃｒａｐｉｎｇ）」という単語がありますが、こちらは「削りとる」という意味です。各ページを構成するプログラミング言語ＨＴＭＬを調べ、データ構造を分析したうえで、必要な情報を収集することを指します。

米報道機関では、ＡＩによる記事や写真の学習利用へ警戒感が高まっている（８月１６日付読売新聞朝刊）

　クローリングの歴史はネット普及期と重なり、１９９０年代初頭から開発がはじまっています。ホームページの存在自体が珍しかった時代に、アクセス可能なページ数を計測したのがはじまりです。その後、検索エンジンの基礎データ構築などを目的に高度化してきました。２０００年代に入り検索大手のグーグル社が台頭すると、クローリングで蓄積したデータ量は爆発的に増えてきました。

相次ぐ米報道機関の「禁止」明示

　最近クローリングへの警戒感が表面化したのは、対話型ＡＩサービス「チャットＧＰＴ」を開発した米オープンＡＩの８月上旬の動きが切っ掛けです。

オープンＡＩはクローリングソフトの仕様を公表した（出典：ｈｔｔｐｓ：／／ｐｌａｔｆｏｒｍ．ｏｐｅｎａｉ．ｃｏｍ／ｄｏｃｓ／ｇｐｔｂｏｔ）

　チャットＧＰＴは大規模言語モデル（ＬＬＭ）であり、精度向上に大量の学習データを必要とします。後続モデル開発に使う新たなクローリングソフト「ＧＰＴＢｏｔ」の仕様が公表され、巡回される側のサイト運営者が、クローリングを「全面禁止」したり、「一部禁止」したりする方法が明記されたのです。

　米メディアの多くは、この事実をニュースとして報道しました。現行のチャットＧＰＴに使われた学習データには、米報道機関の記事や写真も無断利用されているとの懸念が広がっていたためです。報道機関側にとって、自らのコンテンツがＧＰＴの学習データに取り込まれたか立証するのは難しいのが現実です。米報道機関のサイトでは、新たなルールに従って、クローリング禁止を明確化する動きが相次ぎました。

　米有力紙ニューヨーク・タイムズのサイト設定ファイルをチェックすると、クローリング禁止が明記されています。

米ニューヨーク・タイムズのサイト設定には、クロール禁止が明記されている】（出典：ｈｔｔｐｓ：／／ｗｗｗ．ｎｙｔｉｍｅｓ．ｃｏｍ／ｒｏｂｏｔｓ．ｔｘｔ）

　同紙は加えて、サイト規約を改正し、自社サイトの記事や写真をＡＩ学習に使うことを原則禁止としました。ニュースを扱う生成ＡＩが開発された場合、ビジネス上の脅威になるとの思惑も働いたようです。

使い方

速報ニュースを読む「入門！デジタル部」の最新記事一覧

注目ニュースランキングをみる

記事に関する報告

主要ニュース

おすすめ特集・連載

注目ワード

「クローリング」に高まる警戒感…生成ＡＩで加速、著作権侵害やプライバシー懸念

「クローリング」とは？

相次ぐ米報道機関の「禁止」明示

関連ワード

注目ニュースランキング

主要ニュース

おすすめ特集・連載

アクセスランキング

新着プレゼント

読売新聞オンラインからのお知らせ