「クローリング」に高まる警戒感…生成AIで加速、著作権侵害やプライバシー懸念

スクラップ機能は読者会員限定です
(記事を保存)

「スクラップ機能」に登録したYOL記事の保存期間のお知らせ。詳細はこちら
メモ入力
-最大400文字まで

完了しました

メディア局デジタル事業グループ主任・元ロサンゼルス支局長 久保庭総一郎

 ネット上の情報をプログラムで大量収集する「クローリング(crawling)」と呼ばれる技術に警戒感が高まっています。巨大テック企業が検索エンジンのデータ構築などに活用しており、利便性が高まると容認されてきた部分もありましたが、最近は著作権やプライバシーを保護する観点から問題視する声が強くなっているのです。主な原因は、生成AI(人工知能)の急激な高度化と、その学習データの不透明性です。クローリングの歴史も振り返りつつ、警戒感の背景を考えたいと思います。

「クローリング」とは?

 クローリングとは英語で「巡回」を意味します。類似のパソコン用語に「スクレイピング(scraping)」という単語がありますが、こちらは「削りとる」という意味です。各ページを構成するプログラミング言語HTMLを調べ、データ構造を分析したうえで、必要な情報を収集することを指します。

米報道機関では、AIによる記事や写真の学習利用へ警戒感が高まっている(8月16日付読売新聞朝刊)
米報道機関では、AIによる記事や写真の学習利用へ警戒感が高まっている(8月16日付読売新聞朝刊)

 クローリングの歴史はネット普及期と重なり、1990年代初頭から開発がはじまっています。ホームページの存在自体が珍しかった時代に、アクセス可能なページ数を計測したのがはじまりです。その後、検索エンジンの基礎データ構築などを目的に高度化してきました。2000年代に入り検索大手のグーグル社が台頭すると、クローリングで蓄積したデータ量は爆発的に増えてきました。

相次ぐ米報道機関の「禁止」明示

 最近クローリングへの警戒感が表面化したのは、対話型AIサービス「チャットGPT」を開発した米オープンAIの8月上旬の動きが切っ掛けです。

オープンAIはクローリングソフトの仕様を公表した(出典:https://platform.openai.com/docs/gptbot) 
オープンAIはクローリングソフトの仕様を公表した(出典:https://platform.openai.com/docs/gptbot) 

 チャットGPTは大規模言語モデル(LLM)であり、精度向上に大量の学習データを必要とします。後続モデル開発に使う新たなクローリングソフト「GPTBot」の仕様が公表され、巡回される側のサイト運営者が、クローリングを「全面禁止」したり、「一部禁止」したりする方法が明記されたのです。

 米メディアの多くは、この事実をニュースとして報道しました。現行のチャットGPTに使われた学習データには、米報道機関の記事や写真も無断利用されているとの懸念が広がっていたためです。報道機関側にとって、自らのコンテンツがGPTの学習データに取り込まれたか立証するのは難しいのが現実です。米報道機関のサイトでは、新たなルールに従って、クローリング禁止を明確化する動きが相次ぎました。

 米有力紙ニューヨーク・タイムズのサイト設定ファイルをチェックすると、クローリング禁止が明記されています。

米ニューヨーク・タイムズのサイト設定には、クロール禁止が明記されている】(出典:https://www.nytimes.com/robots.txt)
米ニューヨーク・タイムズのサイト設定には、クロール禁止が明記されている】(出典:https://www.nytimes.com/robots.txt)

 同紙は加えて、サイト規約を改正し、自社サイトの記事や写真をAI学習に使うことを原則禁止としました。ニュースを扱う生成AIが開発された場合、ビジネス上の脅威になるとの思惑も働いたようです。

関連記事
海外旅行の落とし穴、空港でATMを使ったばっかりに

1

2

スクラップ機能は読者会員限定です
(記事を保存)

使い方
速報ニュースを読む 「入門!デジタル部」の最新記事一覧
注目ニュースランキングをみる
記事に関する報告
4614488 0 デジタルコラム 2023/10/07 17:00:00 2023/10/07 17:00:00 /media/2023/10/20231003-OYT1I50056-T.jpg?type=thumbnail
注目コンテンツ

注目ニュースランキング

主要ニュース

おすすめ特集・連載

読売新聞購読申し込みバナー

アクセスランキング

読売IDのご登録でもっと便利に

一般会員登録はこちら(無料)