AI開発者が怯える「影の図書館」問題　海賊版だらけの学習データ

By 杉山翔吾日経ビジネス記者
Read time:5min
2023.10.26

印刷

AI（人工知能）業界が揺れている。AIの事前学習に広く用いられていた大規模なオープンデータが突然、削除されたためだ。データの一部が、海賊版の書籍データを寄せ集めた、通称「影の図書館」から構築されていたことが問題視された。多くの企業にとって海賊版データによるAI開発は倫理的に認められない。オープンデータの安全性が揺らぐ中、最新の研究で海賊版対策の糸口も見え始めた。

海賊版の書籍データを集めた「影の図書館」が問題視されたことが、AI開発に大きな影響を及ぼしている（写真＝Ociacia / Getty Images）

　「生成AIの開発者はみんなビクビクしていますよ。いつどんな通達が届くか分かりませんから」

　日本のAI開発をけん引するプリファードネットワークス（PFN、東京・千代田）で働くある技術者はそう明かす。

　同社が今年夏、自社開発した生成AIのコア技術である大規模言語モデル（LLM）の公開を急きょ見送っていたことがわかった。学習に用いていたオープンデータセットの一部である「Books3」に、著作権上の問題があったことが発覚。企業倫理的に公開が難しいと判断したためだ。結局このLLMはお蔵入りとなり、同時期に開発を進めていたより大規模なLLMだけを、海賊版データを削除して学習し直し、9月下旬に公開した。

　Books3はLLM開発における有力なオープンデータセットの1つだ。米メタなども開発に用いてきた。その流れが変わったのは8月。デンマークの権利者団体であるRights Allianceが、デジタルミレニアム著作権法（DMCA）侵害の疑いがあるとしてBooks3の削除を申請したのだ。

　この申請により、Books3のデータ入手元が実は、代表的な影の図書館「Bibliotik」に収められた約20万冊に及ぶ海賊版書籍だったことが明るみに出た。要請を受ける形でBooks3をホストしていた団体は、Books3だけでなく、Books3を含んだ巨大なテキストデータセット「The Pile」もインターネット上から丸ごと削除した。消えたデータ量は800ギガバイトを超え、そのファイルサイズは英語版ウィキペディア全記事の100倍以上に当たるという。

この記事は有料会員登録で続きをご覧いただけます

残り1538文字 / 全文2399文字

お申し込みログイン

【年間購読で7,500円おトク】有料会員なら…

毎月約400本更新される新着記事が読み放題
日経ビジネス14年分のバックナンバーも読み放題
会員限定の動画コンテンツが見放題

有料会員と登録会員（無料）の違いを詳しく見る

SHARE
- URLをコピーしました
記事を贈る
後で読む
文字サイズ
テキストサイズ

この記事のシリーズ

ChatGPTの衝撃

米OpenAI（オープンAI）が2022年11月に公開した対話AI（人工知能）「ChatG…

シリーズをフォロー

英会話アプリ、会員1000万人でユニコーンに　OpenAIも出資

杉山翔吾

7min read
2025.02.27

「DeepSeekショック」追い風にするMeta　揺らぐOpenAIの優位性

杉山翔吾

6min read
2025.02.17

孫正義氏「超知能AIは日本の大企業から始まる」　OpenAIと新会社

杉山翔吾

6min read
2025.02.04

オススメのシリーズFOR YOU

日産、再起への苦闘

業界の雄だった日産自動車が大きな壁にぶち当たっている。2025年3月期は6708億円の最終赤字に転落。800万台…

シリーズをフォロー

会計で強くなる

時代にあわせて中身を変え、企業に対応を迫ってきた会計基準。実績だけでなく将来展望も開示するようになった。そんな中…

シリーズをフォロー

物言う社外取締役

コーポレートガバナンス・コードが制定されて10年。形式的・機械的に社外取締役を増やす傾向も強まり、機能不全を起こ…

シリーズをフォロー

特集インサイド

日経ビジネス最新号の特集の見どころを、担当した記者やデスクが3分間で語る。「最初の読者」としてナビゲーターを務め…

シリーズをフォロー

河合薫　上司と部下の力学

上司と部下が、職場でいい人間関係を築けるかどうか。それは、日常のコミュニケーションにかかっている。このコラムでは…

シリーズをフォロー

森永輔世界の今･日本の将来

東経139度44分28秒。北緯35度39分29秒。地球における東京の位置を、「客観的」かつ「世界に共通する表現」…

シリーズをフォロー

あなたにオススメFOR YOU

ビジネストレンド [AD]

VIEW ALL

【年間購読で7,500円おトク】有料会員なら…

この記事のシリーズ

ChatGPTの衝撃

英会話アプリ、会員1000万人でユニコーンに OpenAIも出資

「DeepSeekショック」追い風にするMeta 揺らぐOpenAIの優位性

孫正義氏「超知能AIは日本の大企業から始まる」 OpenAIと新会社

オススメのシリーズFOR YOU

日産、再起への苦闘

会計で強くなる

物言う社外取締役

特集インサイド

河合薫 上司と部下の力学

森永輔 世界の今･日本の将来

あなたにオススメFOR YOU

パワハラで解任、「私のようにならないで」 元・流経大柏高ラグビー部監督

「手挙げ制度」で1万3000人が大異動 新卒5年目の部長級誕生 人事改革、業態変化促す

日産は復活できるか 強面ではない外国人社長、「遅い意思決定」テコ入れ

「富士通はこのままではダメになる」 時田社長がメインフレーム依存に抱いた危機感

日銀、円安阻止の利上げなら12月か 植田総裁の「地ならし」発言を市場注視

みんなで大家さん「成田借地問題」、あっけない幕切れの舞台裏

ビジネストレンド [AD]

英会話アプリ、会員1000万人でユニコーンに　OpenAIも出資

「DeepSeekショック」追い風にするMeta　揺らぐOpenAIの優位性

孫正義氏「超知能AIは日本の大企業から始まる」　OpenAIと新会社

河合薫　上司と部下の力学

森永輔世界の今･日本の将来

パワハラで解任、「私のようにならないで」元・流経大柏高ラグビー部監督

「手挙げ制度」で1万3000人が大異動新卒5年目の部長級誕生人事改革、業態変化促す

日産は復活できるか強面ではない外国人社長、「遅い意思決定」テコ入れ

「富士通はこのままではダメになる」時田社長がメインフレーム依存に抱いた危機感

日銀、円安阻止の利上げなら12月か植田総裁の「地ならし」発言を市場注視