AI(人工知能)業界が揺れている。AIの事前学習に広く用いられていた大規模なオープンデータが突然、削除されたためだ。データの一部が、海賊版の書籍データを寄せ集めた、通称「影の図書館」から構築されていたことが問題視された。多くの企業にとって海賊版データによるAI開発は倫理的に認められない。オープンデータの安全性が揺らぐ中、最新の研究で海賊版対策の糸口も見え始めた。
「生成AIの開発者はみんなビクビクしていますよ。いつどんな通達が届くか分かりませんから」
日本のAI開発をけん引するプリファードネットワークス(PFN、東京・千代田)で働くある技術者はそう明かす。
同社が今年夏、自社開発した生成AIのコア技術である大規模言語モデル(LLM)の公開を急きょ見送っていたことがわかった。学習に用いていたオープンデータセットの一部である「Books3」に、著作権上の問題があったことが発覚。企業倫理的に公開が難しいと判断したためだ。結局このLLMはお蔵入りとなり、同時期に開発を進めていたより大規模なLLMだけを、海賊版データを削除して学習し直し、9月下旬に公開した。
Books3はLLM開発における有力なオープンデータセットの1つだ。米メタなども開発に用いてきた。その流れが変わったのは8月。デンマークの権利者団体であるRights Allianceが、デジタルミレニアム著作権法(DMCA)侵害の疑いがあるとしてBooks3の削除を申請したのだ。
この申請により、Books3のデータ入手元が実は、代表的な影の図書館「Bibliotik」に収められた約20万冊に及ぶ海賊版書籍だったことが明るみに出た。要請を受ける形でBooks3をホストしていた団体は、Books3だけでなく、Books3を含んだ巨大なテキストデータセット「The Pile」もインターネット上から丸ごと削除した。消えたデータ量は800ギガバイトを超え、そのファイルサイズは英語版ウィキペディア全記事の100倍以上に当たるという。
【年間購読で7,500円おトク】有料会員なら…
- 毎月約400本更新される新着記事が読み放題
- 日経ビジネス14年分のバックナンバーも読み放題
- 会員限定の動画コンテンツが見放題