AI(人工知能)業界が揺れている。AIの事前学習に広く用いられていた大規模なオープンデータが突然、削除されたためだ。データの一部が、海賊版の書籍データを寄せ集めた、通称「影の図書館」から構築されていたことが問題視された。多くの企業にとって海賊版データによるAI開発は倫理的に認められない。オープンデータの安全性が揺らぐ中、最新の研究で海賊版対策の糸口も見え始めた。

海賊版の書籍データを集めた「影の図書館」が問題視されたことが、AI開発に大きな影響を及ぼしている(写真=Ociacia / Getty Images)
海賊版の書籍データを集めた「影の図書館」が問題視されたことが、AI開発に大きな影響を及ぼしている(写真=Ociacia / Getty Images)

 「生成AIの開発者はみんなビクビクしていますよ。いつどんな通達が届くか分かりませんから」

 日本のAI開発をけん引するプリファードネットワークス(PFN、東京・千代田)で働くある技術者はそう明かす。

 同社が今年夏、自社開発した生成AIのコア技術である大規模言語モデル(LLM)の公開を急きょ見送っていたことがわかった。学習に用いていたオープンデータセットの一部である「Books3」に、著作権上の問題があったことが発覚。企業倫理的に公開が難しいと判断したためだ。結局このLLMはお蔵入りとなり、同時期に開発を進めていたより大規模なLLMだけを、海賊版データを削除して学習し直し、9月下旬に公開した。

 Books3はLLM開発における有力なオープンデータセットの1つだ。米メタなども開発に用いてきた。その流れが変わったのは8月。デンマークの権利者団体であるRights Allianceが、デジタルミレニアム著作権法(DMCA)侵害の疑いがあるとしてBooks3の削除を申請したのだ。

 この申請により、Books3のデータ入手元が実は、代表的な影の図書館「Bibliotik」に収められた約20万冊に及ぶ海賊版書籍だったことが明るみに出た。要請を受ける形でBooks3をホストしていた団体は、Books3だけでなく、Books3を含んだ巨大なテキストデータセット「The Pile」もインターネット上から丸ごと削除した。消えたデータ量は800ギガバイトを超え、そのファイルサイズは英語版ウィキペディア全記事の100倍以上に当たるという。

この記事は有料会員登録で続きをご覧いただけます
残り1538文字 / 全文2399文字

【年間購読で7,500円おトク】有料会員なら…

  • 毎月約400本更新される新着記事が読み放題
  • 日経ビジネス14年分のバックナンバーも読み放題
  • 会員限定の動画コンテンツが見放題