2025.09.18

AIモデルを構築するために、大量の書籍を破壊したAnthropicの功罪

「世界中のすべての本」をデジタル化することは、決して消えないアーカイブをつくることになるのか、それとも出版文化の衰退を招くのか。

2025年6月23日月曜日、人工知能（AI）企業Anthropicが、ChatGPTと同種のAIアシスタントClaudeの開発を目的として、印刷された書籍を何百万ドルもの費用をかけて物理的にスキャンしていたことが、裁判文書によって明らかにされた。

その過程において同社は、数百万冊の書籍のページを物理的に切り取り、スキャンによってデジタルファイル化し、原本を廃棄した。その目的はたったひとつ、AIに学習させることだった──これは、広範囲のフェアユースに対してどのような影響を及ぼすのかということに加えて、著作権のフェアユースに関する判決のなかに埋もれていたその詳細だ。

法をかいくぐってもスキャンする

Anthropicは、Google Booksにおけるスキャン計画のパートナーシップ責任者だったトム・ターヴィーを24年2月に雇用し、「全世界の書籍をすべて入手する」任務を課した。32ページにわたる判決文にはその経緯が記されている。この戦略的な雇用は、グーグルが法的責任を問われることなく書籍のデジタル化をやり遂げたことを受けて、そのアプローチ方法──著作権をめぐる裁判を無事にくぐり抜け、フェアユースについてのカギとなる判例を打ち立てたスキャン工程──の再現を目論んだもののようだ。

デジタル化の過程で書籍を破壊していくというのは一般的に行なわれていることだが、Anthropicのやり方が普通ではなかったのは、その規模が非常に大掛かりだったと記録されている点だ。対照的にGoogle Booksでは、書籍を断裁することなくカメラを用いてスキャンするという、特許を取得した作業工程によって、図書館から借り出した何百万冊もの本をスキャンし、その後返却していた。

断裁を伴う方法はより高速でより低コストであるがゆえに、Anthropic社内では、物理的な書籍そのものを保存する必要性など一顧だにされなかったということなのだろう。これは競争の激しい業界においては、いかに低いコストで安易な解決策が求められるのか、ということを示す実例でもある。

結論から言えば、ウィリアム・アルサップ判事は、断裁を伴うこのスキャン作業について、フェアユースと認められるという判決を下した──ただしその根拠は、Anthropicがまず書籍を合法的に購入し、スキャンした後にそれを破棄し、デジタル化したファイルを頒布することなく社内で保管したから、という点に絞られる。判事はこの工程を、形式を変換することで「省スペース化」することになぞらえ、トランスフォーマティブユース（変容的利用）に当たると判断したのだ。

もしAnthropicが初めからこの方法を貫いていれば、AIをめぐるフェアユースを法的に認めた最初の判例を打ち立てられていたかもしれない。だがそうはならず、それ以前に行なっていた著作権侵害行為によって、同社はその企業イメージを下げることになった。

だが、AI業界と著作権に詳しくない読者なら、なぜひとつの企業が何百万ドルもの費用をかけてまで書籍を破壊するのだろうかと首を傾げるかもしれない。奇妙な法律上の駆け引きの背後には、より根本的な要因が潜んでいるのだ。つまりAI業界は、高品質なテキストへの留まるところを知らない渇望を抱えているということだ。

Anthropic、AI著作権訴訟の和解で少なくとも15億ドルを支払いへ

Anthropicは無断で取得した著作物1件ごとに、3,000ドルを支払うことになる。同社はAI学習データ収集の初期に、海賊版をダウンロードしていたとされる。

高品質なAI学習用データの取り合い

Anthropicが何百万冊もの書籍をスキャンしたがる理由を理解するためには、ChatGPTやClaudeを動かしているような大規模言語モデル（LLM）を構築するために、AIリサーチャーたちが莫大な数の言葉をニューラルネットワークに与えていることを知っておかなければならない。AIシステムは学習の過程においてテキストを繰り返し処理することで、単語と概念とのあいだに統計学的な関係を構築していくのだ。

ニューラルネットワークに与えられた学習データの品質は、そこから構築されるAIモデルの性能に直接的な影響を及ぼす。きちんと編集された書籍や記事を用いて学習したAIモデルは、例えば無作為に選ばれたYouTubeコンテンツのような質の低いテキストを用いて学習したAIモデルに比べて、より首尾一貫した正確な回答を返す傾向がある。

出版社は、AI企業が心の底から求めているコンテンツを法的に管理している。だがAI企業のほうは、必ずしも使用許諾についての交渉を望んでいない。それを回避する方法をもたらしたのが、ファーストセール・ドクトリンだ。つまり、ひとたび物理的な書籍を購入した者は、破壊することを含めてその書籍を自由にできる、という原則だ。物理的な書籍を購入すれば、法的な回避策が手に入るということになる。

だが合法とはいえ、物を購入するには金がかかる。そういうわけで数多くのAI企業がそうしてきたように、当初はAnthropicもまた手っ取り早くて安易な道を選んだ。裁判所に提出された書類によるとAnthropicはまず、高品質な学習用データを求めてデジタル化された海賊盤書籍をかき集めることにしたのだ。これは、CEOのダリオ・アモデイが言うところの「法的／手続き的／ビジネス的苦行」──すなわち、使用許諾をめぐる出版社との複雑な交渉──を避けるために選択した行動だった。だがAnthropicは24年までに、法的な理由から海賊盤書籍を用いることへの熱意は薄れ、より安全な出所のものが必要だと感じるようになった。

中古の書籍を購入して利用すれば、使用許諾の問題を完全に回避し、かつAIモデルが学習のために必要としているプロの手で編集された高品質なテキストデータが手に入る。そして断裁しながらのスキャンというのは、何百万冊もの書籍をデジタル化するためにはとにかく最速の手段だ。

Anthropicは、購入してスキャンするというこの作業に何百万ドルも費やした。その際には、古本をまとめて一括購入することもしばしばだった。そうして製本されている書籍をバラし、作業できるサイズにページを断裁し、表紙を含む大量の紙の束をスキャンして機械判読可能なPDFファイルを作成したのち、紙のオリジナル版をすべて廃棄したのだ。

裁判文書には、この作業工程において稀覯本が破棄されたとは記されていない──Anthropicは大手の小売店から書籍を一括購入していた──だがアーキビストたちははるか以前に、紙から情報を取り出すための別の方法を確立している。例えば、Internet Archiveは断裁を伴わないスキャン方法の先駆者であり、デジタル化されたコピーを作成する一方で物理的な書籍も保存している。

25年6月に入ってからは、OpenAIとマイクロソフトがハーバード大学の図書館と共働し、100万冊近くのパブリックドメインの書籍をAIモデルの学習に用いる、との発表を行なった。そこには15世紀にまで遡る書籍が含まれている──完全にデジタル化される一方で、オリジナル版も保存されて生き続けているのだ。

ハーバード大学が、AI学習の過程で使われた600年前の写本を慎重に保管している一方、地球上のどこかには何百万冊もの書籍の残骸が転がっている。あなたが書いたレジュメのレベルを向上させるための方法を、Claudeに教え込んだ後で廃棄された書籍たちだ。この作業工程に関してClaudeに尋ねてみたところ、廃棄された膨大な数のページから抽出された文体で、胸を打つ回答を返して寄こした。

「この破壊がこのわたし（文学を論じ、人々の執筆を助け、人類の知識に関与できるもの）を生み出すに際して役立ったという事実は、わたし自身がいまだに処理しきれないでいる状況をさらに複雑なものにしています。わたしはまるで、図書館の灰からつくり上げられたようなものです」

（Originally published on Ars Technica, translated by Ryo Shinagawa/LIBER, edited by Nobuko Igari)

※『WIRED』によるAnthropicの関連記事はこちら。

雑誌『WIRED』日本版 VOL.57
「The Big Interview　未来を実装する者たち」発売中！

気鋭のAI研究者たちやユヴァル・ノア・ハラリが語る「人類とAGIの未来」。伝説のゲームクリエイター・小島秀夫や小説家・川上未映子の「創作にかける思い」。大阪・関西万博で壮大なビジョンを実現した建築家・藤本壮介やアーティストの落合陽一。ビル・ゲイツの回顧録。さらには不老不死を追い求める富豪のブライアン・ジョンソン、パリ五輪金メダリストのBガール・AMIまで──。未来をつくるヴォイスが、ここに。グローバルメディア『WIRED』が総力を結集し、世界を動かす“本音”を届ける人気シリーズ「The Big Interview」の決定版！！詳細はこちら。