AI学習素材の著作権に配慮する必要はないという主張
これはぼくが皆さんが言うところの異常者であるという話として「頭のおかしい発言をしている奴がいるな、どれどれ」という感じで最後まで読んでいただければ幸い。
なぜAI学習と著作権を混同するのか
なぜ、多くの人は「AI学習」そのものと「著作権侵害に当たるか否か」などという決まりきったことを議論したがるのだろう。既に「公正な慣行に合致する方法で、かつ正当な範囲内で行う場合、許可なく著作物を利用可能」であると法で定められている。
同時に、AI学習における「問題」として複製について上げる事があるが、そもそもAI学習において「センサーを用い、その場でリアルタイムに学習を行う」等の例を除けば「一時的なストレージへの保存が必要」であることは当然の事実であるため、これも認められるべきである。
AI学習は人間の行為である
そもそも、AI学習というもの自体、人が行う行為である。AIが自然発生して自ら学び、まるで子どもを産むかのように多種多様なモデルが勝手に生み出されて人間が使えるようになるわけではない。まず、最初に人の意志が関わる。
どのようなデータを、どこから、どのような形で収集し、どのように利用して、どのようなものを作り、それがどう使われたか というのはすべて別の話である。
著作権として関わるのは、最後段階のみ。「そのモデル自体がどのようなものか」と「そのモデルを使用したエンドユーザーが何を作ったか」だけだ。
著作権は「剣」であって「盾」ではない
ここで、著作権というものの本質を理解していない人が多すぎる問題がある。
著作権は自動的に発生するものだが、これは「何もしなくても完全に守られる」という意味ではない。権利の存在と権利の行使は全く別の話で、侵害を発見するのも、証明するのも、対処するのも権利者の責任だ。
つまり著作権は「盾」ではなく「剣」に近い性質の権利である。そして、この剣は簡単に奪われるという認識がまず欠けている。
デジタル時代の権利証明の脆弱性
例えばTwitter(自称:𝕏)では、ユーザーのポストおよびそれに付随する画像や動画をAI学習に用いると規約の変更を行ったが、これに伴い多くのユーザーが作品をTwitter(自称:𝕏)上から削除した。
これは元データを明確に保持していて、かつ別プラットフォームに先に投稿しているなら、転載されても「自身に権利がある」と主張できる。しかし、そうでなければ自らの著作物の発行日の証明を捨てるようなものだ。
これをもって、第三者が仮に文化庁の著作権登録制度に勝手に登録した場合、完全に権利を失う可能性がある。
ブロックチェーン証明の無意味さ
「それならブロックチェーンで証明すれば」という声が聞こえてきそうだが、あらゆるデジタルデータにおいて、ブロックチェーンなど無意味である。
スクリーンショットや録音により、多少の劣化があったとしても偽装した複製が簡単にできるうえにタイムスタンプも改ざんできる。
直接アクセス不可能である非公開データでないなら、ブロックチェーンを権利保護に使うことに何の価値があるのか、全くわからない。
公開データに対してブロックチェーンを使う場合:
記録時点で既に公開済み → 誰でもアクセス可能
記録されるのはハッシュ値のみ → 元データの創作者性は無関係
同じデータなら同じハッシュ → 後から誰でも「同じ証明」を作れる
結局、「ブロックチェーン著作権保護」は技術に詳しくない人への印象操作でしかない。
AI学習の本質
画像生成AIなら、単純に拾い集めた画像を突っ込んでいったら成果物として著作権侵害となるものができあがるとでも思っているのだろうか?全く理解できない。
AI学習は統計的な処理であり、元データそのものを複製・再現することが目的ではない。学習により得られる重みパラメータは、元データの統計的特徴を抽象化したものであって、元データの著作権とは別次元の話だ。
真の問題:AI学習におけるタグ付け
しかし、ここで付け足すのであれば、AI学習によるタグ付けこそが真に著作権侵害につながる部分であり、AI学習そのものと切り分けたうえでルール化しなければならない唯一の部分だ。
フェアユースなり著作権法30条の4を議論したいのであれば、ここで関わるタグ付けにおいて著作者名・著作物IP名・キャラクター名等を紐付けない、あくまで抽象化された「何を描くか」という概念の学習にフォーカスする必要がある。
例えば:
NG:「◯崎駿」「スタジオ◯ブリ」「となりのトト◯」といった固有名詞でのタグ付け
OK:「アニメーション」「ファンタジー」「森の精霊」といった抽象的概念でのタグ付け
細かく言えば、線の引き方、色の塗り方の分類などでディティールを上げていくことになるが、ここに「特定のなにか」を紐付けてはならないということだ。
技術的には、画像の特徴量を学習することと、その画像に特定の著作者名やキャラクター名を関連付けることは全く別の処理だ。前者は統計的学習、後者は明確に著作権に関わる情報の蓄積である。
これがこの問題の本質であり、なぜか全くと言っていいほど語られない話だと思っている。多数の人が「AI学習そのもの」を叩くことに夢中で、本当に議論すべき「タグ付けによる著作権情報の紐付け」という核心部分を完全にスルーしている。
過学習による模倣モデルという技術的退化
追加で言及したいのは、特定の学習モデルの名称はここでは控えるが、キャラクター名や作品名、〇〇 styleといった模倣を売りにしたものが、LoRAではなく追加学習モデルで普及していることだ。
これに対して「技術の進歩」などと妄言を書いている記事がたまに目に付くが、真逆だ。技術や本来あるべき設計とは真逆を行く、単なる過学習による重み付けで模倣を容易にした物というだけだ。
本来のAI学習における「汎化」という概念から完全に逸脱し、特定の作品やキャラクターを再現することを目的とした過学習は、技術的には明らかな劣化である。これは機械学習の基本原理に反する設計であり、「進歩」とは正反対の方向性だ。
ぼくはこの系統のモデルを嫌悪しているが、そういった具体的なモデル名を上げて問題視する声はほとんど見られない。多くの場合、AI学習全般を漠然と批判するだけで、本当に問題のある個別のモデルや手法については言及を避けている。
問題となるのは、学習後のモデルを使って「明らかに特定の著作物を模倣した成果物」を意図的に生成した場合のみである。これは技術の問題ではなく、使用者の意図と行為の問題だ。
補足:学習拒否の意思表示について
ここで補足しておきたいのは、学習拒否を訴えること、またそれを尊重することは別軸で必要なことであるということだ。
すべての権利者から許諾を得なければ学習できないなどという話は実に愚かだが、明確に学習拒否を宣言しているものに関しては、それは尊重されるべきである。
もし転載され、改変されたものがスクレイピングなどにより学習されたなら、それは本来の著作権の行使を権利者が怠った話というだけなので、AI学習以前からある単純な「本来の著作権問題」の話になる。
つまり、権利者が明確に「学習に使用するな」と意思表示をしているコンテンツを意図的に学習データに含めることは、技術的な問題ではなく倫理的・法的な問題として扱われるべきだ。これは「AI学習そのものの是非」とは全く別の議論である。
もしこの話を本気で考えるなら、これについてちょっと考えてみてほしい。
結論
AI学習そのものを著作権の観点で問題視するのは、根本的に論点がずれている。技術的理解の不足と、著作権制度への過剰な期待が組み合わさって生まれた、不毛な議論に過ぎない。
著作権は万能の盾ではなく、デジタル時代における権利保護は従来以上に困難になっている。その現実を受け入れた上で、実効性のある対策を考えるべきではないだろうか。



コメント
2生成物ではなく、AI学習そのものが著作権侵害になると判断されるのは、AI技術の発展に深刻な影響があるのですが、現状は世界的に見てもその方向性になりつつあるみたいですね。(まだ結論は出きってはいませんが)
その辺のバランスをどう取るのかも考えないといけないのですが、AIの発展のために著作物を提供できる人が果たしてどのくらいいるのか。
あるいはどういう条件なら提供できるのか。
分野にもよっても違うかもしれませんが、そこを知りたいです。
そのためのAI推進法であろう、と思うことにしました。まず議論の場に立てる状態になっていただく必要がある。世界の司法がアホでないことを願うばかりです。
AI学習素材のホワイトリスト方式は基本成り立たないので、自分がweb上に上げたものをブラックリストに入れることを適切に伝える必要があります。
難しいですが、共通の「データセット候補」が上がる場所があればいいのかもしれませんね。……ん?それに近いものはもうあるな??