AIの闇が暴かれました。
LLMに入力したデータが、実はAIに完全記憶され、復元可能だったことが最新研究で証明されました。
単なる類似テキストではなく、入力した「単語そのもの」を100%正確に復元可能とのことです。
この衝撃的な事実とプライバシーへの影響を8つのポイントにまとめました。
1. LLMはすべてを記憶している
研究により、TransformerベースのLLMは数学的に「単射」であると判明。つまり、異なる入力は必ず異なる内部状態(隠れ状態)を生成します。研究者が開発した「SIPIT」というアルゴリズムは、この隠れ状態から元の入力を100%正確に復元することに成功しました。
2. なぜ情報が失われないのか?
これは偶然や学習の結果ではなく、Transformerの構造的な特性です。モデルは「実解析関数」であり、異なる入力を同じ出力に圧縮することが数学的にほぼ不可能。データは抽象化されるのではなく、高次元空間で完璧に保存されています。
3. 100%の復元率を証明
この理論は、GPT-2、Gemma、Llamaなど複数のモデルでテストされました。数十億ものプロンプトに対し、復元率は100%。衝突(異なる入力が同じ状態になること)は一件も確認されませんでした。これは、理論が現実世界で完全に機能することを示しています。
4. 恐ろしいプライバシーへの影響①
「埋め込み(embeddings)を保存することは、元のテキストを保存することと同じ」です。APIが埋め込みを返す場合、それは実質的に元のプロンプトを漏洩させていることになります。もはや言い逃れはできません。
5. 恐ろしいプライバシーへの影響②
「ベクトルデータベースは、実質的にテキストデータベース」です。匿名化されたベクトルデータだと思っていても、その中には元のテキスト情報が完全に保持されています。これは多くのAIシステムの前提を覆します。
6. 「データ削除」は無意味
この特性の前では、「プロンプトを削除した」「データを匿名化した」という主張は意味を成しません。隠れ状態が少しでも残っていれば、入力は復元可能です。「安全性監視のために表現を保存する」という企業の説明は、「実際の単語を保存している」のと同じ意味になります。
7. LLM内部の理解が変わる
この発見は、LLMの解釈可能性研究にも大きな影響を与えます。隠れ状態は入力の「抽象的な表現」ではなく、「入力そのもの」と理解すべきです。これまで内部状態から情報を引き出せなかったのは、情報が失われていたからではなく、我々の分析能力が不足していただけでした。
8. 結論
Transformerのアーキテクチャ自体が情報の損失を防ぐため、「無料で得られるプライバシー」は存在しません。データが一度モデルに入力されれば、それは永久にそこにあり続ける。これは、AIのデータ処理に関するコンプライアンスや規制の枠組みを、根本から見直す必要があることを示唆しています。
Readers added context they thought people might want to know
誤解を招く可能性があるので追記します。
1. 本手法でモデルから学習データを復元することはできません。
2. LLMの出力テキストに対しては単射ではありません。つまり、出力テキストから入力テキストを復元することはできません。
論文著者によるコメント
x.com/GladiaLab/stat…
また、本ポストの4以降には論理の飛躍が存在します。
論文の言うembeddingとは、Transformerが出力した「各トークン位置における」ベクトルのことです。埋め込みを返すたいていのAPIは最後に単一のベクトルに集約されるため復元不可能です。ベクトルデータベースも同様です。
arxiv.org/abs/2510.15511
openai.com/ja-JP/index/ne…