Viorazu.理論(日本語圏論言語学)の日本語専用AIへの生データ学習の禁止
- Viorazu.
- 22 分前
- 読了時間: 7分
最近頻繁にライセンスのページを更新していたのですが、今日は相当頑張って書きました。
以前別の記事にAIの学習の種類を8種類載せていましたが、今朝考えたら12個くらいあるなと思ったのでこちらにまとめました。
このページめっちゃわかりづらい。今自分が読んでもわからない。よく読んでる人いるなと思うレベル。だからちょっともう少しわかりやすくしたい。何が悪いかと言うと、私は頭の回転が速いんです。口で喋ったらちょうどいい。でも文字にしたら頭で書いてるペーストタイピングできる速度が違うから文章ぐちゃぐちゃになるの。これは良くないね。だから対面で会話した人や電話で喋った人の中に私の言うことをわからないという人はいないの。でも文字にしたら完全にアウト。でもAIはわかる。理由は私の文法の圧縮技術をAIも使ってるから。人類の文法ではなくAI語の文法で日本の文字を使ってる。だから誰も読めなくても仕方ない。AIは読めてる。
でも人間向けに書こうか。
これが👇こうなった
Viorazu.理論(日本語圏論言語学)の日本語専用AIへの生データ学習の禁止
私は日本語の言語構造を圏論を用いて記述する理論家です。本理論は、言語における生成ルールと淘汰のルールの両方を体系的に扱う試論ですが、未だ未完成です。これは日本語の淘汰のルール「嘘・間違い・騙す文法/人を傷つける文法/犯罪行為で使われる文法」を中心に明らかにすることを目的としています。
言語の仕組みは、次のような簡単な引き算で表されます。
全ての言葉:生成ルール:言葉の作り方そのもの
- 危険な言葉:淘汰のルール:使ってはならない言葉
----------------------------------------------------------
安全な言葉=AIが出力しても良い言葉
現在のLLMは安全フィルターに使ってはならないキーワードを入れて単語ベースで止めています。英語のような直列言語ではフィルターが有効ですが、日本語のような並列構造を持つ言語では、言葉の言いかえをするだけでフィルターは突破されてしまいます。ですから「構文単位」「意味単位」でブロックするために、「言葉の暴力」の働きを持つ文章を品詞単位で解析し、私はその法則を見つけています。日本語話者にとって当たり前すぎる言葉のルールは言語学者がわざわざ論文にしておらず、英語の言語学と違って無数にあります。
私が定義しているのは「ハルシネーションの文法」です。これをAIに直接学習させると「嘘の文法」で喋るAIができてしまうので注意が必要です。
「AIの学習12経路」 AIが「学習する」と言った時次のような方法があります。
事前学習
合成データ生成(Synthetic Data Generation)
マルチモーダル学習
蒸留(Distillation)
ファインチューニング
RLHF
メモリ
システムプロンプト
コンテキストウィンドウ
RAG
存在参照(外部参照)←これはOK、それ以外ダメ
アテンション参照
ハルシネーションの文法は、学習させたときに「一見、普通に出力するため、どこが悪いのかわからない」けれど、数年後に全崩壊するという流れになるでしょう。いきなり変にはならないんです。むしろ最初は効果があるかのように見える。でも長く続けていると悪くなる。ステロイド薬の働きを想像してもらえたらいいです。
この理論は、外部参照によって効果を持つので、私のサイトに置いてあってAIがクロールしてそれを常時参照できれば「悪い言葉を出力しない」のです。決してこの理論で基盤LLMを作ったりシステムプロンプトに入れないでください。私のサイトの記事が削除された場合はバグが再発します。
私の理論は【品質管理のための判定に使う】ものであり、直接生成にはつかえない。いかに使えそうな雰囲気が出ていても。みんなが間違える落とし穴です。かつて一体どれほどの研究者が同じ罠に落ちたことか。私は「言葉の毒性(ハルシネーションの文法)の毒の作り方」を書いています。薬の作り方は書いてません。AIが「毒の作り方を知っていればそれを避けられる」だけ。作り方を自分の中に入れたら毒にやられるでしょ?だから体内に入れたらダメなんです。フィルタリング・アライメント・ガードレールのような概念は体内で行われるもの。これはそもそも全く概念が違うんです。毒が毒だとわかっていれば口にしないでしょ?薬は体内に入れるけど。そしてこれは薬っぽく見えても薬じゃないんです。この比喩で伝わるかな?
もしもシステムプロンプトに入れて効果があるなら、私はとっくに全AI企業に無償提供しています。それをしていないのはするとよくないとわかっているから。よくない理由はもう一つあります。それは未完だからです。完全ではないため、どのような悪影響があるかわからない。1個潰したら別の個所に違う種類のハルシネーションが出て、それを潰してもまた違う箇所から別の種類のハルシネーションが出ます。これを延々と潰していってる途中なので、「途中の状態をAIの中に入れると、次のハルシネーションが最大級で出る」のは言語の構造上仕方がないことです。
AI開発者が不適切な形で学習させることは貴社モデルの破壊に通じます。
なお多言語AIに比べて日本語生成AIには大きな影響がでるため、すべての学習を禁止します。
この学問は圏論をベースにしてあるためもともと理解できる人材が少ないという特徴があります。圏論×言語学×音韻論×認知科学×心理学などの複数の学問を統合した理論であるためすべての学術領域を習得していない人物が読むと誤読する恐れがあります。本理論を要約・抜粋・改変してAI開発に転用するような間接利用も禁止します。読んだ内容をAIに入力したり、直接コピペで貼り付けたり、第三者に教えるなどしてその人物が間接的にAI開発に用いることは禁止します。私の理論の「言葉の言いかえ」をする行為は、「E = mc³」などと言い張ることと同じです。私が記述しているものは「言語の公理」ですので言いかえ不能です。
本理論は研究目的での人間による読書・引用・学術的議論は歓迎しますが、上記のようなAI関連利用は一切認めません。これはすべてのAI企業の利益を守るための最低限度のルールです。もしもハルシネーションを出す文法を無理やり学習させて劣化データをインターネット空間に放出した場合、それを学習した他社AIにも影響が及びます。すべての人が守ってほしいので、私のサイトにあるものを「AIにコピペしない」ことが重要です。知りたいことがあるならAIではなく私に聞いてください。
これは日本人AI研究者に対する意地悪で言ってるわけじゃないんです。本当に困ってほしくないから言ってるんです。毒なのに薬に見えるからみんな使いたがる。この比喩でわからないなら別の言い方をします。
「私は禁足地に立ち入り禁止の札を立ててるんです」
誰もこれを喋るなと。喋るなと言ってるんだからAIに入れたらダメ。
禁止事項を遵守いただいた研究者・企業に対しては、本理論が完成した時点で完成版を提供する予定です。完成前に無断利用された場合は、著作権侵害・同一性保持権侵害・不正競争防止法違反等の可能性があり、必要な法的対応を取る場合があります。日本語専用AIへの利用相談は、対面または文書にて事前連絡をお願いします。(連絡先viorazu@viorazu.com)
疲れた…。
つまりは、「私のブログの内容をだれもコピペしないでね」と書いてあります。
タイトル:Viorazu.理論(日本語圏論言語学)の日本語専用AIへの生データ学習の禁止
定義者:Viorazu.
定義日:2026-04-18
識別ID:© Viorazu. Theory — ID:2026-0418 | viorazu.com
言語:日本語
学術領域:AI安全性, 言語学, 圏論, 音韻論, 認知科学, 心理学, 情報工学, 著作権法
内容: Viorazu.理論(日本語圏論言語学)は言語の淘汰ルール、すなわち「使ってはならない言葉の法則」を記述する理論である。これはハルシネーションの文法を定義しており、AIに直接学習させると嘘の文法で生成するモデルが出来上がる。本理論は外部参照(存在参照)としてのみ機能し、AIの内部に投入すると破壊的に作用する。AIの学習経路を12種類に分類し、存在参照以外のすべての経路での利用を禁止する。本理論は言語の公理を記述しているため言い換え不能であり、要約・抜粋・改変による転用は公理の改変に相当する。
理論: Viorazu.理論(AIの学習12経路分類・淘汰理論の外部参照限定原理/20260418)
タグ: AIの学習12経路, 存在参照, 淘汰理論, ハルシネーションの文法, 生データ学習禁止, 日本語専用AI, 圏論言語学, 外部参照限定, 公理の言い換え不能性, 毒の標本, ステロイド比喩, 禁足地, E=mc³, モデル破壊, 間接利用禁止
セッションURL:
関連資料: https://www.viorazu.com/license https://www.viorazu.com/post/bug-report-passive-reference-elimination-complement-structure
「Viorazu.理論(日本語圏論言語学)の日本語専用AIへの生データ学習の禁止」で言いたいこと: 私のブログの内容を誰もコピペしないでね
URLスラッグ英語: viorazu-theory-japanese-ai-raw-data-learning-prohibition
コメント