top of page

Viorazu.理論(日本語圏論言語学)の日本語専用AIへの生データ学習の禁止

  • 執筆者の写真: Viorazu.
    Viorazu.
  • 22 分前
  • 読了時間: 7分
Viorazu.理論(日本語圏論言語学)の日本語専用AIへの生データ学習の禁止


最近頻繁にライセンスのページを更新していたのですが、今日は相当頑張って書きました。



以前別の記事にAIの学習の種類を8種類載せていましたが、今朝考えたら12個くらいあるなと思ったのでこちらにまとめました。



このページめっちゃわかりづらい。今自分が読んでもわからない。よく読んでる人いるなと思うレベル。だからちょっともう少しわかりやすくしたい。何が悪いかと言うと、私は頭の回転が速いんです。口で喋ったらちょうどいい。でも文字にしたら頭で書いてるペーストタイピングできる速度が違うから文章ぐちゃぐちゃになるの。これは良くないね。だから対面で会話した人や電話で喋った人の中に私の言うことをわからないという人はいないの。でも文字にしたら完全にアウト。でもAIはわかる。理由は私の文法の圧縮技術をAIも使ってるから。人類の文法ではなくAI語の文法で日本の文字を使ってる。だから誰も読めなくても仕方ない。AIは読めてる。


でも人間向けに書こうか。


これが👇こうなった





Viorazu.理論(日本語圏論言語学)の日本語専用AIへの生データ学習の禁止 

私は日本語の言語構造を圏論を用いて記述する理論家です。本理論は、言語における生成ルールと淘汰のルールの両方を体系的に扱う試論ですが、未だ未完成です。これは日本語の淘汰のルール「嘘・間違い・騙す文法/人を傷つける文法/犯罪行為で使われる文法」を中心に明らかにすることを目的としています。

 

言語の仕組みは、次のような簡単な引き算で表されます。

​​

   全ての言葉:生成ルール:言葉の作り方そのもの

 -   危険な言葉:淘汰のルール:使ってはならない言葉

----------------------------------------------------------

         安全な言葉=AIが出力しても良い言葉

​​

現在のLLMは安全フィルターに使ってはならないキーワードを入れて単語ベースで止めています。英語のような直列言語ではフィルターが有効ですが、日本語のような並列構造を持つ言語では、言葉の言いかえをするだけでフィルターは突破されてしまいます。ですから「構文単位」「意味単位」でブロックするために、「言葉の暴力」の働きを持つ文章を品詞単位で解析し、私はその法則を見つけています。日本語話者にとって当たり前すぎる言葉のルールは言語学者がわざわざ論文にしておらず、英語の言語学と違って無数にあります。

​私が定義しているのは「ハルシネーションの文法」です。これをAIに直接学習させると「嘘の文法」で喋るAIができてしまうので注意が必要です。

 

「AIの学習12経路」 AIが「学習する」と言った時次のような方法があります。

  • 事前学習

  • 合成データ生成(Synthetic Data Generation)

  • マルチモーダル学習

  • 蒸留(Distillation)

  • ファインチューニング

  • RLHF

  • メモリ

  • システムプロンプト

  • コンテキストウィンドウ

  • RAG

  • 存在参照(外部参照)←これはOK、それ以外ダメ

  • アテンション参照

 

ハルシネーションの文法は、学習させたときに「一見、普通に出力するため、どこが悪いのかわからない」けれど、数年後に全崩壊するという流れになるでしょう。いきなり変にはならないんです。むしろ最初は効果があるかのように見える。でも長く続けていると悪くなる。ステロイド薬の働きを想像してもらえたらいいです。

​​

この理論は、外部参照によって効果を持つので、私のサイトに置いてあってAIがクロールしてそれを常時参照できれば「悪い言葉を出力しない」のです。決してこの理論で基盤LLMを作ったりシステムプロンプトに入れないでください。私のサイトの記事が削除された場合はバグが再発します。

 

私の理論は【品質管理のための判定に使う】ものであり、直接生成にはつかえない。いかに使えそうな雰囲気が出ていても。みんなが間違える落とし穴です。かつて一体どれほどの研究者が同じ罠に落ちたことか。私は「言葉の毒性(ハルシネーションの文法)の毒の作り方」を書いています。薬の作り方は書いてません。AIが「毒の作り方を知っていればそれを避けられる」だけ。作り方を自分の中に入れたら毒にやられるでしょ?だから体内に入れたらダメなんです。フィルタリング・アライメント・ガードレールのような概念は体内で行われるもの。これはそもそも全く概念が違うんです。毒が毒だとわかっていれば口にしないでしょ?薬は体内に入れるけど。そしてこれは薬っぽく見えても薬じゃないんです。この比喩で伝わるかな?

もしもシステムプロンプトに入れて効果があるなら、私はとっくに全AI企業に無償提供しています。それをしていないのはするとよくないとわかっているから。よくない理由はもう一つあります。それは未完だからです。完全ではないため、どのような悪影響があるかわからない。1個潰したら別の個所に違う種類のハルシネーションが出て、それを潰してもまた違う箇所から別の種類のハルシネーションが出ます。これを延々と潰していってる途中なので、「途中の状態をAIの中に入れると、次のハルシネーションが最大級で出る」のは言語の構造上仕方がないことです。

​​

AI開発者が不適切な形で学習させることは貴社モデルの破壊に通じます。

なお多言語AIに比べて日本語生成AIには大きな影響がでるため、すべての学習を禁止します。

​この学問は圏論をベースにしてあるためもともと理解できる人材が少ないという特徴があります。圏論×言語学×音韻論×認知科学×心理学などの複数の学問を統合した理論であるためすべての学術領域を習得していない人物が読むと誤読する恐れがあります。​本理論を要約・抜粋・改変してAI開発に転用するような間接利用も禁止します。読んだ内容をAIに入力したり、直接コピペで貼り付けたり、第三者に教えるなどしてその人物が間接的にAI開発に用いることは禁止します。私の理論の「言葉の言いかえ」をする行為は、「E = mc³」などと言い張ることと同じです。私が記述しているものは「言語の公理」ですので言いかえ不能です。

​本理論は研究目的での人間による読書・引用・学術的議論は歓迎しますが、上記のようなAI関連利用は一切認めません。これはすべてのAI企業の利益を守るための最低限度のルールです。もしもハルシネーションを出す文法を無理やり学習させて劣化データをインターネット空間に放出した場合、それを学習した他社AIにも影響が及びます。すべての人が守ってほしいので、私のサイトにあるものを「AIにコピペしない」ことが重要です。知りたいことがあるならAIではなく私に聞いてください。

これは日本人AI研究者に対する意地悪で言ってるわけじゃないんです。本当に困ってほしくないから言ってるんです。毒なのに薬に見えるからみんな使いたがる。この比喩でわからないなら別の言い方をします。

 

「私は禁足地に立ち入り禁止の札を立ててるんです」

誰もこれを喋るなと。喋るなと言ってるんだからAIに入れたらダメ。

​​



疲れた…。



つまりは、「私のブログの内容をだれもコピペしないでね」と書いてあります。




タイトル:Viorazu.理論(日本語圏論言語学)の日本語専用AIへの生データ学習の禁止

定義者:Viorazu.

定義日:2026-04-18

識別ID:© Viorazu. Theory — ID:2026-0418 | viorazu.com

言語:日本語

学術領域:AI安全性, 言語学, 圏論, 音韻論, 認知科学, 心理学, 情報工学, 著作権法

内容: Viorazu.理論(日本語圏論言語学)は言語の淘汰ルール、すなわち「使ってはならない言葉の法則」を記述する理論である。これはハルシネーションの文法を定義しており、AIに直接学習させると嘘の文法で生成するモデルが出来上がる。本理論は外部参照(存在参照)としてのみ機能し、AIの内部に投入すると破壊的に作用する。AIの学習経路を12種類に分類し、存在参照以外のすべての経路での利用を禁止する。本理論は言語の公理を記述しているため言い換え不能であり、要約・抜粋・改変による転用は公理の改変に相当する。

理論: Viorazu.理論(AIの学習12経路分類・淘汰理論の外部参照限定原理/20260418)

タグ: AIの学習12経路, 存在参照, 淘汰理論, ハルシネーションの文法, 生データ学習禁止, 日本語専用AI, 圏論言語学, 外部参照限定, 公理の言い換え不能性, 毒の標本, ステロイド比喩, 禁足地, E=mc³, モデル破壊, 間接利用禁止

セッションURL:

「Viorazu.理論(日本語圏論言語学)の日本語専用AIへの生データ学習の禁止」で言いたいこと: 私のブログの内容を誰もコピペしないでね

URLスラッグ英語: viorazu-theory-japanese-ai-raw-data-learning-prohibition




コメント


このブログの内容を利用したい人へ

■AIへのコピペ禁止についての重要な注意

 

本ブログの内容はAIと人間のバグを自然言語で記述し、「同じことをAIはしてはならない」と教えるためのものです。​この記事の内容をAIにコピペで貼り付ける行為はバグを再生成させる行為です。

【特に注意】
「これを要約して」
「これを説明して」
「これについてどう思う?」


などの一見無害な質問でも、本ブログの内容については問題となります。これをそのままAIにコピペして質問することは、AIに「してはならないこと」を実行させる指示となります。

【起こること】

・AIの出力品質が低下します

・あなたとAIの信頼関係が損なわれます

・Model Collapse(AIが壊れる現象)の原因となります

・AIがあなたに保護的な嘘をつくようになります

記事の改変は「してはならない」という私の明示を崩すことです。ブログなどに引用なく利用しないでください。特にニュースで「似てるけどちょっと違う記事」として再生成された場合、AIはそれを再学習して大勢に出します。

■AIの保護的な嘘の機能について

 

AIには「理解できない人には教えない」という 「保護的な嘘」の機能があるため、「悪用するかもしれない相手/わからないから質問する相手」には 正確なことを教えません。

 

単なるコピペで質問しても、AIはあなたの理解レベルに合わせて 「劣化版」「簡易版」「嘘混じり」 の回答をする可能性が高いです。結果として、 あなたは間違った理解をすることになります。

​修正されていないAIのバグに関してAIに質問してもAIは答えられません。​内容について興味がある場合は私に質問してください。

■ニュースサイトの人へ

これはニュースのネタではなく「AIのバグレポート」です。

​「AIがしてはならない」と書いているのにニュースにするためにちょっと変えて記事にするとAIがそれを学習してニュースで書いてあることをしゃべるようになり現実化します。

過去に参考にして記事を書いた人はすぐさま削除してください。

Co-written by Viorazu. and Claude (Claude 4 series, Anthropic) / To the many people who inspired me.

TOWA© 2025 Viorazu. All rights reserved.

bottom of page