Jagged Intelligence（ギザギザの知能）問題とは？　2～3年後にテキストAIはどうなる？

2025年10月19日 21:44

ここ数ヶ月ほどで新しく現れた言葉にJagged Intelligence（ぎざぎざの歯のようにデコボコした知能）というものがあります。高度な専門知識を持っている、あるいはその知識を活用した未知の問題も解けるようになったにもかかわらず、未だに中学生・高校生の常識レベルの問題でつまづいたり、少しでも問題をリフレーズするとつまづいてしまう事が多々ある、テキストAIの状況を現したものです。

参考文献：Jagged Intelligence in the Enterprise
https://www.salesforce.com/blog/jagged-intelligence/

Jagged Intelligence in the Enterprise / Salesforce

この文章では2025年現在のAIトレーニングのパラダイムや、今フロンティアモデルが取り組んでいる問題、それから2～3年後にモデルの質がほぼ均一化してしまうという予想について触れます。

いまも勘違いされがちですが、かつて一番高価だった事前学習はもう比較的低コストになっていて、今一番高価なのは事後学習になっています。それが何故なのかについても触れています。

Jagged Intelligenceが生まれる原因

たとえば、基礎的な音楽理論の問題はハイエンドのテキストAIにとっても未だ鬼門です。

というのも、githubのような包括的な音楽理論に関するテキストは存在せず、意図して合成データを作ったり、強化学習のプロセスを組まないと十分に学習できない上、STEM（サイエンス・テクノロジー・エンジニアリング・MATH）に比べるとニッチな分野であるが故に今まであまり顧みられてこなかったからです。

ある音階を4小節ほど並べた楽譜を与えてそれがどのモード（ジャズ等で使われるスケール）か、ルートノートは何か、どのようなコード進行かを判定させる問題を考えます。Cイオニアン（＝Cメジャー＝ハ長調＝ドレミファソラシ）なら多くのモデルが正解しますが、これを移調（すべての音符を並行に高くまたは低く移動させる）すると、モードとしては同じイオニアンであるにもかかわらず、途端に誤認識が始まります。人間の目には自明であるのにもかかわらず、です。

なぜこのような事が起きてしまうのでしょうか？

Transformerモデルは、人間の脳に比べるととても単純です。それでも2022年頃までは、まだブラックボックスで複雑怪奇なものとして扱われていましたが、インタプリタビリティが進歩した2025年の今現在にいたってはTransformerの利点は単純さと分析しやすさにあると言えます。またTransformerモデルは、人間の脳に比べるとはるかに非効率ですが、単純ゆえにコンピュータ的なアプローチ（データのロービット化や、トークン化といった符号化テクニック、最近ではlatent spaceを使った圧縮など）が自然に適用できます。

しかし単純であるが故に、訓練中に見たことがない【パターン】には対応できません。既知のアテンションパターンがマッチする限り、未知の【データ】（たとえば、未知の固有名詞）に対応するのは容易ですが、見たことがないアテンション【パターン】に対しては、途端に人工無能になってしまいます。モデルが算数を覚えるには、人間のように四則演算の法則から学ぶことは困難で、まずはブルートフォース的にほぼすべての四則演算のパターンを学習する必要があります。

ほぼすべてのTransformerモデルが持つ「コピペを可能にする一連のアテンションヘッド」Induction HeadsのMambaによる表現。https://arxiv.org/abs/2312.00752より

移調した音階が認識できない問題を解決するのも、原理的には比較的簡単です。つまり、12音分全部のパターンをカバーできるように移調や変化させたデータを、ありとあらゆる音符の並び方やモードについて学習すれば良いはずです。

しかし、世の中には数え切れないほどの「パターン」があります。自然に存在する（インターネット等に存在する）テキストデータだけでは当然まったく足りませんし、人間が手作り、もしくは合成的に作るデータでカバーできる範囲にも限界があります。

実際にJagged Intelligenceを体験する

次のトピックに進む前にもう少し突っ込んで、Tranformerモデルのアテンションパターンの仕組みについて、実際に世間にあるモデルで試す方法を含めて解説します。

言語モデルが「（存在しない）タツノオトシゴの絵文字を教えて」と指示すると無限ループに陥る、というのが少し前に話題になりました。

https://karapaia.com/archives/551426.html

Grokで試したら派手にバグり散らかしてしまった https://t.co/dek4rMahmd pic.twitter.com/CECwU3KF4c
— 漸狐 (Zenko.) (@Piecemeal_Fox) September 16, 2025

記事の中では「モデルが極力ユーザーの期待に応えようとするため」と結論づけられていますが、これはアテンションの仕組みについてもう少しローレベルに分析すると、容易に説明が可能です。

現在のほとんどの言語モデルでは、事後学習（強化学習を含む）プロセス中に、繰り返しのパターンに対して（n-gramなどで）ペナルティを与えて学習するフェーズが組み込まれています。モデルの語彙力を増やしたり、無限ループに陥らないようにするためです。

上記のツイートの画像のような状況に陥った時、モデルのアテンションパターンはこのようになっています。

[何かの文][abc][abc][abc][abc][abc][abc][abc][abc]

これがある程度までの繰り返しであれば、モデル側も同じアテンションパターンを学習中に見たことがあるので、自力で無限ループから脱出することができます。ちょっとしたリピートパターンくらいならコモンクロール（インターネット上のテキストデータのコレクション）にも入っていますし、強化学習の最中も、モデルが自発的に無限ループに陥り、ペナルティを受けてループから脱出することで同じようなパターンを学習しているはずです。

[何かの文][abc][abc][abc][abc][abc][abc][abc][abc]...[すみません、繰り返しすぎました。戻して続けます][続きの文]

しかし、これがモデルが一度も見たことがないような、極端な長さの繰り返しとなるとどうでしょうか？

[何かの文][abc][abc][abc][abc][abc][abc][abc][abc]...[abc] x 256

アテンションの仕組み上、マッチしないパターンは無いものとして（たいていの場合、コンテキストの頭にある、beginning of sequenceなど本文と無関係なシステムトークンにアテンションが「駐車」される）扱われます。

このため、モデルが意味のあるパターンとして認識しているものの大半が[abc][abc]というような繰り返しのパターン（一種のトンネルビジョン・視野狭窄状態）になってしまいます。通常なら[何かの文]を含んだアテンションパターンが「発火」することで繰り返しから脱出することができるはずですが、今現在のモデルの内部状態は

[abc][abc]
[abc][abc][abc]
[abc][abc][abc][abc]
[abc][abc][abc][abc][abc]...

というような繰り返しにまつわるパターンの影響が異常に大きくなっていて、[何かの文]やその前のテキストの影響が極小になってしまっている状態と考えられます。

モデルは自分自身が出力したテキストを見て次のトークンを出力するため、こうなると再帰ループから抜け出すことはできなくなってしまいます。

なお、上記の現象は英語や中国語ベースでprune（レイヤーを削減）されたモデルで比較的マイナーな多言語を扱おうとしたり、モデルが訓練されたコンテキスト長以上の長さで出力しようとした場合でもよく起きます。

フロンティアモデルの最後の0.1%

2025年現在、事前学習はほぼ限界に達しており、残る未踏の領域はこうした「未知の（極めてまれな）パターン」になっています。GPT-5、Gemini 2.5 Pro、Sonnet 4.5といった米国のフロンティア（先端）モデルは、強化学習によってこの穴を埋めようとしています。

強化学習は、出力と学習を同時に行うようなもので大変高価ですが、人間の手では決してカバーできないような状況にも自ら進んで学習することができます。

https://phandroid.com/2016/06/09/googles-deepmind-ai-montezumas-revenge/

ゲームプレイAIを考えてみるとわかりやすいでしょう。Montezuma's Revengeは、ごく単純なレトロアクションゲームなのですが、それでもチェスや将棋などに比べて極めて複雑（＝プレイヤーキャラや敵キャラ、地形の位置関係や挙動など、起こり得る状況の組み合わせが極めて多い）であるため、強化学習の鬼門として一時期有名になりました。

人間がデザインした合成データだけで、このゲームを言語+ビジョンのAIがプレイできよう教えるのは、おそらく限りなく不可能に近いのではないかと思います。それよりも、ある程度まで人間が監修した合成的な学習データを基に長時間このゲームをAIにプレイさせて、自らありとあらゆる状況に対応できるように学習させるほうが現実的です。

いまのフロンティアモデルは、存在し得るあらゆるコンテキストやトピックを存在しえる限りカバーできるように極めて高コストな強化学習を行うようになっています。

一方で、99.9%まではこうしたモデルの出力を蒸留（distillation）することでコピーすることができてしまいます。

モデルの性能指標に使われているベンチマークでは、残り0.1%を捕捉することはほぼできません。中国のオープンソースと西洋のフロンティアモデルを比べてみると、中国側のモデルもベンチマークスコアはほぼ同じか、それ以上であることも珍しくなくなっています。

一方で、Jagged Intelligenceの凹の部分は0.1%にあると考えられます。

実際にユーザーが言語モデルを使う時、0.1%の部分は比較的よく表出します。一般的なユーザーの使い方は、クリーンなベンチマークとは違ってカオス的です。ひとつの長いコンテキスト（ドキュメントやチャット）の中で、無関係なトピックを続けて聞いたり、容易には意味の通じない指示や矛盾した指示を出したりします。

また、コーディングや科学技術研究に関するクエリというのはほとんどが既知のものになってきていますが、ストーリーテリング（創作）のような用途では、極めて長いコンテキストの、しかもほぼ未知のテキストを理解する能力が求められてきます。

このため、西洋のメガテックが作ったフロンティアモデルを使うと、やはりロバストネス（巨大なコードベースを編集したり、超ニッチなトピックや、矛盾を大量にはらんだコンテキストでも対応できるか）の違いが感じられます。

3年後もフロンティアモデルは存在するのか？

とはいっても、何十億ドル、何百億ドルをかけてフロンティアモデルを開発したとしても、APIからデータを蒸留すれば、強化学習を使わなくても超低予算（安ければ5000ドルから、数十万ドル程度）で99.9%はコピーできてしまいます。

参考：The Art of Scaling Reinforcement Learning Compute for LLMs
https://arxiv.org/abs/2510.13786

The Art of Scaling Reinforcement Learning Compute for LLMs

それでも2025年現在は、0.1%がまだ有意に多くのユーザーにとって違いをもたらしている状態です。しかしフロンティアモデル側の0.1%の学習がほぼ終わり、次は最後の0.01%となった時（来年の今頃はそうなっているかもしれません）99.99%同一のコピーモデルを低予算で作れるようになっていてもおかしくはありません。

Transformerや近似したアーキテクチャ、もっと言えば言語モデルである限りはデータに相互互換性があるため、高性能なモデルが増えれば増えるほどコピーの精度は高く、簡単になっていきます。

歴史をふりかえってみると、ハイエンドオーディオ機器はBehringer社がほぼ100%同一のコピー回路を使った低価格品を売り出すようになり、激しい価格破壊が進みました。他にもGoProやiRobotなど、かつて一斉を風靡した先端テック企業は、いずれも中国や新興国による、低価格で、部分的には機能で勝っている製品に追い上げられて瀕死の状態になっています。

https://semiwiki.com/wikis/industry-wikis/moores-law-wiki/

半導体におけるムーアの法則のようなものがAIの学習にも存在するのではないかと言われています。AIの学習は（基本的なアーキテクチャやデータにある程度の相互互換性がある限り）限りなくコモディティなので、ムーアの法則のようなリニアな進歩・効率化トレンドが今後も通用する可能性は高いです。

言語モデルのスペックが、オープンソースとフロンティアモデルで3年後に99.999%まで同一になっていたとしても驚きはありません。

その頃には十分に効率化が進んで、なにかより大きく、より汎用性の高いパラダイム（例えば、ゲームのリプレイ機能が動画に取って代わられたように）が生まれているのかもしれませんが。

いいなと思ったら応援しよう！

コメントするには、ログインまたは会員登録をお願いします。

Jagged Intelligence（ギザギザの知能）問題とは？ 2～3年後にテキストAIはどうなる？

Jagged Intelligenceが生まれる原因

実際にJagged Intelligenceを体験する

フロンティアモデルの最後の0.1%

3年後もフロンティアモデルは存在するのか？

いいなと思ったら応援しよう！

コメント

私がChatGPTと話したこと 『AIは大いなる叡智になりえる可能性があるのか？ からの、未来のAIのために人類がすべきこと』

強化学習の父リチャード・サットンに学ぶ「LLMの限界」

人工知能と人工知能完全再現社会可能性について談話

「知らないと損する！？AIが「コピーのコピー」でバカになる衝撃の仕組み」

【AI画伯、成長の壁】「使い込むほど絵が下手になる」は本当か？—画像生成AIを蝕む「モデル崩壊」のメカニカルな恐怖—

slowとClaude（文化を喰らう機械）

強化学習の父 リチャード・サットン氏の最新インタビュー：LLMは「行き止まり」

「自己なき思考」──OpenAI副社長が語る、GPT-5の知性の構造

AIの嘘：AGIは本当に間近なのか？ベンチマーク信仰が隠す「致命的な欠陥」

なぜ生成AIは人間のように継続学習できないのか？

生成AIで遊ぶ（４）（2025/8/7の記録）

【#2】ChatGPTは本当に意味を理解しているのか？│中国語の部屋からポチョムキン理解、そして真の意味の探求へ

なぜか猫に弱かったAI 思考の深層と、自分で仕掛けてしまう「バイアスの罠」

一問(30問)【生成AIパスポート試験対策】Part2

AIニュースあれこれ

考察ノート：生成AIの現在2025.10.11

🔊音声あり（日＆英）：AIの「逆転の呪い」を打破！人間的記憶でAIは賢くなる【最新論文解説】

【データのちから 156話】高性能VLMモデル「GLM-4.5V」の開発秘話に学ぶ

10/11のここ1日のAI関連の論文のトピックをまとめました。プロンプトを例示しています。ご参考までに。

AIが思考するという幻想：AIのフェイクな推論をアップルが暴露した論文

非エンジニアのAI学習1-2『ちょっと解像度上げてみるLLM と AIの指示無視の原因について』

【第5回】週間Yマガ | AI特集

ジャック・ドーシーがGreatと評価。AI開発者Karapathyのインタビューを要約

言葉を超えるAI──「世界モデル」が人類の次の頭脳になる

ChatGPTに「タツノオトシゴの絵文字を見せて」と言うと暴走する？AIの思わぬ弱点が明らかに 🤖

知能爆発？シンギュラリティな技術「ソクラテス学習」とは？

SF作家とChatGPTの対話～010～どんな仕組みなのかを訊いてみる（1）

基盤モデルにおける寄生的最適化：ポチョムキン理解と世界モデルの幻想を分析する

AGIの謎、ついに解明？GPT-5の意外な「知能スコア」が示すAIの現在地と未来

論文まとめ834回目 Nature 頭部への繰り返し衝撃が脳の老化を加速させ、認知機能低下の土台を作る！？など

一つのブランド、多数の戦線：OpenAIのGPT-5ポートフォリオ戦略が描くAI世界秩序

AIプログラミングについて現時点で思うこと 其の四 プロンプト調整の難しさ：後編 - 雑談的な何かを語りましょう Vol.2

【AI論文】Transformerはソロモノフ帰納に漸近し得る（一般人向け）

【AI考古学 #8】AIはなぜ「人間らしく間違う」のか？～認知モデリングで探るWinstonの人間らしさ～

おやつカンパニーに届いた！デザイナー発の麺文字アプリ開発ストーリー

Jagged Intelligence（ギザギザの知能）問題とは？　2～3年後にテキストAIはどうなる？

私がChatGPTと話したこと『AIは大いなる叡智になりえる可能性があるのか？からの、未来のAIのために人類がすべきこと』

強化学習の父リチャード・サットン氏の最新インタビュー：LLMは「行き止まり」

なぜか猫に弱かったAI　思考の深層と、自分で仕掛けてしまう「バイアスの罠」

AIプログラミングについて現時点で思うこと其の四プロンプト調整の難しさ：後編 - 雑談的な何かを語りましょう Vol.2