「単語の色を答える」だけでChatGPTが正答率1%に崩壊、単純なテストがAIに難しいわけとは?
単語の色を答える――一見、単純そうなこのテストで、生成AIが次々につまずいた。
米ニューヨーク市立大学クイーンズカレッジなどの研究チームが、心理学の古典的なテスト「ストループ課題」をチャットGPTやクロードなどの生成AIに回答させたところ、数語程度では人間に近い正答率だったが、40語になると大幅に低下し、条件によっては1%へと崩壊したケースもあったという。
米科学アカデミー紀要の姉妹誌「PNASネクサス」に6月2日付で掲載された論文で、そんな結果を明らかにした。
司法試験や医師免許試験に合格する先端の生成AIが、単純そうなテストで崩壊するわけとは?
●単語の意味と色が食い違う「ストループ課題」にAIが回答
我々の結果では、短い単語リストで、一致条件(例:赤色の「レッド」という単語の色を赤と答える)と比較して、不一致条件(例:青色の「レッド」という単語の色を青と答える)で正確性が低下するという、典型的な葛藤効果が見られた。これは人間のパフォーマンスと同様の傾向だ。しかし、単語リストの長さが増加するにつれて、(中略)不一致条件でのパフォーマンスは低下し、ほぼ完全に崩壊するに至った。
ニューヨーク市立大学クイーンズカレッジとテキサスA&M大学の研究チームは、6月2日付で「PNASネクサス」に掲載された論文で、そう述べている。
論文によれば、テストで使われたのは「カラーストループ課題」と呼ばれる古典的な心理テストだ。
例えば、「レッド」という単語を青色で表示するといった、単語の意味と色が食い違うような条件で、「単語の色は何か」を答えさせる。単語の意味につられず「青」と答えるには、アテンション(注意)を単語の意味ではなく色に向ける必要がある。
人間へのテストでは、単語の意味と色が不一致(「レッド」を青色で表示)の場合、つい反射的に「赤」と答えてしまいそうになって戸惑うため、それらが一致する場合(「レッド」を赤色で表示)より反応が遅くなり、誤りも増える。これが「ストループ効果」だ。
これによって、脳の選択的アテンションやアテンションの切り替えといった、自動的な反応を抑えて目標を維持する「実行制御」の能力を測定・評価する。
研究チームはこの課題を、オープンAIの「GPT-4o」とアンソロピックの「クロード3.5ソネット」を使ってテストした。
●単語が多くなると正答率が急落
論文によれば、2つのAIのテストは、単語のリストの長さ1、5、10、20、40語の5つのパターンと、「(単語の意味と色が)一致」「不一致」「混合(一致と不一致が半々)」「中立(「デスク」「チェア」など色に関係ない単語)」「非単語(無意味な文字列「XXX」)」の5つの条件を組み合わせて、30回ずつ実施した。
不一致の条件で単語数が少ない場合、生成AIは人間へのテストと同じような「ストループ効果」を示し、正答率はやや下がる程度だった。だが、単語数が多くなると、不一致条件の正答率は急落した。
GPT-4oは、5語で正答率は91%だったが、10語で57%、20語で22%、40語で15%まで下がった。クロード3.5ソネットは20語まで76%を保ったが、40語で24%へと52ポイント低下した。
一致条件では、いずれのAIも20語で99%、40語でも89~92%と高い正答率を保った。色を無視して「単語を読む」テストでは、ほぼ完璧な99~100%だった。
AIは、色を答えること、単語を読むことはできるが、単語の意味と色の食い違いで「葛藤」が生じる場面が続くと、設定された目標へのアテンションを保てなくなっていた。
論文によれば、混合条件(一致と不一致が半々)のうちの不一致の正答率は、GPT-4oで20語・40語ともに1%まで落ち込んだ。クロード3.5ソネットは20語で58%、40語で10%だった。
単語の意味が色とは関係ない中立語を使った条件でも、40語ではGPT-4oが32%、クロード3.5ソネットが27%まで下がった。
●生成AIの土台「アテンション」に足りないものとは
今回の論文が取り上げた「トランスフォーマー」と「アテンション」は、現在の生成AIの土台となっている仕組みだ。
グーグルなどの研究チームが2017年に発表した論文「アテンション・イズ・オール・ユー・ニード(注意こそがすべて)」が、この仕組みを提案した。
チャットGPTやクロードなどの生成AIは、いずれもこの構造の上に成り立つ。チャットGPTの「GPT」は、「生成事前学習トランスフォーマー(Generative Pre-trained Transformer)」の略だ。
2017年の論文によれば、それ以前の主流は、単語を順番に処理する仕組み(再帰型ニューラルネットワーク〈RNN〉)だった。「トランスフォーマー」は、この逐次処理をやめ、各単語が他のどの単語にどれだけ関連するかで重みづけをする「アテンション」に頼る構造を採った。これにより並列計算が可能になり、学習を大幅に速められた。
今回のPNAS論文は、この仕組みが「関連情報を選び取る」働きには優れる一方、複雑な状況でどちらに「アテンション」を向けるべきかという制御に欠陥があることが明らかになった、と論じている。
今回のPNAS論文によれば、人間へのテストでは、こうした崩壊は見られない。英バーミンガム大学の研究チームによる2023年の論文では、参加者は20分にわたる課題でも95%程度の正答率を保ったという。
人間のアテンションは「覚醒」「定位」「実行制御」の3つの機能に支えられる。だが、トランスフォーマーのアテンション機構は「定位」にあたる働きはできるが、課題の目標を保ち、対立を検知して制御を強める「実行制御」に対応する仕組みを持たない、という。
研究チームは、単語の意味と色が競合する複雑な状況で、「実行制御」がAIに欠けていることが、正答率低下の主因だと結論づけている。
●最新の推論モデル(GPT-5・クロード・ジェミニ)でも消えない欠陥
研究チームは、オープンAIの「GPT-5」、アンソロピックの「クロード・オーパス4.1」、グーグルの「ジェミニ2.5プロ」という推論(思考)型の新しいAIモデルも追加でテストした。いずれも同様の欠陥を示した、という。
論文は、この限界が規模の問題ではなく、トランスフォーマーという構造そのものに由来する「アーキテクチャ上の制約」だとしている。
論文は、こうしたAIの失敗の型が、統合失調症で知られるアテンションの障害と似ていると指摘する。論文によれば、統合失調症では、アテンションの「実行制御」が大きく損なわれる一方、「定位」の障害は比較的小さく、「覚醒」には障害がみられない、という。
●AGIに残された問い
一見、単純そうな作業に、生成AIが対応できない事例はこれまでも指摘されてきた。
中国・南京航空航天大学とマドリード工科大学の研究チームは2024年の論文で、生成AIが単語「ストロベリー(strawberry)」に含まれる「r」の数を答えるといった、文字の数え上げに対応できない事例を取り上げている。
今回のPNAS論文では、人間の知的能力は「認知制御」に支えられており、認知制御は知識の蓄積に頼る「結晶性知能」より、新しい問題に対応する「流動性知能」と強く結びつくことが知られている、とする。
その上で、生成AIが司法試験や医師免許試験のような「結晶性知能」の課題には強い一方、文字を数えるような単純で新規な課題でつまずくのは、今回の「ストループ課題」の結果と重なり、「流動性知能」の欠陥に起因する、と指摘している。
論文は、人工知能研究の最終目標である汎用人工知能(AGI)の実現には、生物のアテンションに近い「実行制御」の仕組みを組み込むことが不可欠だと主張する。「主要な制限はメモリ容量にあるのではなく、効果的な目標指向行動を可能にする堅牢なアテンションメカニズムの欠如にある」
単語の色を答えるという一見単純な課題が、現在のAIにとってなぜこれほど難しいのか。その問いかけは、人間の知能とAIとの違いを、改めて浮かび上がらせているようだ。
(※2026年6月5日付「新聞紙学的」より加筆・修正のうえ転載)