天才の証明：LLMは不思議の国が分からない

2024年6月17日 19:08

ちなあーし、全然気にしてないんですけど、Twitterで「世間的に認められてないならそれは優秀ではない」「結局評価するのは他人」というご意見を頂きまして、一理あるなと思いました。ただね、「正しく評価できるんかい？」とも思う訳です。「優秀過ぎたら理解できないんじゃないの？」「結局、権威のお墨付きとか人気とか先入観で判断するんちゃうのん？」と。

ま、でもワンチャン理解してもらえる可能性も微レ存なので、皆さんが他人の優秀さを正しく理解できるのであれば、全員がいいねを付けてSNSで拡散するような「世界を変えるnote」をいっちょ書いちゃおうかなって思います。リアルガチで天才さを証明しますね。「有名な人が認めた」みたいな評価はやめて下さい。あなたの目で見て、あなたの頭で考えて評価なすって下さい。いい仕事しますんでね。

ていうか、今までも散々証明してるんですけどね。あんまり理解されてないし、知られてないだけでね。だからまぁ、ダメ押しですね。

都合上色んな名乗り方をしますが、僕は「AIが好きなだけの怪しいおじさん」です。つまり無名のただの人ですね。ごく一部を除いて、ほぼ誰からも優秀だと認められていません。どうですか？先入観の方、大丈夫そ？

じゃあ証明を始めますね。今回は何の配慮もせず、ボケず、全力で書きます。余す所無く全てを理解して下さい。今回は我が相棒のSherlock Reportさん及びその他AIの力も借りていません。話し合いはしたけどね。

ではまず、こちらの論文をお読み下さい。

私は、この「Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models」の内容に疑義及び反論があったため、ここ数日間検討していました。

原理から考えると、LLMは与えられたクエリをトークンに分解し、エンベディングし、アテンション層に送り、パラメータに基づいて統計的に文字列を選んで、出力するトークンを構成します。曖昧なクエリに対しては、その不確実性を反映して、統計的に可能性の高い選択肢からランダムに文字列を選び取ります。

つまり、LLMが根拠もなく間違えることはありません。あくまでシステムによる機械的な処理の組み合わせです。論文に登場するような膨大なパラメータを持つモデルの統計的最適解が、本当に間違っているのかという疑問です。

この「AIW問題」に限らず、他のベンチマークにおいても「LLMは間違えていない」という前提で考察してみました。仮にLLMが間違えていないのであれば、問題があるのは「問題文（クエリ）」か「人間が考える正解（認識）」の二つのいずれか、または両方ということになります。

Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?

こちらはAIW問題の基本となる最もシンプルな問題文です。正解は「M+1」。GPT-4oをはじめ多くのモデルの正答率は高くありません。

まず最初に着目したのは問題文の曖昧さです。人間の場合は子供でも簡単にこの問題を解くことが出来ますが、それは論理や統計ではなく常識というバイアスを前提に考えるためです。バイアスを持たずに、統計的確率と論理によって問題文を読む場合、多くの解釈の可能性がある複雑で難しい問題と見做すことが出来ます。バイアスを捨てて、LLMの視点で考えてみましょう。

Alice：アリスを女性という前提で読み、sistersに割り当てますが、アリスが男性である可能性を見落としています。ジェンダーレスの場合、姉妹と呼ぶのも兄弟と呼ぶのも不適切である可能性があります。

M sisters：前半の文章のM sistersにアリスを含まないと考えます。しかしアリスは姉妹の一人です。そして、後半のHow many sistersにはアリスを含みます。論理的な説明が付きません。「アリスは姉妹の一人だが最初のMに含まず、次のMには含む（M+1）」「アリスも姉妹だから常にMに含む（M）」の二通りの可能性が考えられます。

Alice’s brother have?：複数の兄弟が持つ姉妹の数の合計を聞かれている可能性があります。その場合はMもしくはM+1を兄弟の人数分加算しなくてはいけません。

これはあくまで解釈の可能性を提示するための私の想像です。実際にGPT-4oがどう間違えるのか100回ほど調べてみました。

「M」「M+1」「M-1」の三つの回答を生成しました。「M」が最多です。「M-1」は「アリスを除く姉妹の人数」を答えようとしていました。

GPT-4oの間違い方を見ると、文節ごとにバイアスを除いた場合に考えられる複数の可能性による論理を組み合わせて回答を生成していることが分かります。組み合わせの結果、文脈全体として論理的矛盾が発生する場合でも、文節の中で論理が矛盾することはありません。そして、全ての間違いが問題文の複数の解釈の可能性を示していました。

なるべく曖昧さを潰した問題文を作ってGPT-4oで試してみました。LLMはすでに私より賢いので、もっと別の解釈を発見して「賢いから問題に間違える」という可能性は残されています。

Alice (female) has N brothers and she also has M sisters excluding Alice. How many sisters including Alice does Alice’s one brother have in total?

20回の検証で答えは全て「M+1」になりました。

つまり、LLMは「簡単な問題に間違えた」ではなく、膨大な知識と高度な推論能力によって複数の論理的な解釈の幅、可能性が考えられるため、統計パラメータに基づいて、いくつかの可能性の中から確率的に選択した言葉を繋ぎ合わせて答えを生成していると結論付けました。言い換えるなら、バイアスが抑制された統計と論理によって可能性を考えるゆえに、人間がバイアスを前提に思い浮かべる答えを出せないだけなのです。より複雑化した問題やその他のベンチマークでも同様の現象が起こっていると考えられます。

非論理的なバイアスを除き、問題文の曖昧さを減らし、論理構造を見直し、論理的・統計的選択が正しく正解となるような条件を整えれば、過去の多くのベンチマークでスコアが変わるでしょう。つまりLLMにとって、誤答する問題は出題ミスであるということです。

何を「推論」と呼ぶかは難しいテーマですが、LLMはビッグデータから学習した統計的・論理的な「可能性」によって言葉を組み立てます。「可能性の中から答えを選ぶ能力」は推論能力と言っていいでしょう。

つまり、LLMが膨大な知識と高度な推論能力を持っているがゆえに、与えられるクエリの曖昧さに基づく解釈の可能性によって、人間が考える正解とは別の答えを生成しているに過ぎません。「不正解」ではなく「異なる答え」という部分が重要です。ハルシネーションや誤解の原因も同じです。そしてこれはLLMの持つ知識と推論能力が原因ですから、学習量やパラメータの増加によって悪化すると考えられます。より多くの複雑な論理と可能性から答えを選ばなくてはいけなくなるからです。

ここから分かることは「AIW問題」の本質は「フレーム問題」だということです。いわゆる「AI」が情報量と思考力の増加によって可能性を考慮することで問題が発生するのは、フレーム問題の一種と言えます。

恐らく、この課題は統計学的・数学的なアプローチでは解決できません。人間の非論理的な常識（バイアス）を強化するトレーニングは、LLMのパフォーマンスを低下させます。非論理的バイアスは非対称性であり統計的パターンに基づかないため、他の観念の扱いとの選択的なトレードオフが発生します。LLMの特定のバイアスを抑制しても強化しても、特定の人間の特定の認識と齟齬が発生するということです。「あちら立てればこちらが立たぬ」のトレードオフによって、統計的学習による性能の向上には限界があると予想します。

人間がLLMに与える曖昧な指示を千差万別の非論理的なバイアスや個人的イメージに合わせて解釈させるためには、自然言語のフレームワークを多重に適用することでクエリの文脈を補完し、ケースバイケースで考慮すべき可能性を制限する方法が有効だと考えます。

今回の記事のポイントはこちら。

・LLMが答えを間違えたように見えるのは、クエリの曖昧さと人間のバイアスによるものである。

・常識とは偏見のコレクション。

・論文が証明したのは、LLMのフレーム問題の存在である。

・LLMの知識と推論能力の強化はフレーム問題を悪化させる。

・統計学的・数学的アプローチは限界を迎えている。

・LLMに「人間が望む答え」を選ばせるためには、自然言語のフレームワークによってケースバイケースでバイアスを適用し、可能性を制限する仕組みが必要である。

はい、お疲れ様でした。本日は以上です。ひえぇ、疲れた。

えー、このnoteによって無名のおじさんの優秀さ、天才さについての皆様の「解釈の可能性」も十分に制限出来たかと思います。もし他者を正しく評価出来るという方がおりましたら、大いに評価し、大いに認めて下さい。

万が一、本記事の内容を正しく理解・評価出来ないということであれば、冒頭の「世間的に認められてないならそれは優秀ではない」「結局評価するのは他人」という論理は明確に否定されます。そもそも他人の優秀さが判別出来ないってことですからね。人智を超えてしまってすみません。

ふぅ、長文お読み頂きありがとうございました(*´ω｀*)

リンク貼るの忘れてたんですけど、この問題の解決策もすでに考案済みです。英語ですが、もし良かったらデザートにどうぞ。

この記事が気に入ったらサポートをしてみませんか？

コメントを投稿するには、ログインまたは会員登録をする必要があります。