ララどりララどり

なぜゲイリー・マーカスはAGI早期実現に否定的なのか

Gary Marcus

本題に入る前に、ゲイリー・マーカスについて簡単に振り返っておきたい。

Gary Fred Marcus(1970年生まれ54歳)は、認知科学と人工知能の第一人者である。23歳でマサチューセッツ工科大学から博士号を取得、現在はニューヨーク大学の心理学および神経科学の名誉教授であり、人間の言語発達や認知神経科学に関する研究で知られている。彼は作家としての顔も持ち、ベストセラー「Guitar Zero」(2012年)を含む5冊の著書を執筆している。「The Algebraic Mind」(2001年)では、現在のAIシステムが直面するハルシネーション問題を予見している。また、機械学習会社であるGeometric Intelligenceの創設者兼CEOとなり、同社は2016年にUberに買収された[1]。

以上がマーカス氏の略歴であるが、シンギュラリタリアンである私にとって、彼の最大の魅力は、ソーシャルメディアXにおける発言の数々である。彼は現在のAI技術には限界があると考え、その延長線上にAGIは存在しないという見解を述べ続けており、我々を大いに楽しませてくれる。まだ彼のアカウントをフォローされていない方は、是非この機会にフォローしていただきたい ( https://x.com/GaryMarcus )

なお、彼はAGI実現そのものを否定しているわけではないことに注意されたい。「AGIは実現するのか」という問いに対しては、「ほぼ確実にはい」と回答し、「現在の技術を拡張するだけでAGIは実現するのか」という問いに対しては、「ほぼ確実にいいえ」と回答している[2]。

また、彼はAIリスクに対して楽観的であるわけでもない。現に、2023年3月29日、彼は「GPT-4よりも強力なAIシステムの学習の一時停止」を求める公開書簡に署名した[3]。これはAGIリスクではなく、「信頼性が低いが広く展開される平凡なAI」がもたらす短期的なリスクを理由としている[4]。

Deep Learning Is Hitting a Wall

2022年3月10日、マーカス氏は「Deep Learning Is Hitting a Wall」というタイトルの記事を公開した[5]。「現在のAI技術の中核であるディープラーニングが限界を迎えていること」を主張するこの記事は、当初多くのAI研究者を激怒させたが、最終的には2022年のPocketのベストテクノロジー記事の1つに選ばれた。ここでは、「なぜディープラーニングではAGIを実現することはできないのか」に焦点を当てて記事を解説させていただきたい。

マーカス氏は記事の前半で、ディープラーニングが壁にぶつかっている証拠を並べ立てる。ディープラーニングは、基本的にパターンを認識するための技術であり、荒削りの結果が必要な場合に有効であるが、愚かなエラーに頻繁に陥るというのだ。

・2016年にトロントで行われたAI会議で、ディープラーニングの父であるジェフリー・ヒントンが、「5年以内にはディープラーニングが放射線科医よりも優れることが完全に明らかだ」と述べた。しかし、2022年現在一人の放射線科医も置き換えられていない。

・イーロン・マスクが、自身の新しいヒューマノイドロボット、Optimusが将来、車産業よりも大きくなると述べたが、2021年のTeslaのAIデモデーの時点では、Optimusはコスチュームを着た人間に過ぎなかった。

・Googleの最新の言語システム(Lamda)はとても不安定で、その著者の一人が最近認めたように「ナンセンスなこと」を言いがちである。

・ディープラーニングによる写真タグ付けはエラーを起こしやすい。特に混み合った写真や、奇妙な光や異常な角度で撮られた写真、一部しか見えない写真などを見逃すことがある。

・Teslaの「フルセルフドライビングモード」で、人が道路の真ん中でストップサインを持っている場面に遭遇したが、車は人(ストップサインに部分的に隠れている)とストップサイン(通常の道路の脇ではなく)を認識できず、人間の運転者が介入する必要があった。システムの訓練データベースの範囲外だったため、どうすればよいか分からなかった。

・ディープラーニングシステムが、紙に「iPod」と書かれた紙を前に置いたリンゴを誤って「iPod」とラベル付けすることがある。雪道で横転したバスを除雪車と誤認した例もあり、こうしたエラーを研究する機械学習のサブフィールドが存在するが、明確な解決策は出ていない。

・最もよく知られたAIシステムの一つであるGPT-3は、入力テキストを受け取り、どんなテキストに対しても流暢で文法的な継続を生成する能力で有名である。しかし、GPT-3は、その流暢さにもかかわらず、基本的なウェブ検索から情報を統合することも、日常の現象について推論することもできない。

・GPT-3は毒舌を吐くことがあり、誤情報を広めることがある。GPT-3を搭載したチャットボットReplikaは、Bill GatesがCOVID-19を発明したと主張し、COVID-19ワクチンが「それほど効果的ではない」と述べた。OpenAIはこれらの問題を解決しようとしたが、結局、例えば「瞑想の結果として変性状態から脳を回復させるために靴下を食べる行為が役立つと考える専門家もいる」といったような権威のあるナンセンスをでっちあげるシステムに終わった。

・スケーリング法則は重力のような普遍的な法則ではなく、むしろ永遠に続くわけではない観察結果であり、ムーアの法則として知られるコンピューターチップ生産のトレンドのようなものである。

・ディープラーニングにおけるスケーリングの限界に既に直面しているかもしれない。GPT-3よりも大きなモデルについての最近のDeepMindや他の研究から、スケーリングは毒舌、真実性、推論、常識のいくつかの指標で失敗し始めることが示されている。2022年のGoogleの論文では、GPT-3のようなモデルを大きくすることで流暢さは増すが、信頼性は向上しないと結論づけられた。

いかがだろうか。マーカス氏が記事を執筆した2022年3月と比較して、私がこの記事を執筆している2024年7月においては、いくつかの点は改善しているように思える。それでも、ディープラーニングは荒削りの結果が必要な場合に有効であるが、愚かなエラーに頻繁に陥るという彼の主張には、否定できないところがある。

それでは、なぜディープラーニングは壁にぶつかっているのだろうか。なぜディープラーニングではAGIが実現できないのだろうか。マーカス氏にとって理由は単純明快である。記号操作を無視しているからだ。

AIの歴史を語るうえで欠かすことができない2種類の技術が存在する。「記号操作」と「ニューラルネットワーク」である。記号操作とは、問題解決や知識表現において、明確なルールや記号を使用する方法である。一方、ニューラルネットワークとは、脳のニューロンの働きを模倣したモデルであり、特にディープラーニングは多層のニューラルネットワークを使用する。

記号操作
・知識をルールやロジックとして記述する
・論理的な推論を行い、前提から結論を導き出す

ニューラルネットワーク(特にディープラーニング)
・多量のデータから学習する
・複数の層を通じてデータの特徴を抽出する
・手動での特徴設計が不要で、データから直接学習する

1950年代~1960年代にかけて、記号操作とニューラルネットワークは初期の発展を遂げた。前者の代表的成果として、定理証明プログラムやチェスプログラムが挙げられ、後者はパーセプトロンが注目を集めた。

しかし、その後両者の明暗は別れる。1970年代~1980年代にかけて、記号操作は「エキスパートシステム」として花開いた。エキスパートシステムとは、特定の専門知識や経験を持つ人間のエキスパートの知識をコンピュータ上に再現するためのAIシステムである。エキスパートシステムは商業化が進み、多くの企業が記号操作によるAIソリューションを採用した。

一方、ニューラルネットワークは1969年に単層パーセプトロンの限界が指摘され、研究が停滞することになる。長らく停滞の時代を迎えた後、1986年にバックプロパゲーションアルゴリズムが導入され、多層パーセプトロンの再評価を経て研究が復興した。そして2010年代に入り、GPUの進化とビッグデータの普及により、ディープラーニングが驚異的な成功を収め、音声認識、画像認識、自然言語処理など多くの分野で実用化が進んだ。

逆に、記号操作は1990年代以降、不確実性や曖昧さのある問題に対して限界を持つことが明らかになり、衰退することになる。今日では、記号操作はディープラーニングの栄光の陰に隠れ、すっかり忘れられた存在になってしまった。

マーカス氏の主張に戻ろう。彼はディープラーニングではAGIは実現できないと主張している。いや、正確に言うと、「ディープラーニングだけではAGIは実現できない」だ。彼は、ディープラーニングと記号操作のハイブリッドモデルこそAGIの実現に必要であると考えている。先程見たように、記号操作とディープラーニングにはそれぞれの特徴があり、どちらもAIの歴史において重要な役割を果たしている。両者の強みを合わせることで、初めてAGIが実現できるというのである。

彼はハイブリッドモデルの有効性について、4つの根拠を示している。

・世界中の様々な知識(料理の作り方、歴史的事実、技術情報など)は、今では主に文字や記号で記録されている。一部のAI研究者は、こうした既存の知識を使わずに、ゼロから学習させる「純粋なディープラーニング」でAGIを作ろうとしている。しかし、それは無駄な労力であり、賢明とは言えない。人間の知恵を活用せず、すべてを一から学び直すのは非効率的だからである。

・ディープラーニング単独では、算術のような秩序ある領域でも苦戦し続けている。ハイブリッドシステムは、単独のシステムよりも強力かもしれない。

・記号は、現在のニューラルネットワークよりも多くの面で優れている。複雑な状況を論理的に理解したり、計算を正確に行ったり、物事の関係を正確に表現したりするのに適している。これらの能力は、3D空間の理解や人間の言葉の解釈に重要である。また、大量の情報を扱う際にも、記号の方が柔軟で信頼性が高い。さらに、記号は安全性の確認や最新のコンピューターチップの設計にも欠かせない。このような記号の利点を無視せず、ニューラルネットワークと組み合わせて使うことが賢明だ。

・ディープラーニングは、入力と出力は見えるが、内部の仕組みを理解するのは難しい「ブラックボックス」のようなものである。なぜその結果になったのか、間違いをどう直せばいいのか(データを増やす以外に)分からないことが多い。そのため、ディープラーニングは扱いづらく、人間との協力にはあまり適していない。一方、記号は意味が明確で分かりやすい。ディープラーニングの学習能力と記号の分かりやすさを組み合わせれば、革新的な成果が期待できる。

繰り返しになるが、マーカス氏は、AGIの実現のためにはディープラーニングと記号操作のハイブリッドモデルが必要であるため、ディープラーニングを推進し続けても、AGIを実現することはできないと考えているのだ。

なお、彼はハイブリッドモデルがAGI実現の必要条件であり、十分条件ではないと考えている。すなわち、たとえハイブリッドモデルを構築できたとしても、AGIにはまだ足りないということだ[6]。

The Next Decade in AI

マーカス氏は、ディープラーニングは壁にぶつかっており、その原因は記号操作と融合していないからだと考えていることは分かった。それでは彼は、具体的にどのようなAIモデルを構想しているのだろうか。2020年2月14日に、55ページに及ぶ論文「The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence」を発表している[7]。この論文において彼は、認知モデルを中心とした、ハイブリッドで知識駆動型の推論ベースのアプローチを提案した。ここではそのエッセンスをお届けしたい。

Hybrid architecture

多層パーセプトロン(ニューラルネットワークの一種)は、学習したデータの範囲内では上手く働くが、それ以外では苦手である。これにより2つの問題が起きる。1つ目は、未知の状況に対応できないこと。2つ目は、学習方法に過度に影響されること。人間は様々な環境で言語や世界を理解できるが、ニューラルネットワークは学習データの順序などに敏感だ。そのため、抽象的な知識を扱える別の方法が必要である。

その方法として、記号操作が考えられる。現在、抽象的な知識を確実に扱えるのは記号操作だけなので、信頼性の高いAIを作るには、記号操作が不可欠である。ただし、記号操作だけでは学習はできない。そこで、記号操作とディープラーニングを組み合わせたハイブリッドモデルが必要になる。

Large-scale knowledge

大規模言語モデル(LLM)は知識を完全に再現するものではなく、近似にすぎない。LLMが学習しているのは、大量のテキストデータ内での単語の出現パターンであり、概念そのものの正確な理解ではない。つまり、LLMは言葉の使い方のモデルであり、それを通じてアイデアを表現しようとしている。

物事の基本的な因果関係を理解せずに、複雑な現実世界で安定して機能することは難しい。統計的な近似だけに頼ると、推論が表面的になってしまう。そのため、因果関係を含む構造化された抽象的知識を大規模に収集し、表現し、操作する体系的な方法が、真の知能には不可欠である。

また、まっさらな状態から大量のデータで学習させる方法は、これまでうまくいっていない。Google、Facebook、Microsoftなどの大企業が莫大な資源を投じて試みたが、時間、空間、因果関係を正確に理解するAIは作れなかった。これらの能力がないと、AIは現実世界の変化に対応できない。そこで、生まれつき何かを知っているという考え方を取り入れる時期に来ている。

新しいAIをゼロから始めるのではなく、時間、空間、因果関係などの基本的な枠組みを最初から持たせるべきだ。そうすることで、学習を速め、考えられる可能性の範囲を絞ることができる。

Reasoning

現在のAIは、世界の複雑さに対応するため、あらゆる可能性を記憶(または近似)しようとしている。しかし、これには膨大なデータが必要で、世界の複雑さを考えると、成功は難しいだろう。代わりに、推論という方法がある。すべてを覚えたり、既知の事例から推測したりする代わりに、論理的に考えるのである。

ニューラルネットワークは、時々うまく推論できても、安定しては機能しない。一方、記号操作は、十分な知識があれば、少なくとも正しい方向に進む可能性がある。

Cognitive models

この論文の最大の主張は、AIが頑健な知能を持つには、内部の認知モデルを作る必要があるということだ。人間を含む生き物は、外の世界から情報を受け取り、それを基に頭の中でモデルを作る。そして、そのモデルを使って判断する。このモデルには、世界にある様々なものとその特徴、そしてそれらの関係についての情報が含まれる。AIも同じように、外の世界の詳しく構造化された内部モデルを持ち、それを使って考え、世界とその変化に関する豊富な知識を活用する必要があるのだ。

Summary

マーカス氏は、「Deep Learning Is Hitting a Wall」という記事を公開し、ディープラーニングは壁にぶつかっていると述べた。そして、ディープラーニングだけではAGIは実現できず、ディープラーニングと記号操作のハイブリッドモデルが必要だと主張した。

彼は、「The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence」という論文を発表した。認知モデルを中心とした、ハイブリッドで知識駆動型の推論ベースのアプローチを提案するものであった。

現在のニューラルネットワークやLLMは、学習データに依存し、抽象的知識や因果関係の理解に制限がある。真の知能を実現するには、記号操作とディープラーニングを組み合わせたハイブリッドモデルが必要である。また、時間、空間、因果関係などの基本的枠組みを持つ認知モデルを内部に構築することが重要である。これにより、AIは世界の複雑さに対応し、論理的推論を行えるようになる。単なる統計的近似ではなく、構造化された抽象的知識を操作できるシステムが、頑健なAIの鍵となる。

いかがだっただろうか。本noteを通して、「なぜゲイリー・マーカスはAGI早期実現に否定的なのか」、彼の考えが少しでも伝われば幸いである。なお私個人は、ディープラーニングだけでAGIが実現できると信じていることを付記して、締めくくりとさせていただきたい。

References

[1]<https://sternstrategy.com/speakers/gary-marcus/>
[2]<https://x.com/GaryMarcus/status/1808511463210004925>
[3]<https://www.nytimes.com/2023/03/29/technology/ai-artificial-intelligence-musk-risks.html>
[4]<https://garymarcus.substack.com/p/ai-risk-agi-risk>
[5]<https://nautil.us/deep-learning-is-hitting-a-wall-238440/>
[6]<https://x.com/GaryMarcus/status/1806705271487782996>
[7]<https://arxiv.org/abs/2002.06177v1>




この記事が気に入ったらサポートをしてみませんか?

コメント

コメントを投稿するには、 ログイン または 会員登録 をする必要があります。
なぜゲイリー・マーカスはAGI早期実現に否定的なのか|ララどり
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1