NEWYORKERCANAIGETBETTERShiraInbarV.gif
SZ MEMBERSHIP

AIがもうこれ以上あまり進化しないとしたら?

ILLUSTRATION: SHIRA INBAR

OpenAIのGPT-5は、大規模言語モデルの進歩が行き詰まりつつある可能性を示唆している。スケーリング則の崩壊、事後学習の限界、囁かれるAIバブル──果たしてその先行きに光は差しているのか?

AIバブルをめぐる、『WIRED』日本版ポッドキャストのエピソードはこちら

今日の人工知能(AI)技術をめぐる熱狂と恐怖の大部分は、2020年1月にさかのぼることができる。OpenAIの研究チームが「Scaling Laws for Neural Language Models(ニューラル言語モデルのスケーリング則)」という30ページの報告書を発表した瞬間だ。チームを率いていたのはAI研究者のジャレッド・カプランで、メンバーにはAnthropicの現CEOであるダリオ・アモデイも含まれていた。研究チームが取り組んだのは、かなりテックギーク的な問いだった──言語モデルの規模や訓練の強度を上げると、その性能はどう変化するのか?

当時、機械学習の専門家の多くは、一定の規模を超えると言語モデルは訓練データの答えをそのまま暗記し始め、実用性が低下すると考えていた。だが、OpenAIの論文は、モデルは規模を大きくすればするほど性能が向上し続けると主張した。しかも、その改善はべき乗則に従う可能性がある──つまり、ホッケースティックのように急激な上昇カーブを描くというのだ。

論文の示唆は明快だった。より大きな言語モデルを構築し、より大規模なデータセットで訓練し続ければ、モデルは驚くほど高性能になっていくということだ。論文発表から数カ月後、OpenAIはこのスケーリング則を裏づけるかのように、前世代のGPT-2の10倍の規模をもち、性能も飛躍的に向上したGPT-3を公開した。

「この技術革命は止められない」

突如として、人間と同等以上の能力で幅広いタスクをこなす「汎用人工知能(AGI)」という理論上の概念が、手の届くところまで近づいたように思われた。スケーリング則が正しいのであれば、AI企業はより多くの資金と計算資源を投入することで、AGIの実現に到達できるかもしれない、と。

それから1年も経たずに、OpenAIのCEOサム・アルトマンは「Moore’s Law for Everything(あらゆることにムーアの法則を)」と題したブログ記事を発表した。そのなかで彼は、「現在人間が行なっている仕事のますます多く」をAIが担うようになり、資本の所有者に想像を絶するほどの富をもたらすと主張した。「この技術革命は止められない。世界は急速かつ劇的に変化するだろう。そこで生まれる富を分配し、より多くの人々が望む人生を送れるようにするためには、同等に劇的な政策転換が必要になる」

スケーリングによっていずれAGIに到達するのは必然だ、というAI界の信念の強さはいくら強調してもしすぎることはない。22年、AI起業家でありニューヨーク大学の心理学・神経科学名誉教授であるゲイリー・マーカスは、カプランらの論文に異議を唱え、「いわゆるスケーリング則は重力のような普遍的法則というより観察結果にすぎず、永遠に成り立つとは限らない」と指摘した。これに対する反発は素早く、そして激しかった。「これまで書いたエッセイのなかで、あれほど多くの人々、そして著名人たち──サム・アルトマン、グレッグ・ブロックマン、ヤン・ルカンイーロン・マスクなど──から嘲笑されたものはない」と、マーカスはのちに振り返っている。

最近、わたしの取材に対しても、あの発言によって自分は機械学習の世界から事実上「破門」されたのだと語った。彼の発言からまもなく、ChatGPTはデジタルサービス史上最速で1億人のユーザーを獲得した。そして23年3月、OpenAIがリリースした次世代モデルのGPT-4はスケーリング曲線をさらに大きく跳ね上げる性能を示し、マイクロソフトの研究チームが「Sparks of Artificial General Intelligence(AGI誕生の兆し)」という論文を書くほどの衝撃を与えた。その後の1年間で、AI分野へのベンチャー投資額は80%増加した。

AIの脅威的な進化とその減速

だがその後、進歩は鈍化したように見えた。OpenAIは2年以上にわたり目玉となる新モデルを発表せず、代わりに専門的なプロダクトのリリースに注力したものの、世間一般にはあまり知られなかった。

業界内では、AIのスケーリング則がついに限界を迎えつつあるのではないかという声も上がり始めた。OpenAIの共同創業者イルヤ・サツキヴァーは、 24年11月にロイターの取材でこう語っている。「10年代はスケーリングの時代でした。けれども、いまはまた驚きと発見の時代が戻ってきたんです。みなが次なるものを探しています」

当時の『TechCrunch』の記事は、業界の空気をこうまとめた。「いまでは誰もが認めているようだ。大規模言語モデル(LLM)を事前学習させる際に計算資源とデータ量を増やしていくだけで全知のデジタル神のようなものが生まれるわけではない、ということを」。だが、こうした冷静な観察は、ほかのAIリーダーたちのセンセーショナルな発言にかき消された。

アモデイは最近、「AIはほぼすべての知的作業において人間を超え始めている」とアンダーソン・クーパーの番組で語り、Axiosのインタビューでは今後1〜5年のうちに初級ホワイトカラー職の半分が「消滅する」可能性があると予測した。25年の夏には、サム・アルトマンとマーク・ザッカーバーグがそろって、自社によるスーパーインテリジェンス(超知能)の開発完了が近いと主張した。

そして8月初旬、ついにOpenAIはGPT-5をリリースした。AI能力の次なる大飛躍をもたらすと期待されていたモデルだ。初期のレビューではいくつかの機能に好意的な反応が見られた。人気テック系YouTuberのMrwhosethebossが、ポケモンを駒に使ったチェスゲームの作成をGPT-5に頼んだところ、業界最先端のコーディングモデルGPT-4o-mini-highを使ったときよりもはるかによい結果が得られたという。また、GPT-5はMrwhosethebossのYouTubeチャンネル用の台本もGPT-4oよりうまく書いた。Mrwhosethebossが特に感心したのは、GPT-5がタスクに応じて最適なモデルを自動的に選んでくれるため、ユーザーが手動で選ぶ必要がないという点だった。

だが一方で、YouTubeのサムネイル画像や誕生日パーティーの招待状の生成に関してはGPT-4oのほうが明らかに優れており、GPT-5は虚偽の情報を容易に生成してしまうことも判明した。公開から数時間のうちに、RedditのChatGPTスレッドには新モデルへの落胆の声が相次ぎ、「有料ユーザーにとってさえ史上最悪のゴミ」とする投稿もあった。その後に開かれたAMA[編註:Ask Me Anything。有名人や専門家がユーザーの質問に直接答えるスレッド]では、アルトマンやOpenAIのエンジニアたちはユーザーの不満にひたすら対応する展開となった。マーカスは今回のリリースを「遅すぎ、誇大宣伝されすぎ、期待外れ」と総括した。

GPT-5のリリース後、AIに関する大げさな予測を以前のように文字通り受け取るのは難しくなり、むしろマーカスのような批評家たちの見解のほうが現実的に思えるようになっている。この技術は確かに重要だが、わたしたちの生活を劇的に変えるほどのものではない、とする批評は、AIが今後あまり進化しないかもしれないという別の近未来像を考慮するよう促している。

OpenAIとしても、本来は2年半も待たずにGPT-5をリリースしたかった。テック系メディア『The Information』によると、24年春の時点でアルトマンは社員に、コードネーム「Orion」と呼ばれていた次の主力モデルはGPT-4を大幅に上回る性能になると語っていた。ところが秋になるころには、その成果が期待外れであることが明らかになってきた。『The Information』は同年11月の記事でこう報じている。「Orionの性能は確かに過去のモデルを上回ったものの、クオリティ向上の幅はGPT-3からGPT-4への飛躍に比べればはるかに小さかった」

失敗に学ぶ新アプローチ「事後学習」

Orionの失敗によって、AIスケーリング則はそもそも法則ではなかったのではないかという業界内の不安が決定的になった。モデルをひたすら巨大化させても、得られる成果がいずれ逓減するのであれば、テック企業はAI製品を強化するための新たな戦略を必要とする。そこで辿り着いたのが、「事後学習による改善」と呼べるアプローチだ。

主要なLLMは、まずインターネット上の膨大な情報を取り込む「事前学習」と呼ばれるプロセスを経て賢くなる。一方で、吸収した知識や能力をより効果的に活用できるよう、後から精緻化することもできる。事後学習の方法のひとつは、機械学習の一種である強化学習を適用して事前学習済みモデルを訓練し、特定の種類のタスクでのパフォーマンスを改善するというものだ。また別の手法として、負荷の高いクエリに対してモデルがより多くの計算時間を割いて応答を生成できるようにすることも可能だ。

わかりやすくクルマに喩えてみよう。事前学習は車両そのものをつくる工程にあたり、事後学習はそれをチューニングする作業だと言える。スケーリング則の論文でカプランらは、事前学習の規模を拡大すればするほど強力なクルマが生まれると予測していた。GPT-3がセダンだとすれば、GPT-4はスポーツカーになる、といった具合だ。だがその進化の流れが鈍化すると、業界はすでにつくったクルマの性能を上げる方向に目を向けるようになった。事後学習の技術によって、エンジニアたちはクルマの製造者から整備士へと変わったのだ。

テック業界のリーダーたちは、事後学習によってかつてのスケーリングと同じ速さで製品が進化することへの期待をすぐに口にした。「わたしたちは新たなスケーリング則の出現を目の当たりにしています」と、マイクロソフトのCEOサティア・ナデラは24年秋のカンファレンスで述べた。ベンチャーキャピタリストのアンジニー・ミダも、これを「第二のスケーリング則の時代」と呼んだ。そして12月、OpenAIは新モデルのo1(オーワン)を発表した。これは、事後学習を用いて段階的な推論やコード生成の能力を強化したものだった。その後次々と発表されたo3-mini、o3-mini-high、o4-mini、o4-mini-high、o3-proも、同社が事後学習技術を独自に組み合わせてチューニングしたモデルだ。

ほかのAI企業も同様の方向転換を図った。Anthropicは2月に発表したClaude 3.7 Sonnetで事後学習による改善を導入し、Claude 4シリーズではそれを開発の中心に据えた。イーロン・マスクのxAIも初めはスケーリング戦略を追い続け、冬に発表したGrok 3では、GPT-4の訓練に使われたとされる計算資源の何倍にもなる10万個という驚異的な数のH100 GPUチップを用いて事前学習を行なった。だがGrok 3は競合他社のモデルを大きく上回る成果を出せず、Grok 4の開発では事後学習のアプローチが採用された。GPT-5も、まさにこの流れの上にある。それはまったく新しいモデルというより、近年の事後学習型モデルを洗練させてひとつに統合する試みなのだ。

実感できない「ベンチマークの向上」

事後学習というアプローチによって、わたしたちはいわゆるAGIへと続く道のりを再び歩き始めたのだろうか? OpenAIがGPT-5を発表した際には、「エイダー・ポリグロット多言語コード編集」や「ERQAマルチモーダル空間推論」などの指標を用いて、それまでのモデルとの差を示す20以上のグラフやチャートが公開された。こうしたベンチマークのなかには、実際に有用なAIの進歩を反映しているものもある。

GPT-5はプログラミング関連のベンチマークで以前のモデルよりも高スコアを記録し、初期のレビューでもコード生成の質が向上しているという評価が多かった。文章もより自然で流暢になり、その点は数値にもあらわれている。だが、これらの改善はやはり限定的に感じられる。それまでの生成AIが示したブレイクスルー的な能力の大幅拡張というより、むしろソフトウェアのアップデートで見られるような特定機能の改善に近い印象だ。GPT-4が登場したときには、棒グラフを見なくとも、それが過去のあらゆるモデルを凌駕していることは一目瞭然だった。

ベンチマークの中身そのものが疑わしい場合もある。OpenAIがo1をリリースして以降、AI企業は「段階的推論」の指標で進歩を強調してきた。だがAppleの研究チームは25年6月に発表した論文「The Illusion of Thinking(思考の幻想)」で、最新の「LLM」はパズルの複雑さが一定の水準を超えると「性能がゼロに崩壊する」ことが確認されたと述べている。o3-miniやClaude 3.7 Sonnetの「思考」モード、DeepSeek-R1といった推論モデルは「いまだ一般化可能な問題解決能力を獲得していない」と論文には記されている。

8月になると、アリゾナ州立大学の研究チームがさらに辛辣な見方を示し、AI企業が「推論」と呼ぶものは「訓練データの分布の外側に出た瞬間消えてしまう儚い蜃気楼」にすぎないと述べた。こうしたベンチマークをクリアすることは、例えばわたしたちが仕事で日常的に行なう問題について思考し、解決することとはまったく別の話だ。「AIを使っている企業が『25年モデルは24年モデルより格段に役立つ』と言っているのはあまり聞きません。ベンチマーク上では25年モデルのほうが優れていてもね」と、マーカスはわたしの取材で語った。

事後学習による改善は、かつてのスケーリングほどモデルの力を底上げしていないようだ。カムリを改造すれば実用性は高まるかもしれないが、いくら手を加えてもフェラーリにはならない。

AGIの実現には慎重な姿勢で臨む

先日わたしは、マーカスとほかの懐疑派の専門家ふたりに、生成AIが今後数年間で経済に与える影響について予測してもらった。「500億ドル(約7兆7,000億円)規模の市場にはなっても、1兆ドル(約150兆円)市場にはならないでしょう」と語ったのは、テクノロジーアナリストでポッドキャスト「Better Offline」のホストを務めるエド・ジトロンだ。マーカスも同じ意見で、「せいぜいで500億ドル、うまくいっても1,000億ドル市場といったところでしょう」と述べた。

初期の言語モデルを批判した有名論文の共著者で、言語学教授のエミリー・ベンダーはこう語る。「AIの今後の影響は、この技術の売り手による誇大宣伝にどれだけ多くの経営層が乗せられ、職場をそれに合わせて再編するかによって左右されます。そうした動きが拡がれば拡がるほど、すべての人にとって状況は悪化します」

こうした見方はこれまで非現実的だと言われてきた。統計学者ネイト・シルバーはジトロンのツイートに対し、「年寄りが雲に向かって怒鳴ってる感じだね」と揶揄したことさえある。わたしたちはテック企業のCEOたちが描く壮大な未来像をあまりにも容易に信じてきたのかもしれない。その流れは変わりつつあるように見える。

AIに対するこうした穏健な見方が正しいのであれば、今後数年間でAIツールは着実だが緩やかな進歩を続けるだろう。多くの人にとっての用途は、情報検索や、レポート要約、イベント議事案の下書きといった面倒な作業の効率化など、日常的だが限られた場面にとどまるはずだ。プログラミングや学術研究など、一部の分野は劇的に変化するだろう。声優やSNS用コピーライティングなど、ほぼ消滅する可能性のある職業もある。だが、AIが労働市場全体を大きく揺るがすことはないかもしれない。そして、スーパーインテリジェンスのような誇張された概念は、やがて真剣に受け止められなくなっていくのかもしれない。

AIの誇大宣伝を信じ続けることは、それ自体に危険があるとも言える。最近の記事でジトロンは、米国の株式市場価格の約35%──つまり、多くの人が退職後に備えて運用しているポートフォリオの大部分──が、いわゆる「マグニフィセント7」と呼ばれる大手テック企業7社に関係していることを指摘した。ジトロンの分析によれば、これら企業の過去18カ月間のAI関連の資本的支出は5,600億ドル(約86兆円)に上る一方、AIによる収益はせいぜい350億ドル(約5兆4,000億円)程度にとどまっているという。「正気を疑いたくなる数字です」とジトロンは語った。

とはいえ、いわゆる穏健派の論者も、人々はAIに対して油断すべきではないと考えている。マーカスは、生成AIに過度な期待を寄せてきたのは誤りだったとしながらも、新たな開発手法が登場すれば、早ければ2030年代にAGIが実現する可能性もあると見ている。たとえ言語モデルがわたしたちの仕事を完全に自動化することはなくとも、AIへの関心と投資が再び高まることでより複雑な技術が誕生し、それが自動化につながる可能性もある。それまでの猶予期間を使って、わたしたちは将来起こりうる混乱に備えるべきだ。効果的なAI規制の策定や、デジタル倫理という新しい分野の育成などがその手段となるだろう。

2020年のスケーリング則論文の付録には、のちの報道でほとんど見落とされていた「注意事項」がある。そこにはこう記されている。「現時点では、われわれが提案するスケーリング則について理論的な確固たる理解には至っていない。モデルの規模および計算量とのスケーリング関係については、とりわけ謎が多い」。実際のところ、スケーリング則は途中までしか機能しなかった。コンピューターに思考を教えるという営みそのものが、いまだ謎に包まれている。だからこそ、傲慢ではなく慎重な姿勢で進むべきなのだ。

(Originally published on The New Yorker, translated by Risa Nagao/LIBER, edited by Nobuko Igari)

※『WIRED』によるAGIの関連記事はこちら



AIがもうこれ以上あまり進化しないとしたら?

雑誌『WIRED』日本版 VOL.57
「The Big Interview 未来を実装する者たち」好評発売中!

気鋭のAI研究者たちやユヴァル・ノア・ハラリが語る「人類とAGIの未来」。伝説のゲームクリエイター・小島秀夫や小説家・川上未映子の「創作にかける思い」。大阪・関西万博で壮大なビジョンを実現した建築家・藤本壮介やアーティストの落合陽一。ビル・ゲイツの回顧録。さらには不老不死を追い求める富豪のブライアン・ジョンソン、パリ五輪金メダリストのBガール・AMIまで──。未来をつくるヴォイスが、ここに。グローバルメディア『WIRED』が総力を結集し、世界を動かす“本音”を届ける人気シリーズ「The Big Interview」の決定版!!詳細はこちら