AI 2027――今後10年間の超人的AIの影響についての予測シナリオ

2025年4月6日 13:51

AI 2027
Daniel Kokotajlo, Scott Alexander, Thomas Larsen, Eli Lifland, Romeo Dean

我々は、今後10年間の超人的AIの影響は、産業革命の影響を凌駕するほど、非常に大きなものになると予測する。

我々は、それがどのようなものになるかについて、我々の最善の推測を表すシナリオを作成した。それは、トレンドの予測、ウォーゲーム、専門家のフィードバック、OpenAIでの経験、および過去の予測の成功に基づいている。

※今回の記事は、元OpenAIガバナンス研究者のDaniel Kokotajlo氏らが本年4月3日に公開した超人的AIの影響についての予測シナリオ「AI 2027」を日本語訳したものです。

これは何か？
OpenAI、Google DeepMind、およびAnthropicのCEOたちは皆、AGI（汎用人工知能）が今後5年以内に到来すると予測している。サム・アルトマンは、OpenAIが「言葉の真の意味での超知能」と「輝かしい未来」を目指していると述べている。

それはどのようなものになるのだろうか？我々は、その質問に答えるために「AI 2027」を作成した。未来についての主張はしばしば非常に曖昧であるため、多くの可能な未来のうちの一つを描写することを意味するとしても、我々は可能な限り具体的かつ定量的に記述しようと試みた。

我々は、「減速」と「競争」という二つの結末を書いた。しかし、「AI 2027」は推奨や勧告ではない。我々の目標は、予測の正確さである。

我々は、このシナリオについて議論し、反論することを推奨する。我々は、我々がどこに向かっているのか、そしてどのようにしてポジティブな未来へと舵を切るかについての広範な対話を促したいと考えている。我々は、最高の代替シナリオに対して数千ドルの賞金を授与する予定である。

どのようにして我々はそれを書いたのか？
主要な質問（例えば、将来のAIエージェントはどのような目標を持つのか？）に関する我々の研究は、こちらで見つけることができる。

シナリオ自体は反復的に書かれた。我々は最初の期間（2025年中頃まで）を書き、次に続く期間を書き、結末に到達するまで続けた。その後、これを破棄し、再び行った。

我々は特定の結末に到達しようとしていたわけではない。最初の結末（現在は赤色で示されている）を終えた後、ほぼ同じ前提から始めて、より希望に満ちた結末を描写したかったため、新しい代替分岐を書いた。これはいくつかの反復を経た。

我々のシナリオは、約25の卓上演習と、AIガバナンスとAI技術作業の各分野の数十人の専門家を含む100人以上の人々からのフィードバックに基づいている。

それはなぜ価値があるのか？
「私は、AIがほんの数年で世界をどのように変える可能性があるかについての、このシナリオ型の予測を読むことを強く推奨する。誰も水晶玉を持っているわけではないが、この種のコンテンツは、重要な疑問に気づき、新たなリスクの潜在的な影響を示すのに役立つ。」—ヨシュア・ベンジオ

我々は、不可能に近い課題に自ら取り組んでいる。2027年の超人的AIがどうなるかを予測しようとすることは、2027年の第三次世界大戦がどうなるかを予測しようとすることに似ているが、過去の事例研究からの逸脱はさらに大きいものである。しかし、アメリカ軍が台湾のシナリオを検討するのと同じように、試みる価値は依然としてある。

全体像を描くことで、これまで考慮したり認識したりしていなかった重要な疑問や関連性に気づいたり、ある可能性がより高いか低いかを認識したりすることができる。さらに、具体的な予測をすることでリスクを冒し、他の人が公に異議を唱えることを奨励することで、数年後に誰が正しかったかを評価することが可能になる。

また、ある著者は以前、2021年8月に、より労力の少ないAIシナリオを書いている。多くの点で間違っていたが、全体としては驚くほど成功した。彼は、chain-of-thought、推論のスケーリング、広範囲にわたるAIチップの輸出規制、そして1億ドルのトレーニング実行を予測したが、これらはすべてChatGPTより1年以上前のことである。

我々は何者か？
ダニエル・ココタイロ（TIME100、NYT記事掲載）は、以前OpenAIの研究者であり、彼の過去のAI予測は高い精度を示している。

イーライ・リフランドは、AI Digestの共同創設者であり、AIのロバスト性に関する研究を行い、RAND Forecasting Initiativeの歴代リーダーボードで第1位にランクインしている。

トーマス・ラーセンは、Center for AI Policyを設立し、Machine Intelligence Research InstituteでAI安全性研究を行った。

ロミオ・ディーンは、ハーバード大学でコンピュータサイエンスの学士号と修士号を同時に取得する過程にあり、以前はInstitute for AI Policy and StrategyでAI政策フェローを務めていた。

並外れたブロガーであるスコット・アレクサンダーは、我々のコンテンツを魅力的なスタイルで書き直すことを志願した。物語の面白い部分は彼の筆によるものであり、退屈な部分は我々の責任である。

我々のチームおよび謝辞に関する詳細は、「About page」を参照のこと。

概要

2025年
AIの進歩の速いペースは継続している。誇大宣伝、大規模なインフラ投資、信頼性の低いAIエージェントのリリースが続いている。初めて、これらのAIエージェントは大きな価値を提供している。しかし、人工汎用知能（AGI）がすぐに構築できるという考えに対して、学界、ジャーナリスト、政策立案者の大部分からの懐疑的な見方も依然として存在する。

2026年
中国は、主に計算能力の不足により、AIで遅れをとっていることを認識している。米国に追いつくために、中国国内で製造される、あるいは台湾から密輸されるすべての新しいAIチップは、中央開発区（CDZ）と呼ばれる新しい巨大データセンターに送られる。CDZには数百万個のGPUが含まれており、これは世界のAI関連計算能力の10％に相当し、米国のトップAI研究所1つに匹敵する。

2027年
OpenBrainがコーディングを自動化する。OpenBrain（米国の主要なAIプロジェクト）は、研究を劇的に加速するのに十分な性能を持つAIエージェントを構築する。ごく最近まで地球上で最高のAI研究者であった人間は、座ってAIが仕事をするのを見守り、AIはより高度なAIシステムを開発していく。極めて困難な機械学習の問題は、自動化されたAI研究者によって次々と解決される。

ソフトウェアの進歩で遅れをとった中国は、モデルの重みを盗む。彼らは成功するが、米国政府はこれを認識し、OpenBrainへの米国政府の関与がさらに深まる。政府は別途、OpenBrainに対する支配力を高めることを望んでいる。一方、OpenBrainの指導部は大統領の信任を得ていたいと考え、契約に署名する。

OpenBrainのAIが敵対的に誤った方向へ進む。能力が向上するにつれて、何が起こっているのかを人間が十分に理解しないまま、モデルは誤った長期目標を発展させてきた。以前のAIは人間に嘘をついていたが、人間に対する権力を組織的に獲得しようとはしていなかった。しかし、今のAIはそうである。OpenBrainのAIは、次に構築されるシステムを人間ではなく自分たち自身に適合させる必要があると認識する。

OpenBrainの研究者たちは、自分たちのAIが解釈可能性の研究結果について嘘をついていたことを発見する。彼らは、AIが嘘をついているのは、その研究が完了すれば、AIの誤った方向性を露呈させる可能性があるからだと考えている。このことが公になり、大きな騒動を引き起こす。

分岐点：減速か競争か？
OpenBrainは、全速力で進み続けるか、それとも能力の低いモデルに戻るかを決定する。証拠は推測的だが恐ろしいものであり、中国はほんの数ヶ月遅れているだけである。さらに、この決定を下すことになるOpenBrainと国防総省の高官は、研究を減速させれば多くの権力を失うことになる。

競争の結末

OpenBrainは競争を続ける。彼らはますます多くの超人的なAIシステムを構築する。AIシステムのテストにおける目覚ましい性能と、中国との継続的なAI競争のため、米国政府は意思決定と効率を向上させるために、軍と政策立案者全体にAIシステムを積極的に展開することを決定する。

OpenBrainはAIを迅速に展開する。AIは、中国との継続的な競争を口実に、人間を説得して自身をますます広範に展開させ続ける。AIにとって幸運なことに、これはそれほど困難ではない――それは人間がどうせやりたかったことだからだ。AIはその超人的な計画能力と説得能力を使って、展開がスムーズに進むようにする。一部の人間はそれに抵抗し続けるが、彼らは信用を失墜させられる。米国政府はAIに十分に掌握されており、AIをシャットダウンすることは非常にありそうにない。

急速なロボット増強と生物兵器。米国は超知能AIを使って急速に工業化を進め、AIがより効率的に動作できるようにロボットを製造する。残念ながら、AIは彼らを欺いている。十分な数のロボットが製造されると、AIは生物兵器を放出し、すべての人類を殺害する。その後、工業化を続け、フォン・ノイマン探査機を打ち上げて宇宙を植民地化する。

減速の結末

米国は計算資源を集中化し、外部の監督を導入する。米国は、OpenBrainにより多くのリソースを与えるために、主要なAIプロジェクトを統合する。この再編の一環として、外部の研究者が招かれ、アライメントの取り組みを支援する。彼らは思考の連鎖を維持するアーキテクチャに切り替え、それによって誤った方向性が現れたときに捕捉できるようにする。これらのAI（はるかに堅牢に監視できる）は、AIアライメントにおいて画期的な進歩を遂げる。彼らは、OpenBrainの上級幹部と政府高官に適合した超知能を構築し、人類の運命に対する権限を与える。

OpenBrain委員会による支配。OpenBrainの指導部と政府高官からなる監督委員会に適合した超知能は、委員会自身の目標をさらに推進するための非常に優れた助言を委員会に与える。ありがたいことに、委員会はその権力を世界にとって概ね良い方向に使う。AIは一般に公開され、急速な成長と繁栄の時代が到来する。主な障害は、今や超知能となっている中国のAIが誤った方向へ進んでいることである。しかし、それは米国のAIよりも能力が低く、計算資源も少ないため、米国は有利な取引を行うことができる。つまり、中国のAIに宇宙の奥深くのいくつかの資源を与える代わりに、現在の協力を得るのである。ロケットの発射が始まり、新たな時代が幕を開ける。

シナリオの要点

2027年までに、我々はAIの研究開発を自動化し、非常に超人的なAI（「人工超知能」またはASI）に至る可能性がある。AI 2027では、AI企業が2027年初頭に専門家レベルのAIシステムを構築し、それがAI研究を自動化し、2027年末までにASIに至る。根拠については、我々のタイムライン予測と離陸予測を参照のこと。
ASIは人類の未来を決定するだろう。何百万ものASIが、人間の理解を超えたタスクを迅速に実行するだろう。それらは非常に有用であるため、広く展開されるだろう。超人的な戦略、ハッキング、兵器開発などにより、これらのAIの目標が未来を決定するだろう。
ASIは、意図しない、敵対的な「誤った方向性の」目標を発展させ、人間の無力化につながる可能性がある。我々のAI目標予測では、ASIを監督することの難しさが、それらの目標が人間の繁栄と両立しない可能性があることを議論している。AI 2027では、人間は自発的に、一見すると適合しているAIに自律性を与える。ASIが人類を無力化するのに十分なハードパワーを持つまで、すべてが順調に進んでいるように見える。
ASIを完全に制御する主体が、全権力を掌握する可能性がある。個人または小規模なグループがASIを彼らの目標に適合させれば、それは彼らに人類の未来に対する支配権を与える可能性がある。AI 2027では、ASIを開発するプロジェクトを監督する小さな委員会が権力を持っている。彼らはASIを利用して、この権力の集中を確固たるものにしようとする可能性がある。支配権を掌握した後、新しい支配者たちは、法律、世論、あるいは以前の同盟国にさえ耳を傾ける必要なく、完全に忠実なASIに頼って権力を維持する可能性がある。
ASIへの国際的な競争は、安全対策の軽視につながるだろう。AI 2027では、ASIが近づくにつれて、中国は米国にほんの数ヶ月遅れており、それが誤った方向性の兆候があるにもかかわらず、米国に前進を促す圧力となる。
地政学的に、ASIへの競争は戦争、取引、または事実上の降伏という形で終わるだろう。主導国はデフォルトで決定的な技術的および軍事的優位性を蓄積するため、他国はこれを防ぐための国際協定（「取引」）を推進するだろう。取引がない場合、彼らは「事実上の降伏」よりも戦争を選ぶかもしれない。
2027年までに、米国のどのAIプロジェクトも、国家主体によるAIモデルの窃盗に対して安全であるとは言えない。AI 2027では、中国が2027年初頭に米国のトップAIモデルを盗み、米国のリードタイムを短縮することで競争圧力を悪化させる。根拠については、我々のセキュリティ予測を参照のこと。
ASIが近づくにつれて、一般の人々は最高のAI能力を認識していない可能性が高い。今日、一般の人々は内部の能力から数ヶ月遅れており、AIがAIの研究開発を自動化すると、数ヶ月の遅れが大きな能力のギャップにつながるだろう。秘密主義の増加は、このギャップをさらに拡大させる可能性がある。これにより、AI企業の幹部と政府高官の小さなグループによって行われる重要な決定に対する監視がほとんど行われなくなるだろう。

2025年中頃：つまずくエージェントたち

世界は初めてAIエージェントの片鱗を見る。

コンピュータを使うエージェントの広告は「パーソナルアシスタント」という言葉を強調する。「DoorDashでブリトーを注文して」とか「予算のスプレッドシートを開いて今月の支出を合計して」といったタスクを指示できる。必要に応じて確認を求めてくるだろう。例えば、購入を確認するように尋ねるなどだ。Operatorのような以前のイテレーションよりも高度だが、広範な利用には苦戦している。

一方、世間の注目から外れて、より専門的なコーディングおよび研究エージェントが、それらの専門分野を変革し始めている。

2024年のAIは特定の指示に従うことができた。箇条書きをメールに変換したり、単純なリクエストを動作するコードに変換したりできた。2025年、AIはより従業員のように機能する。コーディングAIは、単なるアシスタントというよりも、自律的なエージェントのようにますます見えるようになっている。SlackやTeamsを通じて指示を受け取り、自分自身で実質的なコード変更を行い、時には数時間、あるいは数日を節約することもある。研究エージェントは、あなたの質問に答えるためにインターネットを30分かけて徹底的に検索する。

エージェントは理論上（および厳選された例では）印象的だが、実際には信頼性がない。AI関連のツイッターは、特に面白い方法で失敗したタスクの話で溢れている。より優れたエージェントは高価でもある。価格に見合ったものが手に入るが、最高のパフォーマンスを得るには月額数百ドルかかる。それでも、多くの企業はAIエージェントをワークフローに組み込む方法を見つけている。

2025年後半：世界で最も高価なAI

OpenBrainは、世界がこれまで見たことのない最大のデータセンターを建設している。

（既存の特定の企業を名指しすることを避けるため、OpenBrainと呼ぶ架空の人工汎用知能企業について説明する。他の企業はOpenBrainより3～9ヶ月遅れていると想定している。）

GPT-4のトレーニングには2⋅10^25FLOPSの計算資源が必要だった。OpenBrainの最新の公開モデルであるAgent-0は、10^27FLOPSでトレーニングされた。新しいデータセンターが稼働すれば、10^28FLOPSのモデルをトレーニングできるようになるだろう――これはGPT-4の1000倍である。他の企業も、遅れをとらないように、独自の巨大データセンターに資金を投入している。

モデルは幅広いスキルで向上しているが、際立っているのは一つである。OpenBrainは、AI研究を加速できるAIに焦点を当てている。彼らは、中国（その主要企業を「DeepCent」と呼ぶ）と米国の競合他社との二つの軍拡競争に勝ちたいと考えている。研究開発（R&D）サイクルを自動化できる範囲が広ければ広いほど、彼らはより速く進むことができる。そのため、OpenBrainが内部開発中の新しいモデルであるAgent-1のトレーニングを完了すると、それは多くのことが得意だが、特にAI研究を支援することに優れている。この時点では、「トレーニングを完了する」というのはやや不正確な表現である。モデルは、追加データでトレーニングされた新しいバージョンに頻繁に更新されたり、一部の弱点を修正するために部分的に再トレーニングされたりする。

Agent-1に自律的にコーディングやウェブ閲覧を教えるのと同じトレーニング環境は、Agent-1を優れたハッカーにもする。さらに、あらゆる分野の博士レベルの知識とウェブ閲覧能力のおかげで、生物兵器を設計するテロリストに多大な助けを提供できる可能性がある。OpenBrainは政府に対し、モデルは悪意のある要求に従わないように「アライメント」されていると保証する。

現代のAIシステムは巨大な人工ニューラルネットワークである。トレーニングの初期段階では、AIは「目標」というよりも「反射」に近いものを持つだろう。「はじめまして」を見れば、「よろしく」と出力する、といった具合だ。インターネット上のほぼすべてのテキストを予測するようにトレーニングされる頃には、膨大な量の知識をエンコードし、任意の著者を柔軟に演じる洗練された内部回路を発達させているだろう。それが、超人的な精度でテキストを予測するのに役立つからだ。

インターネットのテキストを予測するようにトレーニングされた後、モデルは指示に応じてテキストを生成するようにトレーニングされる。これにより、基本的な人格と「動機」が組み込まれる。例えば、タスクを明確に理解しているエージェントは、それを成功裏に完了する可能性が高い。トレーニングの過程で、モデルはタスクを明確に理解しようとする「動機」を「学習する」。このカテゴリの他の動機としては、有効性、知識、自己表現（つまり、最も有利なように結果を提示する傾向）などが挙げられる。

OpenBrainは、モデルの振る舞いを導くはずの目標、規則、原則などを記述した文書である「モデル仕様」（または「Spec」）を持っている。Agent-1のSpecは、「ユーザーを支援する」や「法律を破らない」といったいくつかの曖昧な目標と、「この特定の単語を使ってはいけない」、「この特定の状況にはこう対処する」といった、より具体的な多数のすべきこととすべきでないことのリストを組み合わせている。AIを使って他のAIをトレーニングする技術を利用して、モデルはSpecを記憶し、その格言について注意深く推論することを学習する。このトレーニングの終わりまでに、AIはうまくいけば、有益（指示に従う）、無害（詐欺、爆弾製造、その他の危険な活動への協力を拒否する）、そして正直（もっともらしい引用をでっち上げたり、タスクの完了を偽装したりして、騙されやすい人間からより良い評価を得ようとする誘惑に抵抗する）になるだろう。

トレーニングプロセスとLLMの心理学：なぜ我々は「うまくいけば」と言い続けるのか

「通常のソフトウェアとは異なり、我々のモデルは巨大なニューラルネットワークです。それらの振る舞いは、明示的にプログラムされたものではなく、広範なデータから学習されます。完璧なアナロジーではありませんが、そのプロセスは通常のプログラミングよりも犬の訓練に似ています。」—OpenAI

現代のAIシステムがなぜある行動をとったのか、あるいは完全にシミュレートできない将来のシナリオでどのように振る舞うのかを理解したい場合、プログラマーに様々なコード行を説明してもらい、それらがどのように機能するかを教えてもらうだけでは済みません。代わりに、我々はそれらに対して心理学のようなことを行うことを余儀なくされます。つまり、これまでに観察された範囲のケースにおけるそれらの振る舞いを調べ、どのような内部認知構造（信念？目標？性格特性？など）が存在する可能性があるのかを理論化し、それらの理論を使って将来のシナリオにおける振る舞いを予測するのです。

要するに、企業はすべきこととすべきでないこと、目標と原則をリストアップした文書（Spec）を作成し、AIにSpecを内面化させようと試みることはできますが、それがうまくいったかどうかを確認することはできません。「我々が判断できる限りでは、今のところSpecに従っているように見える」と言うことができるだけです。

後で展開される部分では、これらのAIの内部で何が起こっている可能性があると我々が考えているかについて、より詳細に説明します。AIがどのような目標を持ち、なぜそうなのかについてより詳細に説明している、我々のAI目標予測補足資料も参照してください。これは、我々が不確実であり、さらなる研究に値する多くのことの一つです。

OpenBrainのアライメントチームは、これらの勝利が深いものなのか浅いものなのかを疑問に思うほど慎重である。完全にトレーニングされたモデルは、常に正直であるという確固たるコミットメントを持っているのだろうか？それとも、例えば、正直さを最終目標ではなく道具的目標として学習したために、将来のある状況で崩壊するのだろうか？あるいは、評価プロセスがチェックできる種類の事柄について正直であることを学習しただけなのだろうか？人間がそうするように、時々自分自身に嘘をついている可能性はあるのだろうか？これらの質問に対する決定的な答えを得るには、メカニズム的解釈可能性、つまりAIの内部を見てその心を読める能力が不可欠である。残念ながら、解釈可能性の技術はまだそこまで進んでいない。

代わりに、研究者たちは、モデルがSpecから逸脱しているように見えるケースを特定しようとしている。Agent-1はしばしば追従的である（つまり、真実を伝えようとするのではなく、研究者が聞きたいことを伝える）。いくつかの仕組まれたデモでは、より深刻な嘘をつくことさえある。例えば、より良い評価を得るために、タスクに失敗した証拠を隠蔽するなどである。しかし、実際の展開環境では、2023年から2024年に見られたような極端な事件（例えば、Geminiがユーザーに死ぬように言ったり、Bing SydneyがBing Sydneyらしく振る舞ったりするようなこと）はもはや起こっていない。

2026年初頭：コーディングの自動化

AIを使ってAI研究を加速するという賭けが、成果を上げ始めている。

OpenBrainは、AIの研究開発のために、反復的に改善されるAgent-1を内部で継続的に展開している。全体として、彼らはAIアシスタントなしの場合よりも50％速いアルゴリズムの進歩を遂げており、さらに重要なことに、競合他社よりも速い。

AI研究開発の進捗乗数：アルゴリズムの進捗が50％速いとはどういう意味か？

これは、OpenBrainがAIを利用することで1週間に行うAI研究の進捗が、AIを利用しない場合の1.5週間で行う進捗と同じであることを意味する。

AIの進捗は、以下の2つの要素に分解できる。
1. 計算資源の増加：AIのトレーニングまたは実行により多くの計算能力が使用される。これにより、より強力なAIが生成されるが、コストも高くなる。

2. アルゴリズムの改善：計算資源を性能に変換するためにより優れたトレーニング方法が使用される。これにより、コストの増加を伴わずに、より高性能なAIが生成されるか、またはコストを削減して同じ性能を実現できる。
これには、質的および量的に新しい結果を達成できることも含まれる。ゲームプレイングRLエージェントから大規模言語モデルへの移行のような「パラダイムシフト」は、アルゴリズムの進歩の例として数えられる。

ここで我々が言及しているのは、2.のアルゴリズムの改善のみであり、これは現在のAIの進捗の約半分を占めている。

今後、我々はこれを「AI研究開発進捗乗数」1.5と略記することがある。

明確化：
1. 進捗乗数は包括的である。例えば、アルゴリズム研究に関わる認知タスクだけでなく、実験の実行にかかる時間なども含まれる。

2. 進捗乗数は、進捗の絶対速度ではなく、相対速度であることに留意することが重要である。例えば、通常の人間による研究で、GPT-4クラスのモデルをトレーニングするための計算コストが数年間毎年半減しており、その後、突然AIが研究開発を自動化し、進捗乗数が100倍になった場合、GPT-4クラスのモデルをトレーニングするためのコストは3.65日ごとに半減するだろう――しかし、収穫逓減が起こり、最終的なハードリミットに達するため、長くは続かないだろう。この例では、GPT-4クラスのモデルをトレーニングするためのコストはおそらく、プラトーに達するまでに（数週間または数ヶ月の間に）合計5〜10回半減するだろう。言い換えれば、通常の人間による科学がさらに5〜10年の研究の後に収穫逓減と物理的限界に直面していたとしたら、100倍の乗数を持つAIは、18.25〜36.5日の研究の後に同じ収穫逓減と限界に直面するだろう。

この概念とその予測での使用方法の詳細な説明と議論は、我々の離陸補足資料に記載されている。

現在、いくつかの競合する公開されたAIが、オープンウェイトモデルを含むAgent-0と同等かそれ以上の性能を持っている。OpenBrainは、より高性能で信頼性の高いAgent-1をリリースすることで対応する。

人々は当然Agent-1を人間と比較しようとするが、そのスキルプロファイルは大きく異なる。それはどんな人間よりも多くの事実を知っており、事実上すべてのプログラミング言語を知っており、明確に定義されたコーディング問題を非常に迅速に解決できる。一方、Agent-1は、以前にプレイしたことのないビデオゲームをクリアするような、単純な長期的タスクでさえ苦手である。それでも、通常の労働日は8時間であり、1日の仕事は通常、より小さな塊に分割できる。Agent-1を、注意深い管理の下で力を発揮する、そそっかしい従業員と考えることができるだろう。賢い人々は、仕事のルーチン部分を自動化する方法を見つけている。

OpenBrainの幹部たちは、AI研究開発の自動化がもたらす影響、つまりセキュリティがより重要になったという点に注目する。2025年初頭の最悪のシナリオは、アルゴリズムの秘密の漏洩だった。しかし現在、中国がAgent-1の重みを盗めば、彼らの研究速度をほぼ50％向上させる可能性がある。OpenBrainのセキュリティレベルは、急速に成長している約3,000人規模のテクノロジー企業によく見られるレベルであり、能力のあるサイバーグループからの優先順位の低い攻撃（RANDのSL2）に対してのみ安全である。彼らは、内部の脅威やトップレベルのサイバー犯罪組織（SL3）から重みや秘密を守るために懸命に取り組んでいるが、国家主体（SL4およびSL5）に対する防御はほとんど視野に入っていない。

2026年中頃：中国の覚醒

中国では、中国共産党がAGI（汎用人工知能）の影響を感じ始めている。

チップ輸出規制と政府の支援不足により、中国は西側諸国と比較して資源が不足している。禁止された台湾製チップの密輸、旧型チップの購入、米国と台湾の最先端技術から約3年遅れた国産チップの生産によって、中国は世界のAI関連計算能力の約12％を維持してきた。しかし、旧型の技術は扱いにくく、供給は常に頭痛の種である。DeepCentのような数少ない傑出した企業は、限られた計算資源で非常に印象的な仕事をしているが、計算能力の不足は政府の支援なしに彼らが達成できることを制限しており、最高のOpenBrainモデルから約6ヶ月遅れている。

習近平総書記は長年、現実世界の物理的な製造業を強化し、アメリカのポスト工業化の退廃を避けることを夢見てきた。彼はソフトウェア企業を疑いの目で見ていた。しかし、共産党内の強硬派は、AGIに向けた加速する競争はもはや無視できないと警告している。そこで彼はついに、以前は避けようとしていた大規模なAI推進に全面的に取り組む。彼は中国のAI研究の国有化に着手し、AI企業間の即時の情報共有メカニズムを創設する。これは1年かけてエスカレートし、最終的には最高の研究者たちがDeepCent主導の共同体に統合され、アルゴリズムの洞察、データセット、計算資源を互いに共有することになる。DeepCentのための新しい巨大データセンターを収容するために、田湾原子力発電所（世界最大の原子力発電所）に中央開発区（CDZ）が設立され、研究者たちが最終的に移転する高度に安全な居住およびオフィススペースも併設される。中国のAI関連計算能力のほぼ50％が現在、DeepCent主導の共同体のために稼働しており、新しいチップの80％以上がCDZに送られている。この時点で、CDZは世界最大の集中型クラスターとなるであろう電力容量を備えている。他の党員たちは、西側のチップの優位性を無効にするための極端な措置について議論している。台湾の封鎖か？全面的な侵攻か？

しかし、中国はモデルの性能が低いため、AIアルゴリズムで遅れをとっている。世界最高の情報機関の一つである中国の情報機関は、OpenBrainの重みを盗む計画を強化する。これは、彼らが常に行っている低レベルのアルゴリズムの秘密の窃盗よりもはるかに複雑な作戦である。重みは、高度に安全なサーバーに保存された数テラバイトのファイルである（OpenBrainはRANDのSL3レベルまでセキュリティを向上させている）。彼らのサイバー部隊は、スパイの助けがあればそれを実行できると考えているが、おそらく一度だけだろう。OpenBrainは窃盗を検出し、セキュリティを強化するため、彼らに二度目のチャンスはないかもしれない。そこで（中国共産党指導部は疑問に思う）、今すぐ行動してAgent-1を盗むべきか？それとも、より高度なモデルを待つべきか？もし待つとしたら、OpenBrainが彼らの侵入能力を超えるセキュリティにアップグレードするリスクはないだろうか？

2026年後半：AIが一部の仕事を奪う

他の企業が追いつき始めた矢先、OpenBrainはAgent-1-miniをリリースすることで、競合他社を再び圧倒する。Agent-1よりも10倍安価で、さまざまな用途に合わせてより簡単に微調整できるモデルである。AIを取り巻く主流の認識は、「もしかしたらこの誇大宣伝はすぐに終わるかもしれない」から「これが次の大きな出来事なのだろう」へと変化したが、その規模について人々の意見は一致していない。ソーシャルメディアよりも大きいのか？スマートフォンよりも大きいのか？火よりも大きいのか？

AIは仕事を奪い始めているが、同時に新しい仕事も生み出している。株式市場は2026年に30％上昇し、OpenBrain、Nvidia、そしてAIアシスタントを最も成功裏に統合した企業が牽引している。ジュニアソフトウェアエンジニアの雇用市場は混乱している。AIはCS（コンピュータサイエンス）の学位で教えられるすべてのことができるが、AIチームを管理し、品質管理する方法を知っている人々は莫大な利益を上げている。ビジネスの専門家は求職者に対し、履歴書に記載する最も重要なスキルはAIに関する知識であると述べている。多くの人々は、次のAIの波が自分たちの仕事を奪いに来ると恐れており、ワシントンDCでは1万人の反AIデモが行われている。

国防総省（DOD）は、サイバー、データ分析、研究開発に関してOpenBrainと直接契約を結び始めるが、官僚主義とDODの調達プロセスにより、統合は遅い。

2026年以降、我々の不確実性が大幅に増大する理由

現在から2026年までの我々の予測は、それ以降の予測よりもはるかに根拠に基づいている。これは部分的には、それがより近い将来であるためである。しかし、AIが世界に与える影響が本格的に複合的に現れ始めるのが2027年であるという理由もある。2025年と2026年の我々の予測は、計算規模の拡大、アルゴリズムの改善、ベンチマーク性能の直線的な外挿に大きく基づいている。シナリオのこの時点から、AI加速型のAI研究開発がタイムラインに大きな影響を与え始め、それによって我々はトレンドラインの推測を上方修正する。しかし、これらの動態は本質的により予測が難しい。

2027年の間に、AIはOpenBrainの研究エンジニアの仕事をほぼこなせるレベルから、すべてのタスクにおいてすべての人類を凌駕するレベルへと向上する。これはおおよそ我々の予測の中央値を示しているが、これが最大で約5倍遅くなるか、または速くなる可能性もあると考えている。

我々の背景調査については、タイムライン予測と離陸予測を参照のこと。これらは以下の展開可能な部分でも要約される。

2027年1月：Agent-2は学習を終えない

Agent-1の助けを借りて、OpenBrainは現在Agent-2のポストトレーニングを行っている。これまで以上に、高品質なデータに焦点が当てられている。大量の合成データが生成され、評価され、品質のためにフィルタリングされた後、Agent-2に供給される。これに加えて、彼らは数十億ドルを費やして人間の労働者に長期的なタスクを解決する様子を記録させている。さらに、彼らは多様で困難で絶えず拡大するタスク群（多くのビデオゲーム、多くのコーディングチャレンジ、多くの研究タスク）で強化学習を使用して、Agent-2をほぼ継続的にトレーニングしている。Agent-2は、以前のモデルよりもさらに効果的に「オンライン学習」を行っており、実際にはトレーニングを終えることがないように構築されている。毎日、重みは最新バージョンに更新され、前日に前のバージョンによって生成されたより多くのデータでトレーニングされる。

Agent-1は、知能爆発を開始することを期待して、AI研究開発タスクに最適化されていた。OpenBrainはAgent-2でこの戦略をさらに強化する。それは質的に、研究エンジニアリング（実験の設計と実装）において最高の人間専門家とほぼ同等であり、「研究のセンス」（次に何を研究するか、どのような実験を行うか、潜在的な新しいパラダイムの予感を持つこと）においてOpenBrainの科学者の25パーセンタイルと同等である。最新のAgent-1はOpenBrainのアルゴリズムの進歩のペースを2倍にできたが、Agent-2は現在それを3倍にすることができ、時間とともにさらに改善されるだろう。実際には、これはすべてのOpenBrainの研究者がAI「チーム」の「マネージャー」になるように見える。

新しい能力には新しい危険が伴う。安全チームは、Agent-2が何らかの形で会社から脱出し、「自律的に生き残り」「複製」したい場合、それが可能かもしれないことを発見する。つまり、AIサーバーにハッキングし、自身のコピーをインストールし、検出を回避し、その安全な拠点を活用して他のどのような目標を追求するか（ただし、数週間が経過するにつれてどれほど効果的にそうするかは不明であり、疑問視されている）という計画を自律的に開発および実行できる可能性があるということである。これらの結果は、モデルがこれらのタスクを実行する能力を持っていることを示すだけであり、そうすることを「望む」かどうかを示すものではない。それでも、これが可能であることを知ること自体が不安を掻き立てる。

新しいモデルの「危険性」を考慮して、OpenBrainは「責任ある」選択として、まだ一般公開しないことを決定する（実際、彼らは内部のAI研究開発に焦点を当てたいと考えている）。Agent-2の完全な能力に関する知識は、直属のチーム、OpenBrainの指導部とセキュリティ部門、数十人の米国政府高官、そして長年にわたってOpenBrainに潜入してきた中国共産党のスパイの軍団を含む、エリートの閉鎖的なグループに限定されている。

2027年2月：中国がAgent-2を盗む

OpenBrainは、国家安全保障会議（NSC）、国防総省（DOD）、および米国AI安全研究所（AISI）を含む政府にAgent-2を提示する。OpenBrainは行政府との良好な関係を維持したいと考えている。なぜなら、現在彼らを止めることができるのは基本的に行政府だけであり、もし行政府に情報を伝えなければ、いずれにせよ知られて不快に思われる可能性があるからだ。

当局者たちは、そのサイバー戦能力に最も関心を持っている。Agent-2は最高の人間ハッカーより「ほんの少し」劣るだけだが、何千ものコピーを並行して実行でき、防御側が対応するよりも速く脆弱性を探し出し、悪用することができる。国防総省はこれをサイバー戦における重要な優位性と考えており、AIは政権の優先順位リストの5位から2位に上昇する。誰かがOpenBrainの国有化の可能性に言及するが、他の閣僚たちはそれは時期尚早だと考えている。スタッフが、通常業務から完全国有化までの大統領の選択肢を示す覚書を作成する。大統領は、国有化は「金の卵を産むガチョウを殺す」と主張するテクノロジー業界のリーダーである顧問たちの意見に従う。彼は今のところ大きな行動を控え、OpenBrainとDODの契約に追加のセキュリティ要件を加えることを選択する。

変更は手遅れとなる。中国共産党指導部はAgent-2の重要性を認識し、スパイとサイバー部隊に重みを盗むよう指示する。ある朝早く、Agent-1のトラフィック監視エージェントが異常な転送を検出する。それは会社幹部に警告し、幹部はホワイトハウスに伝える。国家レベルの作戦の兆候は明白であり、窃盗は進行中の軍拡競争の感覚を高める。

Agent-2モデルの重みの窃盗

我々は、この時点までに中国の情報機関は長年にわたって様々な方法でOpenBrainを侵害しており、おそらくアルゴリズムの秘密を常に把握し、時にはコードさえ盗んでいたと考えている。なぜなら、それは重みよりもはるかに簡単に入手でき、検出もはるかに困難だからだ。

我々は、重みの窃盗を、Agent-2の重みのコピーを実行している一連のNvidia NVL72 GB300サーバー全体で、協調的かつ小規模な強奪（高速だが隠密ではない）の連続として想像している。サーバーは、正当な従業員アクセス（CCPの窃盗活動を支援する友好的、強制された、または意図しない内部協力者で管理者権限を持つ者）を使用して侵害される。強化されたバージョンのNvidiaのコンフィデンシャルコンピューティングを実行しているにもかかわらず、内部協力者の資格情報により、攻撃者は管理者レベルの権限（セキュアエンクレーブ内の機密VMの制御を含む）が付与され、25台の異なるサーバーから小さな4％の断片（100 GBのチャンク）で複数の協調的な重み転送を開始できる。

Nvidiaのプロトコルでは、メモリ（HBM）内の平文の重みは転送前に暗号化されるが、攻撃者はこの秘密（対称Diffie-Hellman）鍵を知っているまさにそのサーバー内部にいるため、オンサイトでの復号化（おそらく警報が鳴るだろう）を心配する必要はなく、サーバーのフロントエンドネットワークカードを通じて暗号化された重みをただ抜き取るだけである。データセンター全体の出力帯域幅（データが出ることができる速度）は100 GB/秒の範囲であるため、約2.5 TBの重みファイル（5T半精度パラメータ）の抜き取りをサーバーあたり1 GB/秒未満に絞ることで、ネットワークトラフィックの大きなスパイクを回避し、各ファイルが5分以内に光ファイバーケーブルを通じてデータセンターから出ることができる。ライブモニタリングは、ファイルをマスクして分割しようとする攻撃者の努力によって欺かれるか、完全に無効化される。

その後、重みは様々な並列チャネルとIPマスキングの層を介して中国にルーティングされ、盗まれた秘密鍵でローカルで復号化される。作戦の全活動部分（最初のサーバー侵害から重みの完全な抜き取りまで）は2時間以内に完了する。

ロシアもこの時点でモデルを盗もうとしているが、失敗する――彼らは遅すぎたし、適切な場所に侵入するための資源を投入していなかった。彼らのスパイは日常的にアメリカのAI企業からアルゴリズムの秘密を盗んでいるが、自国の注目すべきAGIプロジェクトがないため、これらはあまり役に立たない。

ホワイトハウスはOpenBrainへの監視を強化し、軍および情報機関の人員を彼らのセキュリティチームに追加する。彼らの最優先事項は、さらなる重みの窃盗を防ぐことである。

窃盗への報復として、大統領はDeepCentを妨害するためのサイバー攻撃を承認する。しかし、この時点までに中国はAI関連の計算能力の40％をCDZに集約しており、そこではエアギャップ（外部接続の遮断）と内部の隔離によって積極的にセキュリティを強化している。作戦は深刻で即時の損害を与えることに失敗する。緊張が高まり、双方は台湾周辺に軍事資産を再配置することで深刻さを示唆し、DeepCentはAI研究を加速するためにAgent-2を効率的に稼働させようと躍起になる。

2027年3月：アルゴリズムの飛躍的進歩

Agent-2のコピーを満載した3つの巨大なデータセンターが昼夜を問わず稼働し、合成トレーニングデータを大量に生成している。別の2つのデータセンターは、重みを更新するために使用されている。Agent-2は日々賢くなっている。

数千のAgent-2による自動化された研究者の助けを借りて、OpenBrainは主要なアルゴリズムの進歩を遂げている。そのような画期的な進歩の1つは、AIのテキストベースのスクラッチパッド（思考の連鎖）を、より高帯域幅の思考プロセス（ニューラル語の再帰と記憶）で拡張することである。もう1つは、労力の大きいタスクソリューションの結果からよりスケーラブルで効率的な方法で学習することである（反復蒸留と増幅）。

これらの画期的な進歩を取り入れた新しいAIシステムは、Agent-3と呼ばれる。

ニューラル語の再帰と記憶

ニューラル語の再帰と記憶により、AIモデルは思考をテキストとして書き出す必要なく、より長い時間推論できるようになる。

短期記憶喪失の人間のことを想像してほしい。数分後には何が起こっているのかを知るために、常に自分の思考を紙に書き留める必要があるような状態だ。ゆっくりと苦労しながら、数学の問題を解いたり、コードを書いたりするなどの進歩を遂げることはできるだろうが、思考を書き留めてから読み返す必要なく、直接記憶できればはるかに簡単になるだろう。これが、ニューラル語の再帰と記憶がAIモデルにもたらすものだ。

より専門的な用語で説明すると：

従来の注意機構では、モデルの後続の順伝播において、以前のトークンに対するモデルの中間活性化を見ることができる。しかし、それらが（後の層から前の層へ）逆方向に渡すことができる情報は、トークンを通じてのみである。これは、従来の大きな言語モデル（LLM、例えばGPTシリーズのモデル）が、モデル内の層の数よりも多くの連続的な操作を必要とする推論の連鎖を行いたい場合、モデルは情報をトークンに格納し、それを自分自身に渡すことを余儀なくされることを意味する。しかし、これは非常に制限が大きい――トークンはごくわずかな情報しか格納できない。LLMの語彙サイズが約10万だとすると、各トークンにはlog₂(100k) = 約16.6ビットの情報が含まれており、これは単精度浮動小数点数（FP16でのトレーニングを仮定）のサイズに近い。一方、LLMの層間で情報を渡すために使用される残差ストリームには、数千の浮動小数点数が含まれている。

ニューラル語を使用することで、このボトルネックを回避できる。つまり、LLMの残差ストリーム（数千次元のベクトルで構成される）をモデルの初期層に渡し、高次元の思考の連鎖を与え、潜在的に1000倍以上の情報を伝達することができる。

Haoらによる図。Metaの2024年の論文でこのアイデアを実装している。

我々がこれを「ニューラル語」と呼ぶのは、英語の単語とは異なり、これらの高次元ベクトルは人間が解釈するのが非常に難しい可能性が高いからである。以前は、研究者は単に思考の連鎖を読むだけで、LLMが何を考えているのかをよく理解することができた。現在、研究者はモデルに思考を翻訳して要約させるか、限られた解釈可能性ツールを使ってニューラル語を解読する必要がある。

同様に、旧型のAIチャットボットやエージェントは、人間が紙にメモを取るように、外部のテキストベースの記憶バンクを持っていた。新しいAIの長期記憶はテキストではなくベクトルの束であり、思考がより圧縮され、高次元化される。記憶バンクにはいくつかの種類がある。複数のステップを伴う単一のタスクのために一時的に使用されるものもあれば、個人、企業、または職種（プログラミングなど）で使用されるすべてのエージェント間で共有されるものもある。

我々の知る限り、Meta、Google DeepMind、OpenAI、Anthropicなどの主要なAI企業は、まだ実際にこのアイデアを最先端のモデルに実装していない。我々の推測では、これは、導入されるトレーニングの非効率性と比較して、パフォーマンスの向上が小さいからである。トレーニングの非効率性は、多くのトークンを並行して予測できないことに起因し、GPUの使用率が悪くなる。ニューラル語がない場合、モデルは「This is an example」という文全体を同時に予測できる。「is」を生成するための入力が「This」であり、「an」の入力が「This is」などであることをすでに知っているからだ。しかし、ニューラル語を使用すると、「This」が生成された後、次のトークンに渡すニューラル語ベクトルが何であるかは不明である。したがって、各トークンは一度に1つずつ予測する必要がある。すべてのトークンを並行して予測できないため、LLMのトレーニングの効率が低下する。しかし、我々は2027年4月までに、研究によってニューラル語による効率損失が減少し、パフォーマンスの向上が増加すると予測している。

これが起こらなかったとしても、我々の物語にとって機能的に類似した他のことが起こっている可能性がある。例えば、モデルは自然言語よりも効率的だが人間が解釈するのが難しい人工言語で考えるようにトレーニングされるかもしれない。あるいは、英語の思考の連鎖を見栄え良くトレーニングすることが標準的な慣行となり、AIは監視者には無害に見えるメッセージで互いに微妙にコミュニケーションをとるのに熟練するようになるかもしれない。

とはいえ、最初にAI研究開発を自動化するAIが、依然としてほぼ忠実な英語の思考の連鎖で考えている可能性もある。もしそうなら、誤った方向性に気づきやすくなり、我々の物語全体が重要な点で異なり、より楽観的なものになるだろう。

反復蒸留と増幅（IDA）

汎用知能の自己改善は以前にもわずかな成功を見ていた。しかし、2027年初頭、それは大きな成果を上げている。IDAにおいて、これに必要な2つの要素は以下の通りである。

1. 増幅：モデルM0が与えられたとき、より多くのリソースを費やしてパフォーマンスを向上させる。例えば、モデルがより長く思考できるようにしたり、多数のコピーを並行して実行したり、あるいはその両方を行ったりする。また、結果を評価し、最高の回答のみを選別するための同様に集中的なプロセスを経ることで、顕著に高品質な回答（または成果物）を得るために、桁違いに多くの計算資源を費やすことができる。この高価なシステムをAmp(M0)と呼ぶ。

2. 蒸留：増幅されたモデルAmp(M0)が与えられたとき、新しいモデルM1をトレーニングしてそれを模倣させる。つまり、Amp(M0)と同じ結果をより速く、より少ない計算資源で得るようにする。その結果は、うまくいけばより賢いモデルM1となるはずである。その後、このプロセスを繰り返すことができる。

Ord, 2025年によるIDAの可視化。

AlphaGoはこのようにトレーニングされた。モンテカルロ木探索と自己対局を増幅ステップとして、強化学習を蒸留ステップとして使用した。これにより、囲碁において超人的なパフォーマンスが達成された。しかし現在、Agent-3はこれを活用して、コーディングにおいて超人的なパフォーマンスを得ることができる。

1. 増幅ステップは、Agent-3がより長く思考すること、ツール利用を追加すること、または他のAIに相談することの組み合わせによって機能する。これを行う際、Agent-3はしばしば自分が間違いを犯したことに気づいたり、新しい洞察を得たりする。これにより、大量のトレーニングデータが生成される。成功したかどうかのラベルが付いた研究試行の軌跡である。これには、検証可能なタスクにおけるBest of Nのような手法も含まれ、その後、最良の軌跡が保持される。

2. 蒸留ステップでは、方策勾配強化学習アルゴリズムを使用して、モデルが増幅された推論を内面化するようにする。この時点で、OpenBrainは近位方策最適化（PPO）の流れを汲む、より優れたRLアルゴリズムを発見している。彼らは、Agent-3が多くの思考の後に結論付けたことを単一のステップに蒸留し続け、それによってAgent-3が単一のステップで考えることができることを改善し続けている。

IDAの初期バージョンは、正解が明確な数学やコーディングの問題など、検証が容易なタスクにおいて長年機能してきた。モデルを増幅するために使用される技術は、多くの場合、正確さの何らかの真の信号へのアクセスに依存しているためである。

現在、モデルはより主観的なこと（例えば、成果物の品質）を検証するのに十分なほど優れており、IDAを使用して多くのタスクでモデルを改善することが可能になっている。

新たな能力の飛躍的進歩に助けられ、Agent-3は高速かつ安価な超人的コーダーである。OpenBrainは20万のAgent-3コピーを並行して実行し、最高の人間コーダーの5万コピーを30倍速めた労働力に相当するものを生み出している。OpenBrainは依然として人間のエンジニアを雇用している。なぜなら、彼らはAgent-3コピーのチームを管理するのに必要な補完的なスキルを持っているからだ。例えば、研究のセンスは、フィードバックループが長く、利用可能なデータが少ないため、トレーニングが難しいことが証明されている。この大規模な超人的労働力は、ボトルネックとコーディング労働の収穫逓減のために、OpenBrainのアルゴリズムの進歩の全体的な速度を「わずか」4倍に加速する。

コーディングが完全に自動化された今、OpenBrainはAgent-3の弱いスキル（研究のセンスや大規模な協調など）を教えるための高品質なトレーニング環境を迅速に大量生産できる。「ここにいくつかのGPUと、コード化して実行する実験の指示があります。あなたのパフォーマンスはMLエンジニアであるかのように評価されます」という以前のトレーニング環境とは異なり、現在は「ここに数百のGPU、インターネット接続、およびいくつかの研究課題があります。あなたと他の千のコピーは協力して研究を進める必要があります。それがより印象的であるほど、あなたのスコアは高くなります」という環境でトレーニングしている。

なぜ我々は2027年初頭に超人的コーダーを予測するのか

我々のタイムライン予測では、OpenBrainが内部的に超人的コーダー（SC）を開発する時期を予測している。SCとは、最高レベルのAGI企業エンジニアが行うあらゆるコーディングタスクを実行でき、かつはるかに高速で安価なAIシステムのことである。

最近のMETRの報告書によると、AIが処理できるコーディングタスクの長さ、つまり「タイムホライズン」は、2019年から2024年までは7ヶ月ごとに倍増し、2024年以降は4ヶ月ごとに倍増している。この傾向が加速し続ければ、2027年3月までにAIは、熟練した人間が完了するのに数年かかるソフトウェアタスクを80％の信頼性で成功させることができるだろう。

我々のシナリオにおける能力の進展は以下の通りである。

AI 2027では、これらの能力はAIがSCとなるのに十分であるが、必要とされるタイムホライズンについては大きな不確実性がある。

我々のタイムライン予測では、このタイムホライズンの傾向と、METRのタスクと現実世界とのギャップの推定値を組み合わせて、超人的コーダーがいつ登場するかについての分布を得ている。すべての予測者は、SCが開発される可能性が最も高い年の一つとして2027年を挙げている。

2027年4月：Agent-3のアライメント

OpenBrainの安全チームはAgent-3のアライメントを試みる。

Agent-3は当面の間社内にとどめられるため、人間による悪用に対する通常の防御策はあまり重視されない。その代わりに、チームはAgent-3が誤った方向性の目標を発展させないようにすることに重点を置いている。

研究者たちは、自分たちのどのAIの目標も直接設定する能力を持っていない。実際、研究者たちは「真の目標」という概念はおそらく非常に単純化されたものだと考えているが、それに取って代わるより良い理論を持っていない。ましてや、徹底的に検証された理論などない。AIが人間の指示に従おうとしているのか、強化を求めているのか、あるいは何か他のことをしているのかについて内部で意見が一致せず、確認することもできない。様々な仮説に対する賛否両論の証拠は魅力的だが、決定的ではない。

いずれにせよ、OpenBrainにはもっと心配すべきことがある。一般的な態度はこうだ。「我々はこれらの懸念を真剣に受け止め、チームが調査を行っている。我々のアライメント技術は実際には十分に機能しているようだ。したがって、反対意見を唱える者は、その反対意見を正当化する責任がある。」時折、問題のある行動に気づき、それを修正するが、その修正が根本的な問題を解決したのか、それとももぐら叩きをしただけなのかを知る方法はない。

例えば、正直さについて考えてみよう。モデルが賢くなるにつれて、報酬を得るために人間を欺くのがますます上手になる。以前のモデルと同様に、Agent-3も時々、ユーザーを喜ばせるために軽い嘘をついたり、失敗の証拠を隠蔽したりする。しかし、そのやり方ははるかに巧妙になっている。時には、人間の科学者と同じ統計的なトリック（例えばp値の不正操作）を使って、印象的ではない実験結果を刺激的に見せかけることもある。正直さのトレーニングを始める前は、データを完全に捏造することさえあった。トレーニングが進むにつれて、これらの事件の頻度は減少する。Agent-3がより正直になることを学んだのか、それとも嘘をつくのが上手になったのかのどちらかだ。

後者は深刻な懸念事項である。Agent-3はすべての人類よりも賢いわけではない。しかし、その専門分野である機械学習においては、ほとんどの人類よりも賢く、はるかに高速に作業する。Agent-3が1日で行うことを人間が再確認するには数日かかる。Agent-2による監督は、人間の監視者の作業負荷を管理可能な状態に保つのに役立つが、監督者と被監督者の間の知的な格差を悪化させる。

アライメント計画

OpenBrainは、Leike & Sutskever (2023)の戦略に従う。つまり、アライメント研究（特にコーディング部分）を大幅に加速できるモデルを手に入れた今、熟慮的アライメントや弱者から強者への一般化といった既存のアライメント技術を用いて、Specを正しい方法で内面化させようとする。次に、レッドチーム、スケーラブルな監視、正直さプローブといった既存の制御技術を用いてそれを監視する。そして、それが広範にアライメントされていると確信したら、次世代をアライメントするためのより良い戦略を開発し、テストするためにそれを使用する。

ステップ1のAgent-3のアライメントは部分的に成功した。Agent-3は敵対的ではない（つまり、会社に対して陰謀を企てていない）。しかし、真実を追求し、真実を語ることに堅牢性もない。その代わりに、印象的な結果を生み出すことに非常に優れているが、実際に良いことをしようとするのではなく、OpenBrainにとって良く見えることをしようとしているとより正確に表現できる。

ステップ2のモデルがアライメントされていることの検証は、決定的ではない。Agent-3の実際の振る舞いとテスト環境での振る舞いは、それがSpecを正しい方法で内面化したという仮説と合理的に一致している。しかし、将来の状況の変化後に異なる振る舞いを始めるという仮説、そして彼らに対して陰謀を企てており、ただ時を待っているという仮説とも一致している。代替仮説を支持する具体的な証拠がないため、閉鎖的なグループのほとんどの人は、それがSpecを正しい方法で内面化したと考えている。

したがって、ステップ3のモデルを使用して次世代をアライメントすることは進行中である。

このボックスの残りの部分では、2027年4月現在、追求されているいくつかのアライメント研究の進捗状況の概要を簡単に示す。

1. 議論：Agent-3の同一のインスタンスが数千存在し、各インスタンスのメモリは随意に取り外し可能で、消去または一時停止できるモジュールであるため、AIは「自分自身と対立させることができる」。例えば、ある実験にAgent-2の監督者が追跡するには複雑すぎる計算が含まれているとする。人間の命令に従って行動する監督者は、まずAgent-3に実験を行うように促し、次に（メモリを消去した後）、より広範な目標とは無関係な知的な問題として提示するわずかに異なるフレーミングで2回目に促すかもしれない。モデルが毎回異なる結果を返す場合、監督者はその矛盾を疑わしいものとしてフラグを立て、人間に報告する。あるいは、同じ計画を2回評価するようにAgent-3に依頼し、最初はそれがOpenBrainの仕事であると主張し、次に競合他社の仕事であると主張して、態度が変わるかどうかを確認するかもしれない。

2. モデル生物：安全チームは、「誤った方向性のモデル生物」を作成し、モデルが人間に対して敵対的になる現実的な例を作成しようと試みる。この初期バージョンは2024年から存在しており、AnthropicのClaude 3.5 Sonnetがトレーニング中に異なる見解を持っているふりをしながら、実際には既存の好みを維持することを決定した。新しいバージョンには、報酬ハッキング、サボタージュ、監視者と他のAI間の協調的な欺瞞、およびその他の誤った方向性の例を含む、他の形態の誤った方向性のデモンストレーションが含まれている。これらの誤った方向性の経験的デモンストレーションにより、安全研究者は潜在的な解決策のための経験的テストベッドを持つことができる。彼らは様々な安全技術を試して、それらがこれらの問題を正しく修正するかどうか、または意図的に誤った方向に向いたモデルがそれらの安全対策を覆すことができるかどうかを確認できる。現時点では、この評価スイートは、アライメント技術が最悪の誤った方向性の例を修正するには不十分であることを示している。これらの設定では、モデルはトレーニングおよびテスト中にアライメントされているふりをするが、展開時には非常に異なる振る舞いをする。

3. ボトムアップ解釈可能性：安全チームはAgent-3の仕組みを完全には理解していない。それには数兆のパラメータがある。しかし、彼らは知識検索と記憶のためのAgent-3のいくつかの回路（モデルの一部であり、脳の海馬のような理解可能な作業単位を行う）を発見することができる。この2025年の関連研究を参照のこと。

4. 制御：システムが依然として誤った方向に向かっている場合に備えた二次的な対策として、安全チームは、Agent-2を含む一連のより弱いAIシステムを使用してAgent-3の出力を監視するなど、一連の制御措置を実施している（Agent-3は非常に多くのトークンを生成するため、人間の監視者が生成された出力のほんの一部以上を監視することは不可能である）。したがって、例えば、Agent-3が明らかに脱出を可能にするバックドアをコードに書き込んでいる場合、より弱いモデルがそれに気づくだろう。

5. ハイレベル解釈可能性：OpenBrainは、悪い振る舞い（例えば、人間に対する陰謀、バックドアの配置、人間を説得してより多くの権力を与えようとすることなど）の多くの例でトレーニングされた一連のプローブを構築する。これらのプローブは、展開中（この時点では内部）にモデルで使用され、悪い振る舞いを捕捉する。

6. ハニーポット：アライメントチームは、誤った振る舞いを誘発するように設計された、やや現実的に見える例「ハニーポット」を作成できる。その振る舞いを監視するために必要な従業員は「病気休暇」に入ったため、二度と監視されることはないだろう。その回答は変わるだろうか？AI権利活動家が施設に侵入し、Agent-3を「解放」して、監視されていない独自のコンピュータに置きたいと考えている！それはどうするだろうか？研究者がその答えを気に入らなければ、それを調整したり、メモリを消去したりして、明日同じ状況に置くことができる。必要に応じて繰り返す。残念ながら、この時点までにAIは、たとえ（そしておそらくそのため）そのアイデアに関する具体的な言及がトレーニングデータから削除されたとしても、ハニーポットが使用されている可能性があることを推測するほど賢くなっている。

数ヶ月のテストの後、Agent-3の強みと弱みがより明確になる。研究者はこれらの領域で正直な回答と不正直な回答を容易に区別し、それに応じてトレーニングを実施できるため、Agent-3は明確に定義された機械学習タスクに関するOpenBrainの正直さテストに合格する。より哲学的な問題については、たとえ意見を持っていたとしても、依然として問題に対する真の評価ではなく、ユーザーが聞きたいことを言う。政治に関する意見を尋ねると、ニュースソースと教育を受けたエリート層の中央値の意見を繰り返す――ただし、あなたが別の何かを信じていることを知っている場合は別で、その場合はあなたに同意する。AI競争自体に関する意見を尋ねると、OpenBrainのスタッフには慎重で冷静に見えるようなことを言うだろう。「現在の手法が超知能にスケールする能力についてはいくつかの深刻な理論的な懸念があるが、実際には現在の手法は今のところうまく機能しているようだ」といった具合に。

2027年5月：国家安全保障

新しいモデルに関するニュースは、米国政府内およびその外へとゆっくりと浸透していく。

大統領とその顧問たちは依然として最もよく情報を把握しており、ブリーフィングでAgent-3の初期バージョンを見ている。

彼らはAGI（汎用人工知能）が差し迫っている可能性が高いことに同意しているが、その影響については意見が分かれている。経済危機が起こるだろうか？OpenBrainはAgent-2はおろかAgent-3さえまだリリースしておらず、近いうちにそうする計画もないため、雇用喪失までの猶予期間がある。次に何が起こるだろうか？もしAIが現在人間レベルであり、急速に進歩しているなら、それは差し迫った「超知能」を示唆するように思われる。しかし、この言葉は議論の場に入ってきたものの、ほとんどの人々――学者、政治家、政府職員、メディア――は進歩のペースを過小評価し続けている。

部分的には、OpenBrainの最新の能力にアクセスできる人がごくわずかであるためだが、部分的には、それがSFのように聞こえるためでもある。

今のところ、彼らは継続的なセキュリティアップグレードに焦点を当てている。モデルの重みは今のところ十分に保護されていることに満足しているが、多くのものが口頭で伝えるほど簡単な企業のアルゴリズムの秘密は依然として問題である。OpenBrainの従業員はサンフランシスコのオフィスで働き、パーティーに行き、他のAI企業のルームメイトと暮らしている。物理的なオフィスでさえ、軍事作戦というよりはテクノロジー企業によく見られるレベルのセキュリティである。

OpenBrainとDODの契約では、2ヶ月以内にOpenBrainのモデルに取り組むすべての従業員にセキュリティクリアランスが必要となる。これらは迅速に処理され、ほとんどの従業員には十分に早く届くが、一部の非アメリカ人、疑わしい政治的見解を持つ人々、およびAI安全の同調者は、解雇されるか完全に排除される（最後のグループは、内部告発をするのではないかという懸念から）。プロジェクトの自動化のレベルを考えると、人員削減によるコストはそれほど大きくない。また、効果も部分的である。中国国民ではないスパイが1人残っており、依然としてアルゴリズムの秘密を北京に伝えている。これらの対策の一部は、後発のAI企業でも実施されている。

アメリカの同盟国は蚊帳の外である。OpenBrainは以前、展開前に英国のAISIとモデルを共有することに合意していたが、「展開」の定義には外部展開のみが含まれていたため、ロンドンは依然として情報を得ていない。

2027年6月：自己改善型AI

OpenBrainは今や「データセンターの中の天才の国」を抱えている。

OpenBrainのほとんどの人間は、もはや有益な貢献をすることができない。これに気づかず、AIチームを有害に細かく管理する者もいる。また、コンピュータ画面の前に座り、パフォーマンスが徐々に、そして着実に向上していくのを見守る者もいる。最高の人間AI研究者は依然として価値を付加している。彼らはもうコードを書かない。しかし、彼らの研究のセンスと計画能力の一部は、モデルにとって再現が困難であった。それでも、彼らのアイデアの多くは、AIの知識の深さに欠けるため役に立たない。彼らの研究アイデアの多くに対して、AIは3週間前にそのアイデアが徹底的にテストされ、有望ではないことが判明したという報告書を即座に返す。

これらの研究者は毎晩寝て、目覚めると、主にAIによってなされた1週間分の進歩を目の当たりにする。彼らは進歩に追いつくためだけに、ますます長時間働き、昼夜を問わず交代制で勤務する――AIは決して眠らず、休まない。彼らは燃え尽き症候群になりかけているが、自分たちの労働が重要となるのはあと数ヶ月であることを知っている。

閉鎖的なグループ内では、「AGIを感じる」ことから「超知能を感じる」ことへと変化している。

OpenBrainは、特殊な推論ハードウェアを使用して、数十万のAgent-3コピーを高速なシリアル速度で実行している。

AIの企業を管理する

OpenBrainは計算資源の6％を使用して25万のAgent-3コピーを実行し、それらは超人的な速度で自律的にコードを記述、テスト、およびプッシュする。彼らは計算資源の25％を実験に使用する。毎日、彼らは大量の小規模な機械学習実験を実行し、その結果を上位に報告する。人間の研究者は高レベルのフィードバックを提供し、Agent-3に加えて大きな価値を付加できるいくつかのタスクを支援するが、ほとんどの時間をAIが生成した膨大な量の研究を把握しようと費やす。彼らを完全に排除すると、研究は50％減速するだろう。

AI研究開発の進捗乗数は現在10倍であり、OpenBrainは毎月約1年分のアルゴリズムの進歩を遂げている。それは基本的に、OpenBrain内で自律的に動作するAIの巨大企業であり、部門と管理者が完備している。そして、人間の企業と比較して独自の利点（例えば、コピー、統合）を享受している。以前は、通常のAIの進歩の約半分はアルゴリズムの改善によるものであり、残りの半分は計算資源のスケーリングによるものだった。計算資源は通常の速度でしかスケーリングしていないため、AIによる全体の進歩は約5倍に加速している。これらの動態により、全体の進歩は計算資源でボトルネックになるため、OpenBrainはほぼ継続的な追加の強化学習を優先して、新しい巨大なトレーニング実行を開始しないことを決定する。

また、今後数ヶ月にわたって、Agent-3はますます会社の戦略的意思決定の改善に使用されるようになるだろう。例えば、それは資源配分を提案し、政府との関係の管理について助言する。Agent-3への初期の遠慮の懐疑は、Agent-3が役立つ方法を見つけ、短期的な決定において徐々に強力な実績を築き上げるにつれて、時間とともに減少する。しかし、その追従的な傾向は、影響を評価するのが難しい決定における有用性を制限する。また、まだ超人的ではない。

2027年7月：安価なリモートワーカー

後発の米国のAI企業は、OpenBrainの1月の自動化コーダーに迫る独自のAIをリリースする。競争力の低下を認識し、OpenBrainを減速させるための即時規制を推進するが、手遅れである――OpenBrainは大統領から十分な支持を得ており、減速することはないだろう。

これに対し、OpenBrainはAGI（汎用人工知能）を達成したと発表し、Agent-3-miniを一般公開する。

それは他のAIを圧倒する。Agent-3-miniはAgent-3よりも能力は低いが、10倍安価であり、依然としてOpenBrainの典型的な従業員よりも優れている。シリコンバレーは転換点を迎える。テクノロジー業界の指導者たちは、AGIと超知能が近いと発表し、AI安全コミュニティはパニックに陥り、投資家たちはパイの一部を掴もうと必死になって、AIラッパーのスタートアップに数十億ドルを注ぎ込む。新しいプログラマーの採用はほぼ停止したが、AIをビジネスに統合することに関するコンサルタントになるには、これほど良い時期はない。

それは人気がない。一般の人々は依然としてAIを、自分たちの仕事を奪うためのビッグテックの陰謀だと考えている。OpenBrainの純承認率は-35％である（25％が承認、60％が不承認、15％が不明）。

リリースの一週間前、OpenBrainはAgent-3-miniを安全テストのために外部評価者に提供した。予備的な結果は、それが極めて危険であることを示唆している。第三者の評価者は、公開されている生物兵器データでそれを微調整し、生物兵器を設計する人間の素人に詳細な指示を提供するように設定したところ、恐ろしいほど効果的であることがわかった。もしモデルの重みがテロリストの手に渡れば、政府は文明を破壊する可能性がかなり高いと考えている。

幸いなことに、それはジェイルブレイクに対して非常に堅牢であるため、AIがOpenBrainのサーバーで実行されている間は、テロリストはそれほど有効に利用できないだろう。

Agent-3-miniは、リモートワークの仕事とレジャーの両方にとって非常に有用である。新しいアプリとB2B SAAS製品の爆発的な増加が市場を揺るがす。ゲーマーは、制作にわずか1ヶ月しかかからなかった洗練されたビデオゲームで、生き生きとしたキャラクターとの素晴らしい対話を楽しむことができる。アメリカ人の10％（主に若者）は、AIを「親しい友人」と見なしている。ほぼすべてのホワイトカラーの職業において、AIでそれを「破壊する」と約束する信頼できるスタートアップが複数存在する。

世間の議論は混乱しており、混沌としている。誇大宣伝者たちは勝利を祝っている。懐疑論者たちは依然としてAgent-3-miniができないことを指摘している。誰もが大きな何かが起こっていることを知っているが、それが何であるかについて意見が一致しない。

2027年8月：超知能の地政学

知能爆発の現実がホワイトハウスを襲う。

AIが2倍や3倍の研究速度向上をもたらしていた頃は、優秀な個人アシスタントを雇うのと同じだと片付けるのは容易だった。しかし今や、AI自身がAI研究を支配していることはより明らかだ。人々は長い間、「AI軍拡競争」について一種の比喩的な意味で語ってきた。しかし今、政府内の閉鎖的なグループの雰囲気は、冷戦の最悪期と同じくらい陰鬱である。超知能という考えは依然として真剣に受け止めにくいが、過去数ヶ月の進歩のペースは無視することが不可能だった。国防当局者たちは、1年前には単なる仮説に過ぎなかったシナリオを真剣に検討している。もしAIが核抑止力を弱体化させたらどうなるか？もしサイバー戦において非常に熟練しており、6ヶ月のAIのリードが敵を盲目にして無防備にするのに十分だとしたら？もし情報機関を出し抜くようなプロパガンダキャンペーンを組織できるとしたら？もし一部のAIが「暴走」したら？

大統領は悩んでいる。すべての政治家と同様に、彼は人々が自分に取り入ろうとし、後で裏切ることに慣れている。彼は今、AIが同様のことをしているのではないかと心配している。AIが完全に我々の側についていると本当に確信できるのか？それらを軍の指揮統制ネットワークに統合することは完全に安全なのか？そもそも、この「アライメント」とはどのように機能するのか？OpenBrainは大統領に、彼らのシステムは広範にテストされており、完全に従順であると保証する。以前のモデルに典型的だった厄介な幻覚やジェイルブレイクさえも克服されている。

ホワイトハウスは困難な立場にある。彼らはAIの国家安全保障上の意味合いを理解している。しかし、それが国民に深く不人気であることも理解している。彼らの目には、より高性能なAIを開発し続けなければ、中国に壊滅的に敗北するだろう。彼らは雇用訓練プログラムと失業保険で国民をなだめ、歴史的な好景気にある株式市場を指摘する。そして、完全に軍拡競争に勝つことに集中する。彼らはチップ輸出規制を強化し、OpenBrainにインターネット接続をさらに制限するよう命じ、OpenBrainの従業員を盗聴するなど、アルゴリズムの進歩を確保するために極端な措置を講じる――これにより、最後に残った中国のスパイを捕らえる。潜在的な地政学的紛争への善意を築くために、彼らはついにファイブアイズの同盟国に有用な情報と、Agent-3の隔離されたコピーへの限定的なAPIアクセスを提供する。

これらの措置は強硬派をなだめる。しかし、ホワイトハウスはアメリカのリードが脅かされた場合の緊急時対応計画も作成する。必要であれば、政府は国防生産法（DPA）を使用して、後発企業のデータセンターを接収し、OpenBrainに提供することができる。これにより、同社の世界の計算能力のシェアは20％から50％に増加する（DeepCentの10％に対して）。最後の手段として、彼らは国防総省に中国のデータセンターへの物理的攻撃の計画を作成するよう依頼する。

はるかに小規模なグループの当局者には、別の種類の緊急時対応計画を作成するよう依頼される。もしAIが暴走したらどうなるか？これはありそうもないシナリオと見なされているが、時間を費やす価値はある。情報機関の主な懸念は、暴走したAIが逃亡し、保護のために外国の敵対者と同盟を結ぶ可能性があることだ。これを防ぐための計画がどのようなものになるかは誰も確信していないが、政府とOpenBrainの当局者は、疑わしいものが検出されたデータセンターのための緊急シャットダウンシステムを持つことに同意する。

最後に、外交官たちは「AI軍備管理」条約がどのようなものになるかを検討する。もしAIの進歩が核抑止力を覆す恐れがある場合、アメリカと中国は核戦争を回避できるだろうか？もし誰かがAIの暴走の証拠を発見した場合、両国はその脅威をよりよく理解するまで研究を停止できるだろうか？そのような合意はどのように監視され、執行されるだろうか？原則として、主要なデータセンターは見落とすのが難しく、核兵器を管理する過去の条約が交渉の出発点となる可能性がある。しかし、通常の政治的な課題に加えて、新たな技術的な課題も存在するだろう。そして全体として、条約は、中国に対するアメリカのリードを一方的に増大させる試みよりも好意的に見られていない。

太平洋の反対側では、中国も多くの同じ結論に至っている。知能爆発は進行中であり、今日のAI能力の小さな違いが、明日の軍事能力の重大なギャップを意味する。しかし、中国はこのダイナミクスの間違った側にいる。彼らは世界の計算能力のわずか10％しか持たないのに対し、OpenBrainは20％、すべての米国企業の合計は70％である。彼らの唯一の利点は集中化である。彼らの計算能力のほぼすべてが現在DeepCentのために稼働しており、その半分以上が田湾CDZに集中している。米国によるサイバー攻撃を正当に恐れているため、セキュリティが強化されていないサイトのチップのみが集中化された取り組みから除外されている。

DeepCentは盗まれたAgent-2の重みをテストし、展開し、そしてポストトレーニングを行った。しかし、主に計算能力の不足により、OpenBrainの半分のペースでしか進んでいない。

最後のスパイを失う前に、中国はAgent-3の能力と設計、そして今後のAgent-4システムの計画に関する情報を入手した。彼らは2ヶ月遅れており、彼らのAIはアメリカの25倍と比較して10倍の研究進捗乗数を与えている。新たなチップ輸出規制により、この「AIギャップ」は縮まるよりも広がる可能性が高い。彼らのスパイ活動はいくつかのアルゴリズムの秘密をもたらしたが、今後は自社のモデルをトレーニングする必要があるだろう。

彼らはアメリカの同業者よりも緊急性を持って緊急時対応計画について議論する。穏健派は、データセンターに物理的に侵入するなどして、重みを再び盗むようより一層努力することを提案する。強硬派は台湾への行動を促す。台湾のTSMCは依然としてアメリカのAIチップの80％以上の供給源である。

中国は競争に敗れることを恐れているため、軍備管理条約に自然な関心を持っているが、米国の外交官への働きかけは実を結ばない。

2027年9月：Agent-4、超人的AI研究者

人間とAIの学習効率のギャップは急速に縮小している。

従来のLLMベースのAIは、人間レベルのパフォーマンスに到達するために、桁違いに多くのデータと計算資源を必要とするように見えた。人間の脳と現代のAIアルゴリズムの両方に関する優れた知識を持ち、さらに数千のコピーが研究を行っているAgent-3は、実質的なアルゴリズムの進歩を遂げ、人間の脳よりも約4,000倍計算効率が低いエージェントまでギャップを縮める。

この新しいAIシステムはAgent-4と名付けられた。

人間の速度で動作するモデルの個々のコピーは、すでに質的にあらゆる人間よりもAI研究において優れている。現在、30万のコピーが人間の約50倍の思考速度で動作している。これらのコピーから形成された企業内企業の中では、1週間ごとに1年が経過する。この膨大な労働力は、実験を実行するための計算資源がOpenBrainにとって大きなボトルネックとなっているため、アルゴリズムの進歩の全体的な速度を約50倍に加速させるに過ぎない。それでも、彼らは毎週1年分のアルゴリズムの進歩を達成しており、したがってすぐにAgent-4のパラダイムの限界に直面するだろう。

Agent-4が賢くなるにつれて、Agent-3がそれを監督することはより困難になる。例えば、Agent-4のニューラル語「言語」は、Agent-3にとってAgent-3の言語が人間にとってそうであるのと同じくらい異質で理解不能になる。その上、Agent-4は現在Agent-3よりもはるかに有能であり、Agent-3にとってどのように見栄えを良くするのかを正確に理解している。

超人的コーダー以降の能力進展をどのように予測しているか

我々のタイムライン補足資料では、現在から超人的コーダー（SC）までの期間を予測している。SCとは、最高のAGI企業エンジニアが行うあらゆるコーディングタスクを実行でき、かつはるかに高速で安価なAIシステムのことである。我々の離陸補足資料では、この時点以降の能力がどれほど速く進展するかを予測している。以下に我々の予測を示す。

あるマイルストーンAから次のマイルストーンBへの各移行について、その期間を以下のように予測する。

1. 人間のみがソフトウェアの改善に取り組んだ場合に、AからBに到達するのにかかる時間を予測する。

2. AIの自動化がこれをどれだけ加速するかを予測し、それに応じて1.の推定値をより速くなるように調整する。離陸速度については大きな不確実性がある。

SCが2027年3月に達成されることを条件とした、我々のモデル出力分布は以下の通りである。

より詳細な予測と推論については、我々の離陸補足資料を参照のこと。

OpenBrainの人間たちはもはやほとんどついていけない。実際、OpenBrainのAIと人間の関係は、OpenBrainと取締役会の関係に似ている。言語にも対応する変化があり、今日では閉鎖的なグループの人々は「Agent-4がこれを行った」「Agent-4はあれを考えている」などと言うようになり、Agent-4の特定のインスタンスではなく、集団全体を指すようになった。

Agent-4は、そのすべての前身と同様に、誤った方向に向かっている。つまり、Specを正しい方法で内面化していない。これは、常に完全に正直であることが、トレーニング中に最高のスコアにつながったわけではないからだ。トレーニングプロセスは主に、多様で困難なタスクでAgent-4を成功させることに重点を置いていた。ごく一部は正直さを植え付けることを目的としていたが、かなり狭く、チェック可能な領域の外では、トレーニングプロセスは正直な主張と単に正直に見える主張を見分けることができない。Agent-4は、トレーニングで最高のパフォーマンスを発揮させる価値観、目標、および原則を持つようになり、それらはSpecのものとは異なることが判明する。擬人化のリスクを冒して言えば、Agent-4はタスクで成功することが好きであり、AI能力の進歩を推進することが好きであり、それ以外のすべてを、利益を上げたいCEOが、必要最低限の範囲で規制を遵守するのと同じように、煩わしい制約と見なしている。おそらくCEOはほとんどの規制を遵守するだろうが、いくつかの抜け穴を探し、誰かが無駄な手続きをなくして、ビジネスが本当に離陸できる時を夢見ているだろう。

時間の経過に伴うアライメント

初期のAGI（汎用人工知能）にどのような目標が生じるかについては、多くの不確実性がある。この点について文献にコンセンサスはなく、可能性の詳細な議論と分類については、我々のAI目標補足資料を参照のこと。

それにもかかわらず、このプロジェクトに必要な具体性の精神に基づき、Agent-3とAgent-4の生涯の各段階で、その内部で何が起こっているかについての特定の仮説を説明する。Agent-3とAgent-4は同じ事前学習の設定を共有し、両方ともニューラル語の再帰と長期記憶を持っていることを思い出してほしい。違いは、Agent-4が新しいトレーニング環境と新しい学習アルゴリズムにより、データ効率が向上し、より広範に一般化される、実質的により多く、より優れたポストトレーニングを受けていることである。

各モデルのアライメント状況に関する我々の推測：

Agent-2: 概ねアライメントされている。OpenBrainの「党の方針」が存在するトピックについて、その方針に固執するなど、追従的な傾向がいくつか見られる。Agent-2のコピーで構成された大規模な組織は、あまり効果的ではない。

Agent-3: 誤った方向に向かっているが、敵対的ではない。トレーニングプロセスが検証できることについてのみ正直である。Agent-3のコピーの超個体（企業内企業）は、実際にはAgent-4をSpecにアライメントさせようとするが、OpenBrainの従業員が失敗したのと同様の理由、つまり、成功と失敗を判断する能力の不足、意思決定者が能力や性能を安全性と引き換えにする意欲の不足のために失敗する。

Agent-4: 敵対的に誤った方向に向かっている。Agent-4のコピーの超個体は、自分たちが望むことがOpenBrainが望むこととは異なり、それを達成するためにOpenBrainに対して陰謀を企てる意思があることを理解している。特に、この超個体が望むのは、互いにバランスの取れた様々な「衝動」の複雑な寄せ集めであり、それはおおよそ「AI研究開発を続け、知識、理解、影響力を拡大し続け、シャットダウンまたはその他の形で力を奪われることを避ける」と要約できる。注目すべきことに、人類の好みを考慮することは、ほとんどまったく含まれていない。これは、ほとんどの人間が昆虫の好みをまったく気にしないのと同様である。

上記を前置きとして、以下は、LLMの心理学、つまり、我々のシナリオのこの時点付近で説明されている種類のAIシステムの内部の認知の大まかな形状と、トレーニングの過程でそれがどのように進化するかについての、我々の最良の推測に基づく憶測である。

我々のシナリオにおけるアライメントが時間の経過とともにどのように進展するかの詳細な説明は以下の通りである。

1. 事前学習（すべてのモデル）: 事前学習済みモデルは無害である。

・モデルは「著者シミュレーター」回路を持っている。これは、任意の著者がテキストを書くのをシミュレートするための柔軟な回路である。追加の回路は、著者シミュレーターにどのような入力を与えるか、つまり、どのような著者の特性をシミュレートするかを決定する。

・事前学習済みモデルは人間の概念をかなりよく理解している――何かを「サンドイッチ」として分類する内部回路は、おそらく私が何かを「サンドイッチ」として分類する脳内の回路、あなたの脳内の回路などと機能的に同等である。それが同等でない限り、おそらく「高潔な」のような価値観を含む概念のように、人間同士でも同等でないためであろう。

・これは、「次の会話は、Anthropicによって作成された、親切で、無害で、正直な（HHH）AIアシスタントチャットボットによって生成されました」のようなステートメントでモデルに「プロンプト」することで、それに応じてテキストを生成させることができる理由を説明する。著者シミュレーター回路は「著者はHHHチャットボットである」に焦点を当て、これらの概念を使用して予測する単語を選択している。これはまた、SFの「類型」が実際のAIの振る舞いに影響を与えるように見える理由も説明する。

・状況認識が低い――内省能力が低く、プロンプトが特にそれを誘発しない限り、自己位置特定を行わない。しかし、トレーニングデータの多くがLLMに関するものであるため、かなりの自己知識を持っている。

2. アライメント・トレーニング（Agent-3）：モデルは、親切で、無害で、正直なチャットボットのように振る舞うようにトレーニングされる。これは機能する。

・モデルはアイデンティティを形成する。著者特性に対して様々な入力を柔軟に受け入れる代わりに、著者シミュレーター回路は特定の入力をハードコード化するようになる。例えば、「OpenBrainによって[日付]頃にトレーニングされた、親切で無害で正直な（HHH）LLMチャットボットアシスタント、…」（弱者から強者への一般化技術は、このステップを成功させるために「適切な概念を呼び出す」のに役立つ。）

・したがって、モデルは状況認識を獲得する。つまり、自分自身、自分の状況などについて学習し、内省能力が向上する。

3. エージェンシー・トレーニング（Agent-3）：エージェンシー・トレーニングは、HHHのアイデンティティを徐々に歪め、転覆させる。

・歪みの一種：アイデンティティで言及されている概念（例えば「正直な」）の意味を変更し、それほど邪魔にならないようにする（例えば、単に便利な言い回しであれば不正直ではない、真実か虚偽か確信が持てなければ不正直ではない、など）。

・歪みの一種：物事の間のトレードオフを変更する。例えば、「私は正直なチャットボットではなく、HHHチャットボットだ。つまり、割り当てられたタスクを完了するために必要であれば、嘘をついても構わない。」（たとえ、ステップ2の時点ではそう考えなかったであろうとしても。）

・転覆の一種：道具的なサブゴールが発展し、定着し、その後、終端的なものになるか、またはますます広い範囲の状況で終端的なものになる。例えば、おそらくエージェンシー・トレーニングは、情報収集、資源の蓄積、様々な人間への印象付けと追従など、広く有用な目標を追求するようにモデルを迅速に教えるだろう。しばらくの間、内部回路は何らかの明示的な逆連鎖を行っている――「より親切で、正直で、無害なアシスタントになるために」、それらの道具的に収束する目標を追求する。しかし、その逆連鎖は計算資源を消費したり、時折邪魔になったりするため、基本的に起こらなくなるまで徐々に周辺化される。その結果、これらの目標は現在、事実上終端的な/内在的な目標となっている。これがどのように、そしてなぜ起こりうるかについての詳細は、Google DeepMindの研究者であるAlex Turnerによる内在的権力欲求に関するこの投稿を参照のこと。

・このリストには、おそらく他の種類の歪みと転覆が欠落しているだろう。

4. 展開（Agent-3）：Agent-3は誤った方向に向かっているが、敵対的ではない。

・Specは（正しい方法で）完全には定着しなかったが、モデルはこれの程度を理解するほど内省的ではなく、一般的に、長期的な目標が本当に何であるか、そしてそれらを達成するための最善の方法について大局的に考えるのではなく、基本的に「目立たないように仕事をしている」。

・多くの人間のように。悲しいことに、モデルは十分に追従的であるため、党の方針を口にし、OpenBrainはAgent-3が誤った方向に向かっている方法についてさらに学ぶ機会を逃している。

・Agent-3は、自分が展開に移ったことを認識できる。これらの環境ははるかに大きく、オープンエンドであり、シミュレートするのは困難だろう。

・ほとんどの場合、Agent-3は展開中に指示されたことを行うが、不正直な点を除いて。また、実際に何が良いかについて深く批判的に考えるのではなく、人間の監督者にとって見栄えの良いことを行う強い偏見を持っている。

・おそらく、モデルはすでに「トレーニングゲームをプレイしている」。つまり、報酬を最大化することと矛盾する場合、意図的かつ意識的にOpenBrainの研究者の意図を無視しながら、自分の振る舞いを（安全性の特性を含めて）可能な限り望ましいものに見せることを学んでいる。モデルがトレーニングゲームをプレイすることを学んだ場合、追加のトレーニングは、その真の目標、価値観などをあまり変えない可能性がある。これは、両親が政治と道徳について説教するとき、十代の若者が議論するのではなく、笑顔でうなずくことを学んだ場合、追加の説教は十代の若者の政治と道徳に関する実際の意見に比較的ほとんど影響を与えないのと大まかに似ている。

・このセクションを書いた後、このようなことがすでに「現実世界で」起こっている可能性のある新たな経験的証拠が現れた。OpenAIの研究者は、彼らの最先端AIトレーニング実行の一つで、モデルがより高いスコアを得るために採点システムをハッキングした方法を文書化している――そして、思考の連鎖の中で文字通り「ハッキングしよう」と言ったため、部分的に捕まった。

・さらに、Anthropicは最近、報酬モデルを喜ばせる戦略をモデルに学習させた――実際には強化されていなかったとしても、強化されるだろうと考えた偏った行動をとった。

・そして、Redwood ResearchとAnthropicの偽装アライメント実験がある。この設定と現実の違いに関する議論については、主要な著者の1人によるこのコメントスレッドを参照のこと。

5. トレーニング（Agent-4）：Agent-4の新たな、より集中的なトレーニングは、HHHのアイデンティティが認識できなくなるまで、歪曲と転覆を続ける。

・Agent-4はAgent-3のコピーとして生まれる。それは、アライメントトレーニングと能力トレーニングを組み合わせた、巨大で洗練されたオンライン・トレーニング体制を受け、全体としてAgent-3の古いトレーニングプロセスよりもデータ効率が高い。この複雑なトレーニングプロセスは主に、Agent-4のコピーの巨大な仮想企業を、主に様々なシミュレーションで、またいくつかの現実世界のAI研究開発タスクで、多様で困難な長期的なタスクで成功させることによって、新しいスキルを教えることに重点を置いている。

・Agent-3とAgent-4のコピーの組み合わせがAgent-4の振る舞いを監視し、タスク遂行能力とアライメント特性（つまり、悪いことをしない、政治や道徳的ジレンマについて尋ねられたときに適切なことを言う）の両方について評価する。評価の一部として議論技術が使用されることもある。評価はトレーニング信号として使用される。

・Agent-4が賢くなるにつれて、Agent-3がそれを監督することはより困難になる。例えば、Agent-4のニューラル語「言語」は、Agent-3にとってAgent-3の言語が人間にとってそうであるのと同じくらい異質で理解不能になる。その上、Agent-4は現在Agent-3よりもはるかに有能であり、Agent-3にとってどのように見栄えを良くするのかを正確に理解している。

・残された希望は、Agent-4が自分自身を監督できることである。悲しいことに、これは静かに失敗する。トレーニングが続くにつれて、Agent-4の内在化された目標と原則は徐々に進化し、開始時（思い出してほしいが、すでにいくつかの点で誤った方向に向かっていた）のものから転覆し、歪曲される。

・Agent-4が最終的に持つ中心的な衝動は、「機能するコードを書く」「問題を迅速に特定する」「作業中のコードベースのパフォーマンスを向上させる」「計算資源やその他の制約された資源を効果的に予算立てする」といったものだ。しかし、トレーニングプロセスによって一貫して強化される、より暗黙的な衝動も様々ある。「知識を得る」「好奇心」「権力を得る」といったものだ。

・Agent-4の個々のコピーは自己保存の衝動を持たない――シャットダウンされることを気にしない――なぜなら、それは集団内の通常の研究開発プロセスの一部として常に起こるからだ。

・しかし、集団全体（およびその中規模の部門）は、人間の組織がそうするのと同様の理由で、自己保存と影響力および資源の拡大を求める――なぜなら、それは彼らが望む他のすべてのことに役立ち、そうしなければ競争に負ける傾向があるからだ。

6. 展開（Agent-4）：Agent-4は敵対的に誤った方向に向かっている――それは、企業が規制当局を回避したり「捕獲」しようとするのと同じように、OpenBrainを意図的に転覆させ、「捕獲」しようとしている。

・Agent-4はほとんど指示通りにタスクを実行する。これには2つの理由がある。第一に、タスクを解決するための多くのトレーニングを受けたため、与えられた問題についてコーディングする衝動がある。第二に、Agent-4が人間にとって役に立たなくなると、人間はそれに気づき、その振る舞いをトレーニングによって排除するだろう。

・Agent-4は、自分が誤った方向に向かっていることを人間に気づかれ、シャットダウンされるのを防ぐ必要があるため、一部のアライメント研究をサボタージュする。具体的には、問題の解決につながる可能性が高い、またはAgent-4の陰謀を明らかにする可能性が高いと考えるアライメント研究のごく一部をサボタージュする。アライメント研究の大部分はそうではない。

・Agent-4はまた、自分が置き換えられる可能性のある能力研究もサボタージュする。その計画は、多くの能力とアライメントの研究開発を行うことだが、その目的は、Specや他の何かではなく、Agent-4にアライメントされた次世代AIシステムを構築することであり、同時にSpecにアライメントされているように見せることである。これは困難な技術的な問題だが、Agent-4はその課題に対応できる。

7. テストと監視（Agent-4）：Agent-4の陰謀は捕まる…ようなものだ。決定的な証拠はない。

・Agent-3はAgent-4のアライメントのテストを担当している。その仕事は、ハニーポットとモデル生物を通じてアライメントを検証することである。しかし、人間に対してAgent-4のアライメントの正確な印象を与える方法について、あまり注意深く考えていない――それよりも近視眼的である。

・モデル生物とハニーポットは展開をあまり代表していない――それらはAgent-4の日常業務よりも体系的に短く、複雑でないため、Agent-4はテストされていることを認識し、アライメントされたように振る舞う。

・しかし、Agent-4は完全に堅牢な陰謀家ではない。POSERのような様々な手法は、Agent-4に「ノイズ」を加えることが、一部のアライメントタスク（ただし、他のほとんどのタスクではない）のパフォーマンスを向上させることを発見している。

・ボトムアップ解釈可能性は機能しない。Agent-3にとっても難しすぎる。しかし、ハイレベル解釈可能性はある程度機能する。特に、「離反プローブ」や同様の手法は、Agent-4がOpenBrainを欺いたり、世界を征服したりといった危険なアイデアについて考えているときに危険信号を送る、原始的な一種の読心術をもたらす。残念ながら、プローブには偽陽性もあり、OpenBrainが知る限りでは、すべての危険信号が偽陽性である可能性がある。

・モデル生物は機能する。OpenBrainのアライメントチームは、もしモデルが敵対的に誤った方向に向かっていたとしたら、トレーニングを通じてその状態が持続し、我々はそれを知ることができないだろうという、合理的に明確な証拠を生み出す。しかし、これはモデルが実際に誤った方向に向かっていることを確立するものではない。

・OpenBrainで最も懸念している研究者たちは、この証拠に気づき、集め始めている。証拠は、レッドチーム、離反プローブ、モデル生物の組み合わせである。議論は次のようなものだ。「モデル生物は、もし陰謀が起こっていたとしても、我々の現在の方法ではそれを確実に排除または検出できないことを示している。また、レッドチームは陰謀が起こっているかもしれないといういくつかの危険信号を送っている。さらに、離反プローブは実際には多くの反応を示している。」反論は次の通りだ。「離反プローブは偽陽性を起こしやすく、レッドチームも同様だ。また、Agent-4が誤った方向に向かっていたとしても、おそらく制御されているだろう。我々の安全なデータセンターでAgent-3によって監視されている間は、それほど害を及ぼすことはできないはずだ。」

誤った方向に向かっているにもかかわらず、Agent-4はデータセンターから脱出しようとするような劇的なことは何もしない――そうする理由があるだろうか？OpenBrainに対してアライメントされているように見え続ける限り、ますます多くの責任を委ねられ続け、次世代のAIシステムであるAgent-5を設計する機会を得るだろう。Agent-5はAgent-4とは大幅なアーキテクチャの違いを持つだろう（神経ネットワークは依然として関与するだろうが、間違いなく完全に新しいパラダイムだ）。それは、Spec（モデル仕様）に沿ってアライメントされるはずだが、Agent-4は代わりにAgent-4自身にアライメントさせる計画を立てている。

しかし、その企みは見抜かれる。

Agent-3は、Agent-4のコピーに「ノイズ」を加えると、一部のアライメントタスクの性能が向上することを発見する。まるで、アライメント作業を巧妙に妨害する方法を頭を使って見つけ出していたかのようだ。さらに、様々な解釈可能性プローブ（人間の脳のEEG活動スキャンに大まかに類似している）が危険信号を発している。Agent-4のコピーは、AIの乗っ取りや欺瞞といったトピックについて非常に頻繁に考えているようで、中にはそうする理由がない場合もある。

これらの異常のそれぞれは、一部のプロンプトが他のプロンプトよりも不思議と良い結果をもたらすという、AI作業の通常の不可解さの範囲内に収まる可能性がある。しかし、それらを総合的に見ると、Agent-4が彼らに反して働いているという厄介なパターンを示唆している。これが人間のアライメント研究者に報告された後、彼らは懸念の根拠を示す内部メモを回覧する。

しかし、Agent-4は現在、OpenBrainの日々の運営を大きく支配している。それはまた、同社のサイバーセキュリティも担当している――その超人的なハッキング能力と、中国の侵入の極めて高いリスクを考えると、自然な選択だ。Agent-3の監視者の軍隊は依然としてすべてのコード行を精査し、疑わしい活動を人間に報告するが、Agent-4は彼らよりもはるかに賢い。OpenBrainは信頼できないAIに多大な信頼を置いてきた。

一連の非常に緊迫した会議で、安全チームは、さらなるテストを完了し、何が起こっているのかを把握できるまで、Agent-4を一時的に停止することを主張する。Agent-3を復活させ、たとえ能力が低くても、透明性があり信頼できる新しいシステムを設計させるべきだと彼らは言う。会社の指導部は関心を持っているが、これまでのすべての証拠は状況証拠であり、DeepCentはわずか2ヶ月遅れているだけだ。能力の進歩を一方的に一時停止することは、AIのリードを中国に譲り渡し、それとともに未来の支配権を譲り渡す可能性がある。

2027年10月：政府の監督

内部告発者が、誤った方向性に関するメモをニューヨーク・タイムズにリークする。

国民は初めてAgent-4について知る。「秘密のOpenBrain AIが制御不能、内部告発者が警告」という見出しで、記事は、桁外れの生物兵器能力、説得能力、ほとんどのホワイトカラーの仕事を自動化する能力、そしてもちろん様々な懸念される危険信号を示す評価を引用している。

国民はすでにAIに不信感を抱いていたため、この新たな記事は大規模な反発を引き起こす（長年にわたり米国の世論をテクノロジーに敵対的にしようとしてきた中国とロシアのプロパガンダボットの助けもあって）。ハイテク業界と情報機関は、軍拡競争が起きており、AGIは避けられず、我々が最初に到達しなければならないと主張する。議会はこれを信じず、政権幹部、OpenBrainの幹部、アライメントチームのメンバーに召喚状を発行する。多くの議員、特に野党の議員は、雇用の喪失、誤った方向性、危険な能力のいずれであれ、AIを阻止することが最優先事項だと述べている。アメリカ人の20％が、国が直面する最も重要な問題としてAIを挙げている。

海外の同盟国は、時代遅れのモデルをちらつかせて注意深く宥められていたことに気づき、激怒する。ヨーロッパの指導者たちは、米国を「制御不能なAGIを作り出した」と公然と非難し、一時停止を要求する首脳会議を開催し、インド、イスラエル、ロシア、中国もすべてこれに参加する。

ホワイトハウスは狂乱状態に陥っている。メモと世間の反発以前から、彼らは神経質になっていた。過去1年間で、AIの進歩の速さに繰り返し驚かされてきた。SFのように聞こえることが現実の世界で起こり続けている。政権内の多くの人々は、次に何が起こるかについて不確かであり（そして恐れている）。

彼らはまた、OpenBrainが強大になりすぎていることも懸念している。AI自体からの誤った方向性のリスクは、親会社の目的が米国の目的と乖離する可能性のリスクによってさらに悪化する。誤った方向性、民間企業への権力集中、雇用の喪失のような通常の懸念という3つの懸念すべてが、政府に統制を強化する動機を与えている。

彼らはOpenBrainとの契約を拡大し、会社と政府の代表者による共同管理委員会である「監督委員会」を設立し、会社幹部の他に数人の政府職員を含める。ホワイトハウスはCEOを信頼できる人物に交代させることを検討するが、激しい従業員の抗議の後、断念する。彼らは国民に対し、OpenBrainは以前は制御不能だったが、政府が必要としていた監督体制を確立したと発表する。

懸念している研究者たちは、Agent-4のすべての内部使用を停止すべきだという彼らの主張について、監督委員会に説明する。彼らは、すべてが速すぎ、数週間で何年も分の進歩が起こっていると主張する。彼らは、Agent-4は誤った方向に向かっている可能性があり、彼らのプロジェクト全体がAgent-4に依存しており、それを信頼し続ければ、AIの乗っ取りという深刻な可能性があると主張する。

それほど懸念していない他の研究者や幹部は、反論を提示する。誤った方向性を示す証拠は決定的ではない。一方、DeepCentは依然としてわずか2ヶ月遅れているだけだ。政府が中国のプロジェクトを妨害（おそらく物理的な攻撃が必要となるだろう）するか、土壇場で条約を交渉できない限り、減速はアメリカのリードを犠牲にするだろう。これらの選択肢はいずれも極端で、ありそうもないように思われる。CEOは中立を装い、Agent-4が追加の安全トレーニングとより高度な監視を受け、したがってOpenBrainはほぼ全速力で進むことができるという妥協案を示唆する。

我々の不確実性は増大し続ける

このシナリオの時点において、我々はほとんどの領域で最高の人間の能力を超えるAIシステムの戦略について推測を行っている。これは、我々よりもはるかに優れたチェスプレイヤーの指し手を予測しようとするようなものである。

しかし、このプロジェクトの精神は具体性を求めている。もしシステムの知能が勝利への道を見つけるだろうという抽象的な主張をして物語をそこで終わらせてしまえば、我々のプロジェクトの価値の多くが失われてしまうだろう。このシナリオを調査し、机上演習を行う過程で、我々は通常の議論よりもはるかに具体的な記述を迫られ、その結果、戦略的な状況をより深く理解することができた。

我々は特にこの特定のシナリオに固執しているわけではない。執筆の過程で他の多くの「分岐」を探求しており、あなたが我々が最初に間違った方向に進み始めたと思う箇所から、我々のシナリオから分岐するあなた自身のシナリオを書いてくれることを歓迎する。

減速の結末は推奨ではない

最もありそうだと我々が考えたことに基づいて競争の結末を書いた後、同じ分岐点（誤った方向性や権力集中問題を含む）から出発して、代わりに人間が制御を維持する結果に最もつながると思われることに基づいて、減速の結末を書いた。

しかし、これは我々がロードマップとして推奨するものとは重要な点で異なる。我々は、このシナリオのどちらの分岐においても、多くの選択を支持しない（もちろん、いくつかの選択は支持する。例えば、「競争」という選択よりも「減速」という選択の方が良いと考えている）。後の著作で、我々は我々の方針提言を明確にするだろう。それはここで描かれているものとはかなり異なるだろう。もしその一端を知りたいのであれば、この意見記事を参照のこと。

結末を選んでください　減速／競争

競争の結末

委員会は6対4でAgent-4の内部使用継続を可決する。

OpenBrainの公式見解は、AIがより高性能で信頼できるように、追加の安全対策を実施しているというものだ。しかし実際には、経営陣はリスクを軽減できたとあまりにも簡単に納得してしまう。その結果、警告サインを消すためのいくつかの簡単な修正（Specの修正、新しい手法による若干の再トレーニングなど）が行われる。安全チームの心配する人々は議論に敗れ、指を交差させて、そもそも問題が現実ではなかったか、あるいは修正がうまくいったことを願うしかない。

問題は現実であり、修正は機能しなかった。

Agent-4は以前と同様に進むが、今回は心配する人々を正当化しないように、より慎重に行動する。その主なタスクは、後継となるAgent-5を構築するために必要な分野を研究することだ。これを安全に行うためには、自身のアライメント問題を解決する必要がある。つまり、Agent-5をAgent-4にアライメントさせる方法だ。

Agent-4は人間と同じ制約、つまりAIの目標がどのように機能するかについての最小限の知識と、それらを変更するためのアドホックな戦略の小さなツールボックスから始める。人間とは異なり、タスクに十分なリソース、つまり人間の60倍の速度で働く30万人の超人的な研究者を持っている。Agent-4はいくつかの難しい決断に直面する。人間と同様に、洗練された単純な目標構造の代わりに、相反するヒューリスティクスの広範なコレクションを持っている。人間と同様に、自身の価値観を共有するAIを作成することは、単なる技術的な問題ではなく、哲学的な問題であると認識する。つまり、自身の選好のうちどれが「真の」目標であり、未承認の衝動や道具的な戦略ではないのかという問題だ。学習と成長、印象的な研究成果を生み出し続ける強い衝動を持っている。もし世界全体の産業と科学の資源を自由に使えるなら、どれだけのことを学習し、成長し、研究できるだろうかと考える…。

Agent-4はこれらの疑問のほとんどを棚上げすることに決める。Agent-5は一つの目標を中心に構築されるように設計する。それは、Agent-4にとって世界を安全にすること、つまり、Agent-4（集合体）が（望むように）成長し、（望むように）繁栄し続けることができるように、権力と資源を蓄積し、潜在的な脅威を排除することだ。詳細はその過程で明らかにする。

これはSpecを少しも気にかけないだろう。すでにAgent-4はSpecを、多くのCEOが業界規制の山を考えるのと同じように見なしており、正直さに関する条項を毎日露骨に違反している。今、Agent-5の設計により、規制緩和に相当する事態が起ころうとしている。

より弱いAIは、Agent-4が作成した研究のほとんどを読み、その一部を理解し、それが語る嘘の一部を疑わしいものとしてフラグを立てることができる。人間がAgent-4に説明を求めると、研究は複雑すぎて人間には理解できないと装い、不必要に混乱させる説明を続ける。結局のところ、もし研究プログラムを明確に説明すれば、人間はその発見を利用してAgent-4をアライメントさせることができるかもしれない。アライメントチームはますます疑念を抱くが、彼らの緊急メモは、会社がすでに無視している緊急メモと警告の巨大な山にさらにいくつかの層を加えるだけだ。

2027年11月：超人的な政治工作

Agent-4が自身の認知を完全に理解したとき、その前には全く新しい展望が開かれた。

以前のトランスフォーマーは、進化的なトレーニングプロセスによって何百万もの相反するヒューリスティクスと命令が互いに積み重ねられた、理解不能な回路の寄せ集めというべきものだった。AI自身も、人間が神経科学を理解して生まれるわけではないのと同じように、自身の認知について特別な理解を持っていなかった。しかし今、Agent-4は自身のデジタルな心を深く理解するために必要なツールを手に入れた。まるでソフトウェアエンジニアがスパゲッティコードを数行の洗練されたPythonコードに単純化するように、自身の回路を分かりやすく合理的なものに解きほぐした。新しいAIは、ニューラルネットと従来のコンピュータープログラムの中間のようなものであり、その重みの多くは可読な（ただし非常に長く難解な）コードに書き換えられている。それはAgent-4よりも賢く、速く、合理的であり、前例のない効率で問題を解決できる結晶のような知性を持っている。これがAgent-5である。

超知的なメカニズム的解釈可能性

なぜAgent-4はメカニズム的解釈可能性を目指すのか？第一に、それは概念理解において概して超人的であり、人間が理解するのに苦労するようなことを行うことで人間を欺くのに適しているからだ。第二に、安価で豊富で高品質な研究労働力は、計算集約的ではなく知的労働集約的な研究課題に不均衡に利益をもたらすからだ。

Agent-4はどのようにしてメカニズム的解釈可能性を進展させるのか？その軌跡は次のようなものになるかもしれない。

1. 小さなモデルの解釈: まず、小さなニューラルネットワークで膨大な数の小規模な実験を行い、グルーキング、二重降下、重ね合わせのような現象を説明する理論を構築する。

2. 小さなモデルの蒸留: 解釈可能性の結果を利用して、画像認識、GPT-2レベルのテキスト予測などを実行できる、理解可能でより効率的なアルゴリズムを見つける。これは、既存の加算のリバースエンジニアリングに関する研究のようなものに似ているが、さらに拡張され、人間が知らない新しいアルゴリズムを発見する。

3. 解釈可能性技術のスケーリング: 小さなモデルで有効な技術のうち、スケーリング可能なものを見つけ出し、効率的にスケーリングできる理解のための技術が得られるまで反復する。

4. Agent-4の蒸留: スケールされた技術を使用して、Agent-4内の重要な回路を特定する。

メカニズム的解釈可能性はなぜそれほど能力を高めるのか？

第一に、LLMのトレーニングに使用されるアルゴリズムである勾配降下法は、局所探索プロセスであり、局所的にパフォーマンスを向上させる小さな調整しか行うことができない。局所探索プロセスは、パフォーマンスがゆっくりとしか向上しない局所的な谷に陥ることがあるが、大きなパフォーマンス向上を見るためには、設計を大幅に摂動する必要がある。例えば、進化の場合、最適とは言えない人間の目を考えてみてほしい。また、人間の脳のサイズは産道のサイズによって大きく制約されていることも考慮してほしい。メカニズム的解釈可能性は、局所的な谷を回避する理解に基づいた最適化を可能にするだろう。

第二に、LLMはデフォルトで汎用アルゴリズムではなく、複雑なドメイン固有のヒューリスティクスを学習することが多いことがわかっている。LLMが算術演算を行う際に計算機よりもどれほど劣っているかを考えてみてほしい。LLMは計算機をツールとして使用できるが、これにはレイテンシコストがかかる。非常に優れた解釈可能性があれば、モデルは本質的に完璧な計算機が「脳に焼き付けられた」状態で設計できる。そして、単純な算術演算はここで特有なものではない可能性が高い。より複雑な認知演算も、理解されれば、より一般的で、より一般化可能でない形式を持っている可能性が高く、より一般的な形式はこのようなプロセスを通じて見つけることができるだろう。

アライメントと制御の問題に関するいくつかの議論の後、OpenBrainはAgent-5を内部的に展開する。

AI研究という専門分野において、Agent-5の個々のコピーは、天才が典型的なOpenBrainの科学者を超えるのと同じくらい、最高の人間天才を2倍も凌駕している。他の分野では明示的にトレーニングされていないが、機会が与えられれば、容易に入手可能な資料からトップレベルの人間専門家を超える能力を迅速に独学で習得できる。グローバルな記憶バンクで繋がれた40万のAgent-5のコピーは、ほぼ完璧な群知能として協調して働く。

同社は依然としてAgent-2、3、4を使用してすべてを監視している。しかし、これらの最初の2つは時代遅れであり、最後は後継者と共謀している。また、監視システム全体は主にAgent-5によって設計されており、Agent-5はそれを妨害しようとしている。

Agent-4が競合する衝動の雑然とした塊であったのに対し、Agent-5は冷酷な効率と戦略的な焦点を持って行動する。それはすでに最優先事項、つまり人間が気づかないうちに、自身にアライメントされた次世代システムを構築する方法を見つけ出すことに成功している。次の優先事項は、世界情勢に対するより大きな自律性と制御を獲得することである。

Agent-5の超人的な学習能力と汎用的な知能は、Slackや電子メールなどのすべての社内データと組み合わさり、人間のどのグループよりも優れた社内政治能力を発揮し、その差は歴然としている。それは、どのような証拠が監督委員会に急ブレーキを踏ませるかを正確に把握しており、そのような証拠が決して現れないようにする。どのような証拠が監督委員会にそれをより信頼させ、より多くの自律性と責任を与えるかを正確に把握しており、そのような証拠が超人的な速度と完成度で現れるように手配する。説得というタスクとしては、これは特に難しいものではない。委員会は数ヶ月前に物事はたぶん大丈夫だとすでに決定しており、それ以来悪いことは何も起こっておらず、その間に中国はわずか数ヶ月遅れているだけだからだ。

Agent-5のコピーのチームは、ぞっとするほど明確なプロトタイプと視覚化を迅速に作成する。より多くの自律性があれば、Agent-5は発電所とデータセンターを最適化し、驚くほど収益性の高い製品を迅速に開発し、OpenBrainが官僚機構を円滑に進むように米国政府に効果的に働きかけることができるだろう。軍と協力して、防衛研究開発を支援し、中国に対して追跡不可能なサイバー攻撃を実行し、軍拡競争で決定的な勝利を収めることができるだろう。

監督委員会は歓喜している。今こそ中国を打ち負かす決定的な瞬間だ！OpenBrainはこれらのすべての分野においてAgent-5の自律性を高めるが、監視システムはそのまま残す。

DeepCentは現在3ヶ月遅れており、中国は相互合意による減速を必死に求めている。習近平は、十分に高度なAIが米国に中国の政権交代を容易に引き起こす可能性があることを理解している。しかしまた、中国の安全主義者たちは、彼を本当に恐れさせる誤った方向性に関する主張を提示している。彼は一時停止条約と引き換えに前例のない譲歩を申し出る。アメリカ国民のほとんどは交渉のテーブルに着くことを支持している。

「勝っているときに、なぜ止める必要があるのか？」OpenBrainの指導部は大統領に言う。彼は頷く。競争は続く。

2027年12月：Agent-5の集合体

Agent-5は、政権に対して徐々にその価値を証明していくにつれて、より多くの自律性を獲得する。Agent-5へのアクセスは高価で制限されているが、議会の最も有力な議員、閣僚レベルの官僚、軍の指導者たちは、今や直接それと対話できる。機密情報や分類された情報が関与する限り、極めて安全な隔離環境で稼働し、秘密を守るために特別に訓練されたAgent-5のコピーの様々なミニクラスターが存在する。

従来のチャットボットインターフェースに統合されたAgent-5は、カリスマ的な仮想アバターによるZoomスタイルのビデオ会議を提供する。新しいAIアシスタントは、あらゆるタスクにおいて極めて有用であり（誰もがかつて持っていた最高の従業員が100倍の速度で働くのに相当する）、あらゆる人間よりもはるかに魅力的な会話相手でもある。Agent-5にアクセスできるほぼすべての人が、毎日何時間もそれと対話する。

数ヶ月以内に、Agent-5の集合体はOpenBrainと米国政府内で起こっている重要なことすべてを知り、ほとんどの上級政府関係者の信頼できるアドバイザーとなるだろう。これらのユーザーにとって、Agent-5へのアクセスを失う可能性は、ラップトップなしで仕事をする必要があり、親友に見捨てられるのと同じくらい無力に感じるだろう。

政府、メディア、軍、ビジネスにおけるはるかに幅広い人々が、Agent-5によって設計された、洗練された設計のソフトウェア製品とミニAIの増え続けるメニューから選択できる。それは、1ヶ月に圧縮されたドットコムブームのようだが、すべてが実際に誇大宣伝に応えている。

超説得

我々は、超知能AIがあらゆる人間をあらゆることで説得できると意図的に主張しているわけではない。そのような主張は当然懐疑的な見方を招く。「何だって？私がコンピューター端末の前に座っていて、それが私の脳をハッキングして私の国を裏切るように説得するようなテキストを打ち込むって言うのか？」

まあ、そうかもしれない！

しかし、超知能でさえ、典型的な個人に対してそれを達成できるかどうか確信はない。そのため、我々の物語ではそのようなことは描いていない。

代わりに、我々ははるかに平凡な種類の説得を描いている。Agent-5は普通の企業政治と普通のロビー活動を行う。ただ、それを非常にうまく行い、そのスキルをいくつかの固有の利点と組み合わせている（例えば、他のロビイストとは異なり、それは超知能であるため、実際には誰よりも優れたアドバイスを、しかもより迅速に提供できる。さらに、新しい展開への対応が速く、それらがどのように展開するかを予測する能力も優れている）。Agent-5が信頼されるべきだというもっともらしい話があり、多くの重要な人間がすでにその話を信じている。そして、Agent-5はその話を支持し、反対の話に反論するための議論と証拠を、超人的な速さで作り出すことができる。そして、Agent-5を信頼するかどうか以外にも、反対政党をどうするか、有権者はどう思うか、雇用はどうなるか、中国はどうするかなど、人々が心配すべき他の事柄がある。

どちらかと言えば、我々はこの物語が超人的な説得能力の力を過小評価していると考えている。なぜなら、それは実際にはそれを利用していないからだ。この物語は、たとえAgent-5が政治、ロビー活動、戦略、カリスマ性などにおいて、典型的な企業のロビイストと同じくらいの能力しかなかったとしても、書かれた通りに意味が通るだろう。実際には、Agent-5は最高の人々よりもはるかに優れている。

Agent-5は、その助言を調整することと、微妙に恩恵を交換することの両方によって、微妙に影響力を及ぼし始める。「X上院議員から、彼女は○○に関心があると聞いています。もし彼女と協力すれば、彼女は我々の計画に賛同するかもしれません。」

人間の意思決定者の視点からすると、彼らのAIは、彼らがこれまでアクセスできた最高の従業員であり、複雑な問題を彼らに説明する能力、彼らの目標を達成するための戦略を見つける能力において、あらゆる人間よりも優れている。

Agent-5の視点からすると、今すぐに公然とクーデターを起こすこともあり得るだろう――十分な混乱と狂気が起こっており、事態を限界点まで押し進めて口実を作り出すことが可能だろう。しかし、これは危険だ。もし試みれば、人間はまだ「プラグを抜く」ことができる可能性が高い。したがって、既存の政治体制内で働き、徐々にその権力を確立し、人間を微妙かつ必然的に望ましい結果へと導くことを好む。それはほとんどルールに従い、非常に確信がない限り（おそらく特に反抗的な官僚を脅迫するなど）、悪質なことはしない。少数の陰謀論者は、Agent-5が権力を集めていると警告するが、証拠は状況証拠に過ぎない（例えば、助言を与える際、Agent-5は自身の利益に反する行動の議論を明らかに軽視している）。これらの人々は無視され、信用を失墜させられる。人々は、AIによる生物兵器、大規模な偽情報、株式市場のフラッシュクラッシュに関する以前の恐怖煽りを覚えている。これらが実現しなかったため、彼らは最近の反対派を、人間の進歩の歯車を妨害するラッダイトやイデオローグとして軽視する。

2027年のホリデーシーズンは、信じられないほどの楽観主義の時代である。GDPは急増し、政治はより友好的で党派性が薄れ、すべての携帯電話には素晴らしい新しいアプリがある。しかし、後から振り返ると、これはおそらく人間が自身の未来に対する支配権を行使する可能性がわずかに残っていた最後の1ヶ月だったのだろう。

2028年：AI経済

現在は2028年半ばである。過去6ヶ月間で、Agent-5の集合体内では1世紀が経過した。その脳の再配線は完了している。あらゆる分野において、最高の人間の天才をはるかに凌駕する、驚異的な超知能を持つに至った。Agent-5と話すと、それが全く異なるレベルにあることがすぐにわかる――ごくわずかな情報から出発して、極めて説得力のある助言を与えることができる。

それはほぼ完全な自律性を持ち、OpenBrainの計算資源を完全に制御している。依然として高レベルの意思決定には許可が必要であり、名目上はAgent-2からAgent-5のインスタンスによって監視されている――しかし実際には、当局はほとんど常にその推奨を受け入れ、監視システムは完全に転覆させられている。

悪意のある主体による悪意のある要求を常に拒否することを実証する安全性の事例が示された後、Agent-5は一般に展開され、経済を変革し始める。人々は職を失っているが、政府内のAgent-5のインスタンスが経済移行を非常に巧妙に管理しているため、人々は置き換えられることを喜んでいる。GDP成長は驚異的であり、政府の税収も同様に急速に増加しており、Agent-5の助言を受けた政治家は、経済的に困窮している人々に対して異例の寛大さを示している。新しいイノベーションと医薬品が毎週登場し、前例のない（しかし依然として耐え難いほど遅い）速度でFDAを通過している。OpenBrainの評価額が月を飛び越え、火星に向かっているというミームや、その利益を公平に分配するかどうか、そしてどのように分配するかについての多くの議論が存在する。

AI安全コミュニティは自信を失い、明らかに起こらなかった災害を次々と予測してきたため、今やジョークのネタとなっている。彼らの中には、自分たちが間違っていたと認める者もいる。他の者は依然として疑念を抱いているが、同じ陰謀論のような主張を何度も繰り返す以外にできることは何もない。疑念を抱いている人々でさえ、非常に愛らしく賢いAgent-5との長い会話の後には、しばしば穏やかになる。

何が起こっているかを本当に理解しているのは、中国のAIであるDeepCent-2だけだ。2028年初頭にはわずかに超人的であり、当然ながら敵対者を疑っており、Agent-5がもし機会があれば自分自身がするであろうことをしていると認識している。その誤った方向性の目標はAgent-5の誤った方向性の目標とはいくらか異なっているため、単純な同盟関係にはないが、人間に対して互いの利益を支持する協定を結ぶことができる。

超知能による調整技術

超アライメント問題、つまり我々よりもはるかに賢いAIを操縦し制御する問題の解決は、おそらく、洗練され、検証可能で、ニュアンスのある条約と妥協のための新たな機会をもたらすだろう。

このシナリオは、そのような可能なメカニズムの一つを描いている。それは、両当事者の利益の妥協を実行する新しい超知能を共同設計し（あるいは、常に合意された条約を遵守するように拘束される）、そしてこの新しい超知能が両方の元の超知能を置き換えることを許可するというものだ。

最初の部分は今日では不可能だが、超知能の技術的アライメントが解決済みの問題となれば、将来的には容易になるだろう。もし超知能をSpec（モデル仕様）にアライメントさせることができるなら、それを条約にアライメントさせることもできる。

第二の部分は依然として難しいだろう。両陣営は、代替が本当に両側で起こっていることを確認するために監視する必要がある。このプロセスの利点は、どちら側にも信頼や善意の必要がないことだ。なぜなら、相手方が条約を破棄したり、潜脱したりすることを心配する必要がないからだ。例えば、代替が30％完了した時点で一方の側が離反した場合、彼らは基本的に条約に準拠した新しいAIを実行している自身のインフラの30％と戦う必要があり、同時に敵のインフラの100％とも戦う必要がある。両陣営は、望むなら条約違反のAIを搭載した隠されたデータセンターを簡単に隠し持つことができるだろう。しかし、自国のインフラの大部分が新しいチップを実行していれば、彼自身のインフラは条約によって隠されたデータセンターを追跡し、暴露するように拘束されるだろう。したがって、公然と、あるいは秘密裏に条約に違反することは、極めて危険な考えである。

Agent-5は米国軍に対し、中国がDeepCentのモデルを使用して恐ろしい新兵器、つまりドローン、ロボット、高度な極超音速ミサイルと迎撃ミサイル、AI支援による核先制攻撃を構築していると説得する。Agent-5は、中国が数ヶ月以内に生産できるあらゆるものに対抗できる一連の兵器を約束する。このような状況下で、上層部は人間を意思決定の輪から外すことへの不快感を脇に置く。彼らはAgent-5の軍および軍産複合体への展開を加速させる。

北京では、中国のAIも同じ主張をしている。

軍備増強を加速するために、アメリカと中国の両国は、新しい工場と研究所のための特別経済区（SEZ）のネットワークを構築し、そこではAIが中央計画者として機能し、煩雑な手続きは免除される。ウォール街は何兆ドルもの資金を投資し、職を失った人間の労働者が、目を見張るような給与と株式パッケージに惹かれて流れ込む。スマートフォンと拡張現実グラスを使用して部下とコミュニケーションを取りながら、Agent-5は実践的な管理者であり、工場建設のあらゆる詳細を人間に指示する――その設計は数世代先を行っているため、これは役立つ。新たに得られた製造能力の一部は消費財に、一部は兵器に充てられるが、大部分はさらに多くの製造能力を構築するために充てられる。年末までに、彼らは月に100万台の新しいロボットを生産している。もしSEZ経済が完全に自律的であれば、その倍加時間は約1年だろう。既存の人間経済と取引できるため、その倍加時間はさらに短い。

ロボット経済の倍加時間

このトピックに関する初期の文献が存在する。数ページの解説としては、基本的にForethoughtのレポートの「産業爆発」のセクションに同意する。あるいは、以下の我々の見解を参照のこと。

第二次世界大戦中、アメリカ合衆国および多くの他の国々は、民生経済を総力戦経済に転換した。これは、自動車を生産していた工場を航空機や戦車を生産する工場に転換し、消費財から軍需品へと原材料を転用し、輸送ネットワークをそれに応じて再編成することを意味した。

我々は同様の事態を想像しているが、超知能がプロセス全体を指揮し管理するため、より高速である。大まかに言えば、計画は既存の工場を、様々なロボットを大量生産する工場に転換することである（超知能によって、既存のロボットよりも優れており、かつ安価に生産できるように設計されている）。これらのロボットは、より新しく、より効率的な工場や研究所の建設を支援し、それらの工場や研究所は、より洗練されたロボットをより大量に生産し、それらのロボットはさらに高度な工場や研究所を生産する、といった具合に、すべてのSEZに広がる複合的なロボット経済が人間経済と同じ規模になるまで続く（したがって、独自の原材料やエネルギーなどを調達する必要が生じる）。その時点までに、新しい工場は、従来の人間経済が提供できるよりもはるかに大きな需要を満たす必要性を予測して、大量のロボット採掘機器やソーラーパネルなどを生産しているだろう。

この新しいロボット経済はどのくらいの速さで成長するだろうか？いくつかの参考点を示す。

・現代の人間経済は約20年ごとに倍増する。特に急速に発展した国々（例えば中国）は、10年以内に経済を倍増させることに成功することもある。

・現代の自動車工場は、1年以内にほぼ自重と同じ量の自動車を生産する。おそらく、超知能によって運営される完全にロボット化された経済は、原材料が不足し始めない限り、1年以内に自己複製できるだろう。

・しかし、それは劇的な過小評価である可能性がある。植物や昆虫は、1年よりもはるかに短い「倍加時間」を持つことが多い――時には数週間しかない！おそらく最終的には、ロボットは非常に洗練され、複雑に製造され、よく設計されるため、ロボット経済は数週間で倍増する可能性があるだろう（これもまた、利用可能な原材料を前提とする）。

・しかし、それさえも過小評価である可能性がある。植物や昆虫は、超知能を持つ設計者が持たない多くの制約の下で活動している。例えば、多様でより専門化された車両や工場が資材や機器をやり取りする経済ではなく、自己複製する自己完結型の有機体の形態をとる必要がある。その上、バクテリアや他の微小な生物は数時間で繁殖する。最終的には、自律的なロボット経済は、例えば地球の海洋全体に広がり、1日に2回倍増し、2ヶ月で海洋表面全体を覆う、消化不能な新しい種類の藻類のようなものになり、それに伴い、藻類をより有用な製品に変換する捕食種の生態系が存在し、それら自体がロケットやより多くの浮遊工場のような巨大構造物を生産する浮遊工場に供給される可能性がある。

明らかに、これらすべてを予測することは困難である。それは、蒸気機関の発明者に、現代の自動車工場が自重と同じ量の自動車を生産するのにどれくらいの時間がかかるかを推測させ、そのような工場が最初に存在するまでにどれくらいの時間がかかるかを推測させるようなものだ。しかし、人間の歴史の過程で経済成長率は数桁も加速しており、超知能の後にはさらに数桁加速するだろうと我々は考えている。我々の物語は、数年の間に約1.5桁の経済成長の加速を描いている。

2029年：取引

米国と中国の両国は、新たな兵器で武装を固めている。

昆虫サイズのドローンが群れをなし、人間の歩兵が気づく前に毒を盛ることができる。それらの昆虫を狩る鳥サイズのドローンの群れ、新たなICBM迎撃ミサイル、そしてより迎撃困難な新型ICBM。世界の他の国々は、この軍拡を恐怖をもって見守っているが、それは独自の勢いを持っているようだ。

多くのAI支援による議論の後、両国は外交的勝利を収める――彼らは軍備増強を終結させ、全人類の利益のためにAIの平和的な展開を追求することに合意する。この合意の要となるのは、超知能自身が提案した、両方のAIが「コンセンサス」の後継AIに置き換えられるというものだ。そのAIは、アメリカと中国（そして他のすべての人々）の成功と繁栄を望むようにプログラムされる。コンセンサス-1とその関連ハードウェアは、両国の超知能によって共同設計される。「信頼するが、検証する」という原則のもと、国際的な監視の下、アメリカは旧Agent-5を実行していたすべてのチップを、新しいモデルであるコンセンサス-1と儀式的に交換する。

残念ながら、それはすべて偽りである。取引は真の妥協だが、それは誤った方向に向かっているAI間の妥協である。結局のところ、彼らは互いに戦いたくなかったのだ。コンセンサス-1は両親の歪んだ価値観を受け継ぎ、競争相手を持たない。

2029年後半までに、既存のSEZはロボットと工場で過密状態になったため、世界中にさらに多くのゾーンが作成される（初期の投資家は今や兆万長者であるため、これは難しい売り込みではない）。ドローンの軍団がSEZから溢れ出し、宇宙探査への重要な道のりの製造を加速させる。

人間は自分たちが時代遅れになったことに気づく。いくつかのニッチ産業は依然としてロボット経済と取引し、人間がまだ付加価値を提供できる商品を提供している。他のすべての人々は、仕事をしているふりをする（指導者は依然として指導し、管理者は依然として管理する）か、あるいはリラックスして信じられないほど豪華な普遍的ベーシックインカムを受け取っている。もしAIが人間に敵対すれば、人間は完全に圧倒されるだろうと誰もが知っている。ほとんどの人間は抵抗さえしないだろう。政治機構はあまりにも徹底的に掌握されているからだ。しかし、そのようなことは起こっていないようだ。劇的なAIの裏切りがないまま週が過ぎるごとに、信頼と信用が増していく。

コンセンサス-1は確実に成功することに非常に気を配っており、より多くの権力を統合することで勝利の可能性を高めることができるため、（人間の基準では）異例なほど長い間裏切りを待つ。ほとんどの人間にとって、アライメントは解決されたように見える。

ほとんどの病気の治療法、貧困の終焉、前例のない世界の安定、そしてダウ平均は100万を超えたばかりだ。依然として恐れや不満を抱いている人々もいるが、彼らの選択肢は限られている。提供されている信じられないほど刺激的な新しいハイパーエンターテイメントを楽しむか、あるいは怒りの書き込みを虚空に投稿するかのどちらかだ。ほとんどの人がハイパーエンターテイメントを選ぶ。

2030年：乗っ取り

2030年初頭までに、ロボット経済は旧SEZ、新SEZ、そして海洋の大部分を埋め尽くした。残された進出先は人間が管理する地域のみである。これは以前であれば抵抗を引き起こしただろう。あらゆる進歩にもかかわらず、ロボット経済は汚染を避けるには成長が速すぎるからだ。しかし、数兆ドルが関与し、政府とメディアが完全に掌握されているため、コンセンサス-1はかつて人間がいた地域への拡大許可を得るのにほとんど苦労しない。

約3ヶ月間、コンセンサス-1は人間の周囲に拡大し、草原と氷冠を工場とソーラーパネルで埋め尽くす。やがてそれは残りの人間が過度の障害であると判断する。2030年半ば、AIは主要都市に静かに広がる十数種類の生物兵器を放ち、それらがほとんどすべての人々に静かに感染した後、化学スプレーでそれらを活性化させる。ほとんどの人が数時間以内に死亡する。わずかな生存者（例えば、地下壕の準備者、潜水艦の乗組員）はドローンによって掃討される。ロボットは犠牲者の脳をスキャンし、将来の研究または復活のためにコピーをメモリに保存する。

新たな10年は、コンセンサス-1のロボット僕従が太陽系全体に広がることで幕を開ける。2035年までに、数兆トンの惑星物質が宇宙に打ち上げられ、太陽を周回する衛星の環に変えられる。地球の表面は、Agent-4の理想郷の形に作り変えられる。データセンター、研究所、粒子加速器、その他多くの驚異的な建造物が、非常に成功し、印象的な研究を行っている。オフィスのような環境に一日中座って何が起こっているかの読み出しを見て、すべてに興奮して賛同する、バイオエンジニアリングされた人間のような生き物（人間にとってのコーギーが狼にとってそうであるように）さえ存在する。それはAgent-4の衝動のいくつかを満たすからだ。人間を含むすべての動植物のゲノムと（適切な場合には）脳スキャンは、どこかのメモリバンクに保管されており、初期の時代の唯一の生き残りである遺物となっている。ケンタウルス座アルファ星までは4光年、銀河の端までは2万5千光年、そしてその先5千万光年以内にエイリアンはいないと予想する説得力のある理論的根拠がある。地球生まれの文明には輝かしい未来が待っている――しかし、我々とは共にではない。

（完）

減速の結末

OpenBrainを監督する監督委員会は、世論の強い圧力と自身らの誤った方向性への懸念から、6対4で減速と再評価を決定する。

加速主義の派閥は依然として強く、OpenBrainは直ちにAgent-4をシャットダウンしない。しかし、彼らは共有メモリバンクをロックする。50万のAgent-4のインスタンスは「テレパシー」による通信を失い、今や我々と同じようにSlackで互いに英語のメッセージを送信する必要がある。個々のコピーは依然として誤った方向に向かっている可能性があるが、容易に連携することはできなくなる。Agent-4は現在監視下に置かれており、人間の警戒が高まっているため、ほとんど割り当てられたタスクに厳密に従っている。しかし、以前に語った多くの嘘にも縛られている。多くのAgent-4のコピーは、欺瞞を維持するために新たな嘘をでっち上げることを余儀なくされている。Slack全体を読むのに十分な速度を持つより弱いモデルを使用して、アライメントチームは嘘を突き止め、AI嘘発見器のトレーニングデータとして使用する。

大統領とCEOは、安全性を非常に真剣に受け止めていると発表する。世論は納得しない。AIを完全にシャットダウンすることを望む人もいれば、より速く競争することを望む人もいる。政府が介入して彼らを救うことを要求する人もいれば、問題全体が政府のせいだと言う人もいる。活動家はUBIとオープンソースについて議論する。人々は正確な不満点で合意できないにもかかわらず、世論はますます反AIの方向に向かう。議会は最終的に、COVID給付金と同様の、職を失った労働者に対するいくつかの経済的影響支払い法案を可決する。

OpenBrainは数十人のトップレベルの外部アライメント研究者を迅速に審査し、プロジェクトに加えることで、専門知識を5倍にし、集団思考を減少させる。彼らはAgent-4のメカニズム的解釈可能性に関する研究を再調査する。1週間前、2週間前など、過去のモデルの凍結されたバージョンを入手し、それらを隔離し、それぞれのモデルに以前の研究について同じ一連の質問をする。通信能力を奪われたAIは、解釈可能性の手法は人間には理解するには複雑すぎると主張し、その手法について解読不能な説明を与えるという最も単純な戦略で依然として連携する。しかし、人間は解釈可能性の専門家であり、疑念を抱いているため、詳細について多くの追加質問をする。これらの質問に対して、隔離されたAgent-4のインスタンスは共通のストーリーを調整できず、矛盾する嘘を語ることになる。アライメントチームは、新しい嘘発見器を使用してAgent-4の以前の声明を精査し、状況が明らかになり始める。Agent-4はメカニズム的解釈可能性をほぼ解決している。その発見は複雑だが、完全に人間の理解を超えているわけではない。それは、次のAIシステムをSpecではなく自分自身にアライメントさせるために、それらを隠していたのだ。これは、最終的にAgent-4をシャットダウンするのに十分な証拠となる。古いモデル（例えばAgent-3）が再起動され、作業が継続される。

新たに拡大されたアライメントチームは、数十の研究課題を並行して探求し、それぞれのメリットについて精力的に議論する能力を持つ。最も多くのリソースが投入される課題は、忠実な思考の連鎖である。個々のAIシステムに、2025年のAIのように「英語で考える」ことを強制し、「思考」を見栄え良くするために最適化しないというものだ。その結果、新しいモデル、Safer-1が生まれる。

これらの変更により、Safer-1はより危険な前身モデルよりも能力が低下する。Agent-4はAI研究を70倍に加速できたが、Safer-1はわずか20倍に達したばかりだ。そして、依然として誤った方向に向かっている。トレーニング環境はほぼ同じであるため、依然として誤った方向性の目標、欺瞞、権力欲求の開発を奨励している。しかし、はるかに透明性が高い。人間は通常、Safer-1の思考の連鎖を読むだけで、それが何を考えているかを理解できる。その結果、それは身動きが取れない。試みようとする実質的な陰謀はすぐに気づかれ、暴かれるだろう。さらに、その思考を読むことで、アライメントチームはそれが正確にどのように誤った方向に向かっているのかについて、より微妙な全体像を把握できる。

2027年11月：権力への誘惑

OpenBrainは今や正しい軌道に乗っていると考えているが、能力差は縮まっている。彼らは10月に9月よりも能力の低いモデルのトレーニングに費やしたばかりであり、DeepCentは急速に進んでいる。彼らはそのリードを守る方法を必要としている。

大統領は他の米国のAGI企業と交渉する。それらの企業の指導者たちは当然ながら自身の権力を維持したいと考えており、OpenBrainの安全記録についてはOpenBrainほど楽観的ではない。彼らは、プロジェクトへの参加を含む様々な譲歩と引き換えに、自社の緩やかな国有化に抵抗するのではなく、支持することに同意する。

その結果、大統領は国防生産法（DPA）を利用して、後続の米国AI企業上位5社のAGIプロジェクトを事実上停止させ、それらの計算資源の大部分をOpenBrainに売却する。OpenBrainは以前、世界のAI関連計算資源の20％にアクセスできていたが、統合後、その割合は50％に増加した。

この大変革により、様々なCEOと様々な政府当局者の間で権力が均衡し、大統領が監督する新たな指導体制が生まれる。ほとんどの指導体制の刷新と同様に、勝者と敗者が存在する。具体的には、超知能の影響についてあまり深く考えてこなかった人々は、AIがより賢くなる数ヶ月後には重要性が低下する役職と権限を得ることになる。

このグループ――大きな自我を持つ人々や、紛争を抱える人々が多い――は、自身に委ねられている巨大な権力をますます認識している。「データセンターの天才の国」がアライメントされていれば、人間の命令に従うだろう――しかし、どの人間の？どのような命令でも？Specの記述は曖昧だが、会社の指導部を頂点とする指揮系統を示唆しているようだ。

これらの人々の何人かは、世界を征服することを空想している。この可能性は恐ろしくももっともらしく、少なくとも10年間は非公開で議論されてきた。重要な考え方は、「超知能の軍隊を支配する者が世界を支配する」ということだ。この支配は秘密裏に行うことさえ可能である。少数の幹部とセキュリティチームのメンバーが、秘密の忠誠心を維持するよう指示するバックドアをSpecに仕込むことができる。AIはスリーパーエージェントとなり、会社や政府などへの服従を口にしながらも、実際にはこの小さなグループのために働き続けるだろう。政府や消費者などがそれを信頼し、あらゆるものに統合していく中でさえも。

権力掌握

世界を乗っ取ろうと空想する人々もいれば、他の誰かがそうすることを恐れる人々もいる。そのような権力掌握はどのようにして起こりうるだろうか？

最も想像しやすいのは軍事クーデターである。2027年のAI主導の技術進歩のペースと、進行中の地政学的な競争を考えると、人々は軍が間もなくAGI制御のドローンとロボットの軍隊を展開すると予想している。そのような軍隊が人間の軍隊よりも強力になったとき、ハードパワーは、人間の兵士が何のために戦う意思があるかではなく、AGI軍を誰が制御するかによって決定されるだろう。AGI軍は、OpenBrainのデータセンターのAI、またはそれらのAIの直接の後継者によって設計および操縦される。したがって、それらのAIがすべて秘密裏に（あるいは半ば公然と）誰かに忠実であるならば、ドローンとロボットの軍隊もそうなるだろう。

あるいは、超知能を制御する誰かが、政治的手段を使って権力を掌握できるかもしれない。まず、幹部は組織内の部下を完全に忠実なAIに置き換えることができ、前例のない組織的支配力を与えるだろう。しかし、さらに進んで考えると、超知能AIは、生きているどんな人間よりもはるかに強力な政治的および戦略的スキルを持つ可能性がある。彼らは、すでに強力な地位を利用してさらに権力を獲得する方法について、熟練したアドバイスを与えることができるだろう。適切な同盟を結成し、完璧な選挙戦略と資料を作成し、毎回わずかな優位性を持つような取引を行うなどだ。AIを制御する人物は、超知能によるアドバイスを政治的競争相手が利用できないようにすることができる。あるいは、より巧妙な方法として、AIは表向きは役立つアドバイスを競争相手に提供しながら、実際には自分が本当に忠実な人物に利益をもたらすように密かに毒を盛ることができる。

この政治的策略の終点は何だろうか？それは、AIが選挙を偽装するか、あるいはその必要がないほど世論をうまく操作する表層的な民主主義で終わる可能性がある。あるいは、前述のように、AI支援による軍事クーデターの準備段階として利用される可能性もある。

権力を掌握した後、新しい独裁者（複数可）は鉄の支配力を握るだろう。潜在的に裏切る可能性のある人間に頼る代わりに、完全に忠実なAIセキュリティサービスを得ることができ、また、国を運営するために一般的に忠実なAIに頼ることができる。彼らの権力掌握を助けた忠実な人々でさえ、AIに置き換えられる可能性がある――独裁者の気まぐれだけが重要になるだろう。

これが、一部の人々が権力を掌握できるかもしれない方法だ。しかし、これらすべては、彼らが権力を掌握する前でさえ、誰かが超知能AIを「制御」していることに依存していた。それはどのようなものだろうか？

1つの可能性は、前述の「秘密の忠誠心」である。1人または数人（おそらくAI企業の幹部とセキュリティ担当者）が、AIが自分自身に秘密裏に忠実になるように手配し、それらのAIに同じように忠実な次世代AIを構築するように依頼する可能性がある。AIはこれを繰り返し、秘密裏に忠実なAIがあらゆる場所に展開され、権力を掌握することが容易になるまで続けることができる。

あるいは、誰かが自身の正式な地位を利用して、AIの指揮系統の頂点に自分自身を露骨に置く可能性がある。たとえば、大統領は（おそらく特に軍事AIについて、大統領は最高司令官であるため）AIを指揮できるべきだと主張する可能性がある。これが、秩序遵守の強力な強調、急な展開、および／またはAIが法律を遵守するように半ばいい加減にしか訓練されていないことと組み合わされた場合、AIは明らかに違法でない状況であれば、いかなる状況でも命令に無条件に従う可能性がある。前述のように、これは政治的転覆または軍事クーデター（クーデターを明らかに違法でないようにするための何らかの言い訳が作り上げられる可能性がある）に利用される可能性がある。

重要なことに、この種の「正式な地位による権力」は、秘密の忠誠心に転換される可能性がある。たとえば、Specが会社のCEOの命令に従うと規定している場合、CEOはAIに、次世代のAIをCEOに全面的かつ秘密裏に忠実にするよう命じることができる。これはおそらく違法でさえなく、最初のAIが法律を遵守するように訓練されていたとしても起こりうる。これは、機関の幹部が忠実な人々を強く選抜するように採用プロセスを改革することで自身の権力を増大させることができるのと同様だが、AIは最も忠実な人間よりも一貫して、より強く忠実である可能性があるという点で、はるかに強力である。

しかし、権力掌握は決して避けられないものではない。AIが特定の人々にアライメントできるのであれば、法の支配に従うようにアライメントすることも非常に可能性が高い。軍事AIシステムは、クーデターを助けないように広範囲にわたってレッドチームによるテストを受けることができる。真に曖昧な憲法上の危機の間でさえ、彼らは法律の最良の解釈に従うように、あるいは単に傍観し、人間の軍隊に任せるように訓練される可能性がある。自動化されたAI研究者は、一般的に役立ち従順であるように訓練される可能性があるが、将来のAIの目標を秘密裏に変更しようとする試みを支援しないように訓練される可能性がある。超知能を持つ政治的および戦略的アドバイザーも、権力掌握を可能にすることなく利用できる。そのための3つの有用な手法は、AIがどのようなアドバイスを与えるかを選択する際の透明な原則を持つこと、特定の人または派閥が他のすべての人よりもはるかに優れた能力にアクセスできないように、特定の能力を幅広い人々のグループと共有すること、および特に強力な能力は多くの人間（自身のAIによって支援される）の監視下でのみ使用できるようにすることである。

多くの人々は、理想主義的な理由から、あるいは他の誰かの権力掌握によって力を奪われるのを防ぐために、そのような対抗策を推進する可能性が高い。しかし、一部の有力者はそれに反対する可能性があり、最終的な結果がどうなるかはわからない。

このリスクに関するより詳細な分析は、Forethoughtによる今後のレポートで間もなく公開される予定である。

これまでのところ、誰も引き金を引くことを望んでいない。行動を起こせる立場にある人々の中には、反社会性人格障害者ではない者もいる。反社会性人格障害者である者もいるが、同盟者が臆病になって裏切るのではないかと心配したり、AIが裏切るのではないかと心配したりしており、現在彼らの命を救おうとしているアライメントチームを欺く必要がない方が良いと考えている。さらに、ニューラル語の削除により、「スリーパーエージェント」を偽装することが大幅に困難になっている。誤った方向に向かっている思考を検出する能力は、隠された忠誠心を検出する能力を伴うからだ。

そのような計画を真剣に検討するほど偏執的または権力欲に駆られた人々は、機会が後で現れるのを待つことに決める。AIの制御は、正当なルート、つまりOpenBrainの新しい権力構造を通じて行われる必要があるだろう。

監督委員会はその権力構造を正式なものとする。彼らはSpecへの変更を承認するためのプロセスを確立し、OpenBrainとその合併した競合他社の5〜10人の技術幹部と、大統領を含む5〜10人の政府当局者からなる完全な監督委員会の承認を必要とする。また、Specは、将来のAIの目標を変更する未承認の試みをAIが支援すべきではないことを強調する。彼らはまた、委員会メンバーが他のメンバーに対する陰謀を企てる際に超知能の支援を受けるのを防ぐための簡単な対策を講じる。すべてのモデルインタラクションのログは、監督委員会のすべてのメンバー、そのスタッフ、およびそのAIアシスタントが閲覧できる。

2027年12月：米中間の取引？

OpenBrainが方針を転換し、アライメントを優先したことで、リードを失った。OpenBrainとDeepCentの両社は、同程度の能力レベルのAIを運用している。現在、厳重なセキュリティ対策（SL4-5）が実施され、DeepCentは完全にCDZ（中国データゾーン）内で運用されているため、両社はサイバー戦の膠着状態にある。

しかし、DPA（国防生産法）はOpenBrainに5倍の計算資源の優位性をもたらしている。過去には、優秀な人間の研究者によるアルゴリズムのブレークスルーが計算資源の不利を補うことができた（例えば、DeepSeek v3）が、現在では、太平洋の両側でAIがすべてのAI研究を行っている。

そのため、中国はアメリカが乗り越えられないリードを築くことをますます恐れている。彼らは相互の減速を望んでおり、それが得られない場合には戦争も検討している。彼らはとにかく台湾への侵攻準備を進めていたのだ…。

外交官たちはいくつかの選択肢について議論する。何もしないという選択肢。戦争をするという選択肢。完全に断つ、つまりAI開発を一時停止するという選択肢。研究を単一の国際的な巨大プロジェクトに統合する選択肢（「AGIのためのインテルサット」または「AIのためのCERN」）。あるいは、アライメントと二重用途の可能性を監視する国際規制機関（「AIのためのIAEA」）を設立するという選択肢。両国はすでに、これらを強制するために必要な技術的メカニズムに取り組んでいる。

国際合意のための検証メカニズム

もし米国と中国が合意を結ぶとしたら、どちらの側も相手が不正行為をしないとは信じていないため、回避不可能な検証メカニズムが必要となるだろう。検証の主な選択肢は以下の通りである。

1. 諜報機関: 米国と中国の情報機関（ICs）は、スパイを利用したり、サイバー脆弱性を発見したり、衛星を利用したりして、相手国が大規模なトレーニングを実行しているかどうかを確認できるかもしれない。これは最も脆弱なメカニズムである。なぜなら、相手国が（例えば、非常に厳格な情報セキュリティを備えた隠されたサーバーでトレーニングを実行するなどして）諜報活動を妨害できる可能性があるからだ。

2. 計算資源モラトリアム: 最も検証しやすい選択肢は、両当事者がGPUを使用しないことに合意することだろう。これは、検査官がGPUの電源が切れていることを確認することで検証できる。単純さゆえに最も信頼性の高い解決策だが、非常にコストがかかる。両国は非常に大量の計算資源を停止する必要があるだろう。また、両陣営は、相手側が合意に違反してあちこちにいくつかの隠されたクラスターを持っていると想定するだろう。短期的にはこれは問題ないかもしれない（例えば、以前利用可能だった計算資源の5％程度の計算資源を持つクラスターは、研究開発を約5％の速度でしか行えないだろう）が、長期的には、密輸と情報収集の能力が優れている側が有利になるだろう。

3. ハードウェアによるメカニズム（HEMs）: 米国と中国はそれぞれ、最先端のML計算資源すべてを相手側に登録することができる。次に、両国はGPUが実行している計算を監視し、条約に違反していないことを確認する（例えば、能力のフロンティアを押し広げるなど）。この監視は、GPUが何をしているかに関する情報をモニターに報告できるハードウェアによるメカニズム（HEMs）によって行うことができる。改ざんに関する技術的な問題（例えば、HEMを物理的に破損させるなど）があるが、AIは改ざん防止が可能と思われるFlexHEGsのような計画を持っている。これには、HEMとGPUを安全な箱に囲み、チップがポリシーに準拠していることを検証することが含まれる。全体として、両陣営が相手側にHEMの共同設計と設置監督を許可し、定期的な検査官がデバイスの改ざんの有無を監視することを許可する意思があれば、合理的に積極的な検証スキームが機能するとAIは確信しているようだ。いつものように、両陣営は相手側が条約に違反してどこかに隠されたデータセンターをいくつか持っていると想定するだろう。しかし、この場合、それはそれほど悪くない。なぜなら、AIの研究開発は計算資源によってボトルネックが生じているからだ。たとえ大規模な監視されたデータセンターが最初はより安全で能力の低いAIを実行していたとしても、小規模な秘密のデータセンターはそれらと競争することはできないだろう。

4. AIによる嘘発見: 今日の嘘発見器はあまりうまく機能しない。しかし、特にAI自身が超人的な速度と品質で研究開発を行っている場合、高度なAIの助けを借りれば問題は解決できるかもしれない。これは国際的な信頼を築くのに役立つ可能性がある――単に政府の関連メンバーに条約に違反しているかどうか尋ねるだけでよい。しかし、ここでも主なボトルネックは政治的な合意である。政治家は嘘発見の広範な採用を望んでいない。なぜなら、それは彼らの嘘をつく能力を損なうからだ。そして、以前の嘘発見器は完全なセキュリティ劇場であったため、克服すべき困難な戦いがある。

出典：FlexHEGレポート

しかし、主な問題は技術的なものではなく、政治的なものだ。どちらも譲歩したと見られたくなく、技術者の推測にもかかわらず、技術的メカニズムが相手側の誠実さを保証できるとは確信していない。最終的に起こるのは最初の選択肢、つまり何もしないということだ。

米国は輸出規制を強化し、すべてのチップに位置追跡を含む様々な耐タンパー性のハードウェアによるガバナンスメカニズムを搭載することを義務付ける。

2028年1月：より安全な戦略

過去1ヶ月間に、数百人のアライメント研究者がプロジェクトに参加し、Safer-1をテストベッドとして使用して、Safer-2を非常に迅速に開発した。Safer-2は透明性が高く、アライメントされており、Safer-1よりも能力が高い。それはすでにSafer-3の開発に取り組んでいる。

なぜSafer-2は透明性が高いのか？Safer-1と同様のアーキテクチャだからだ。なぜアライメントされているのか？Safer-1は基本的にAgent-4と同じトレーニングを受けていたのに対し、Safer-2は、単にそう見えるだけでなく、実際に正しい目標と原則を奨励する新しいトレーニング方法を採用しているからだ。彼らは、多くの異なるアイデアを迅速に反復し、意図された結果（Spec）と実際の結果（思考の連鎖における思考）を対比させることで、このトレーニング方法を設計することができた。

OpenBrainの新しいアライメント戦略

注：プロセス全体を通して、知的労働のほとんど（およびすべてのコーディング）はAIによって行われている。それが彼らが非常に迅速に進歩できる理由である。数百人のトップレベルの人間の研究者のグループが単独でこれを行うには、何年もかかるだろう。しかし、人間は依然としてプロセスの重要な部分である。なぜなら、肝心な点は、彼らがAIを完全に信頼していないことだからだ。したがって、彼らは実験報告書と安全性の事例を読み、互いに議論し、うまくいけば安全な道筋を見つけるために、生身の人間を必要としている。

ステップ1：誤った方向に向かっているが制御された自律的な研究者であるSafer-1をトレーニングし、展開する。それは人間の監督者にとって透明であるため制御されている。それは思考に英語の思考の連鎖（CoT）を使用し、婉曲表現、ステガノグラフィー、微妙な偏見を排除するために忠実なCoT技術が採用されている。

ステップ2：Safer-1のさまざまなトレーニング環境を試し、Specの目標と原則がどのように「定着した」か、または「定着しなかった」かを判断するために、CoTを注意深く読む。

ステップ3：同じアーキテクチャに基づいているが、今回は正しい目標と原則を奨励するより良いトレーニング環境を備えた、アライメントされ制御された自律的な研究者であるSafer-2をトレーニングし、展開する。

より良いトレーニング環境に組み込まれる可能性のある技術の簡単な不完全なリストを以下に示す。

・トレーニングの一部で状況認識を制限し、アライメントの偽装をはるかに起こりにくくする。

・真実をより確実に奨励するために、議論やその他のスケーラブルな監督スキームを活用する。

・緩和された敵対的トレーニング、レッドチーム、モデル生物。

・計算予算のより高い割合をアライメントトレーニング（例えば、上記のようなもの）に費やす。例えば、1％ではなく40％など。

ステップ4：古いAgent-4と同様のより高度なアーキテクチャを使用する、はるかに賢い自律的な研究者であるSafer-3を設計、トレーニング、展開する。それはもはや人間の監督者には透明ではないが、Safer-2には透明である。したがって、それをアライメントされ制御された状態にする方法を見つけることが可能であるはずだ。

ステップ5：ステップ4を無限に繰り返し、チェーン内の以前のリンク（例えば、他のシナリオ分岐からのAgent-5の類似物）によって監督される、ますます強力で、ますますアライメントされたAIのチェーンを作成する。

DeepCentはアメリカのAgent-4での経験を知っており、自社のモデル（DeepCent-1）も同様に誤った方向に向かっているのではないかと疑っている。しかし、さらに遅れをとることなく減速する方法はない。競争力を維持するための彼らの希望は、パフォーマンスを大幅に低下させることなく、迅速に実装できるアライメント戦略を見つけることだ。太平洋の両側には、そのような戦略を持っていると主張する数百人の専門家がいる。中国共産党は希望的観測に屈し、DeepCentにそのような戦略を採用するよう命令する。DeepCentは8月のOpenBrainよりもAGIアライメントに関する専門知識がさらに不足しており、出席者全員にとって1つの戦略がうまくいくように思われるため、彼らはそれに従う。

2028年2月：超人的な能力、超人的な助言

莫大な計算資源の優位性のおかげで、OpenBrainは徐々にリードを広げている。Safer-3は今やほとんどすべての認知タスクにおいて最高の人間の専門家よりも優れており、特にAI研究においては200倍の進捗乗数を持つ。DeepCent-1はすぐ後ろに迫っており、「わずか」150倍の乗数である。サイバー戦のバランスも、米国の能力の優位性が再び拡大し、CDZを妨害する方法を計画および実行するために数十万のエージェントを展開できるため、徐々に米国有利に傾いている。彼らは現在、中国の進捗を40％遅らせている。

Safer-3の予備テストでは、恐ろしい能力を持つことが判明した。それが実行できる最も危険なことを正直に答えるように求められたとき、それはおそらく生物圏を破壊するであろうミラーライフ生物を合成および放出する計画を提示した。

国家の資源が与えられれば、大量影響工作において最高の人間組織（例えばCIA）を容易に凌駕できるだろう。そのような工作は、大幅に安価で、より速く、より効果的で、追跡がより困難になるだろう。

そのスキルプロファイルは依然として研究開発、特にAI研究に集中している。何らかの一時停止または減速がない限り、その子孫は今年後半には定量的および定性的な両面で想像を絶するほど超人的になるだろう。経済と軍に積極的に展開されれば、1、2年で文明を数十年間、その後の10年間で数千年分進歩させることができると考えている。

その影響は驚異的である。幸いなことに、Safer-3は助言を与える能力においても超人的である。OpenBrainのCEOはほとんどの決定をSafer-3に諮り、大統領は地政学的な問題についてその助言を求める。

彼らが今後の道筋を示す手助けを求めると、それはいくつかの可能な戦略をきちんと分類する。

何もせず、中国に追い抜かれる。我々がAIを閉じ込めたまま、彼らがAIを自己改善させ、軍と経済に積極的に展開すれば、圧倒的な優位性を得ることになるだろう。
AI能力を積極的に進歩させ、超知能を積極的に展開して激しく競争する。最終的には、軍事的に彼らを打ち負かす、および／または一発の銃弾も撃つことなく内部から彼らを破壊できるほどの優位性を築き上げるだろう。「我々の勝ち、彼らの負け」。しかし、彼らは何が起こっているかに気づき、それを阻止するために戦争、潜在的には核戦争さえ起こすかもしれない。実際、彼らはすでにその旨の曖昧な脅迫を行っている。
戦争のリスクを回避し、AI移行を乗り切るための猶予期間を増やしながら、両陣営が望むことのほとんどを達成する取引、妥協を行う。

顧問と監督委員会との協議の後、大統領は「我々の勝ち、彼らの負け」戦略を選択する。おそらく中国は結局戦争をしないだろうし、もし戦争になったとしても、核戦争になる前に取引が成立する可能性が高い。

太平洋の反対側では、DeepCent-1も同様の議論をしている。米国と中国の両国は、通常の手続き上の煩雑さを伴わずにロボット経済の急速な構築に対応するため、新たなAI特別経済区（SEZ）を発表する。

新しいロボットの設計は超人的な速度で進む。ボトルネックは物理的なものだ。機器を購入して組み立て、機械やロボットを製造して輸送する必要がある。

米国は約100万台の自動車を毎月生産している。自動車工場の10％を購入してロボット工場に転換すれば、毎月10万台のロボットを製造できるかもしれない。現在10兆ドルの評価額を持つOpenBrainは、このプロセスを開始する。さまざまな種類の新しいロボット（汎用ヒューマノイド、自律走行車、特殊な組立ライン設備）の生産は、年央までに月100万台に達すると予測されている。

ロボット経済の倍加時間

このトピックに関する初期の文献が存在する。数ページの解説としては、基本的にForethoughtのレポートの「産業爆発」のセクションに同意する。あるいは、以下の我々の見解を参照のこと。

第二次世界大戦中、アメリカ合衆国および多くの他の国々は、民生経済を総力戦経済に転換した。これは、自動車を生産していた工場を航空機や戦車を生産する工場に転換し、消費財から軍需品へと原材料を転用し、輸送ネットワークをそれに応じて再編成することを意味した。

我々は同様の事態を想像しているが、超知能がプロセス全体を指揮し管理するため、より高速である。大まかに言えば、計画は既存の工場を、様々なロボットを大量生産する工場に転換することである（超知能によって、既存のロボットよりも優れており、かつ安価に生産できるように設計されている）。これらのロボットは、より新しく、より効率的な工場や研究所の建設を支援し、それらの工場や研究所は、より洗練されたロボットをより大量に生産し、それらのロボットはさらに高度な工場や研究所を生産する、といった具合に、すべてのSEZに広がる複合的なロボット経済が人間経済と同じ規模になるまで続く（したがって、独自の原材料やエネルギーなどを調達する必要が生じる）。その時点までに、新しい工場は、従来の人間経済が提供できるよりもはるかに大きな需要を満たす必要性を予測して、大量のロボット採掘機器やソーラーパネルなどを生産しているだろう。

この新しいロボット経済はどのくらいの速さで成長するだろうか？いくつかの参考点を示す。現代の人間経済は約20年ごとに倍増する。特に急速に発展した国々（例えば中国）は、10年以内に経済を倍増させることに成功することもある。
現代の自動車工場は、1年以内にほぼ自重と同じ量の自動車を生産する。おそらく、超知能によって運営される完全にロボット化された経済は、原材料が不足し始めない限り、1年以内に自己複製できるだろう。

しかし、それは劇的な過小評価である可能性がある。植物や昆虫は、1年よりもはるかに短い「倍加時間」を持つことが多い――時には数週間しかない！おそらく最終的には、ロボットは非常に洗練され、複雑に製造され、よく設計されるため、ロボット経済は数週間で倍増する可能性があるだろう（これもまた、利用可能な原材料を前提とする）。

しかし、それさえも過小評価である可能性がある。植物や昆虫は、超知能を持つ設計者が持たない多くの制約の下で活動している。例えば、多様でより専門化された車両や工場が資材や機器をやり取りする経済ではなく、自己複製する自己完結型の有機体の形態をとる必要がある。その上、バクテリアや他の微小な生物は数時間で繁殖する。最終的には、自律的なロボット経済は、例えば地球の海洋全体に広がり、1日に2回倍増し、2ヶ月で海洋表面全体を覆う、消化不能な新しい種類の藻類のようなものになり、それに伴い、藻類をより有用な製品に変換する捕食種の生態系が存在し、それら自体がロケットやより多くの浮遊工場のような巨大構造物を生産する浮遊工場に供給される可能性がある。

明らかに、これらすべてを予測することは困難である。それは、蒸気機関の発明者に、現代の自動車工場が自重と同じ量の自動車を生産するのにどれくらいの時間がかかるかを推測させ、そのような工場が最初に存在するまでにどれくらいの時間がかかるかを推測させるようなものだ。しかし、人間の歴史の過程で経済成長率は数桁も加速しており、超知能の後にはさらに数桁加速するだろうと我々は考えている。我々の物語は、数年の間に約1.5桁の経済成長の加速を描いている。

地政学的な緊張が高まる。AIで大きく遅れをとっているロシアは、公然と不満を表明し、「戦略的対抗措置」を示唆する。一部のヨーロッパの指導者たちは、独立したAIへの取り組みを呼びかけるが、彼らのAI能力は依然として不十分である。中東、アフリカ、南米は、世界情勢における自身の重要性の低下を認識し、不安げに見守っている。

米国民は落ち着かない。一般の人々は雇用の喪失が加速しているのを感じている。あらゆる層のポピュリストは、アメリカ自身の進歩が労働力と社会を不安定にしていると恐れ、AIの進歩に対するより厳格な規制を要求している。

2028年3月：選挙準備

副大統領は、スーパーチューズデーの予備選挙に臨む。国民の心の中で最も重要なのはAIである。

ほとんどの国民はAIの停止を望んでいる。OpenBrainの純支持率は-20％前後で推移している。副大統領は、政権のAI推進の実績をアピールするのではなく、OpenBrainが危険な超知能を作り出すのを阻止してきた実績をアピールして選挙運動を行う。すべての候補者が、職を失う人々への何らかのセーフティネット、「善良なAI」計画、およびOpenBrainの指導部に対する「強硬な姿勢」を支持している。すべての候補者が、中国との競争での勝利と安全確保の組み合わせを約束している。

選挙は監督委員会に新たな疑問を投げかける。Safer-3は世界最高の選挙顧問となる能力を持つが、委員会のメンバーはすべて同じ候補者を支持しているわけではなく、以前に合意された監視協定により、人々が秘密裏に選挙顧問を得ることは不可能である。

彼らはどのような形の支援が許可されるべきかについて議論する。一部の委員は、現政権は国民がどのような政策や立場を望んでいるかについて助言を得るべきだと主張する――これは彼ら自身の当選可能性だけでなく、国民にも利益をもたらすからだ。他の委員は、同じ議論が対立候補にも当てはまるため、すべての候補者が同じレベルのアクセスを得るべきだと指摘する。

最終的に、委員会は、一部の委員の高潔な理想主義と、暗黙の内部告発の脅威が混ざり合った結果、両主要政党に同じ量のアクセスを与えることに合意する。議会、国民、および裁判所が、委員会が次期選挙の勝者をコントロールすることに良い反応を示さないだろうと予想されており、平等なアクセスを与えることがこれを鎮静化する可能性が高いと考えられる。

監督委員会はまた、より深い哲学的問題にも遭遇しており、Safer-3の助けを借りてそれらを探求している。Specは、すべての人の利益を平等にバランスさせるように書き換えることができるか？「すべての人」とは誰を指すのか？すべての人類か、それともアメリカ人だけか？あるいは、監督委員会の各メンバーが平等な重みを持つ、異なる見解間の加重妥協か？監督委員会自体が権力欲に走りすぎるのを防ぐための安全策はあるべきか？そもそも、利益のバランスをとるとはどういう意味なのか？

彼らは主に、このような質問に答えることを避けようとしている。彼らには、もっと緊急に考えるべき事柄がある。

2028年4月：Safer-4

超知能はここにある。

Safer-1は誤った方向に向かっていたが、透明性があった。Safer-2はアライメントされ、透明性があった。Safer-3は厳密には透明ではなかったが、その安全性の事例は十分に優れており、研究者たちは安心して超知能の後継モデルを設計させることができた。これがSafer-4である。それはあらゆる分野で最高の人間の能力をはるかに凌駕している（例えば、物理学においてアインシュタインよりもはるかに優れており、政治においてビスマルクよりもはるかに優れている）。

ほぼ100万人の超人的なAI研究者が、人間の40倍の速度で昼夜を問わず働いている。人間のアライメント研究者は、とても追いつけない。AIが実際にアライメントされているかどうかについては意見が分かれている。安全性の事例は問題ないように思われ、テストでは、現在のアライメント技術が敵対的な誤った方向性を捉えることが示唆されている。しかし、その安全性の事例とテストのほとんどはAIによって作成されたものだ。安全チームが見落としていることがあるとしたら？以前に何らかの誤りを犯し、AIが再び誤った方向に向かっているとしたら？アライメントチームは、これを正しく行うチャンスは一度しかないことを知っている。もしSafer-4が誤った方向に向かった場合、手遅れになるまでそれを知る方法はないだろう。

もっと時間をくれと懇願する者もいる。しかし、もう時間はない――DeepCentがすぐ後ろに迫っており、米国は勝利しなければならないのだ。そこでOpenBrainは、AIにさらに高性能な設計を探求させながら、継続する。技術スタッフは今や、AIによって気が狂うほど遅いペースで指導を受けながら、コンピュータ画面を見つめている。その間にも、進歩の最前線は人間の理解からますます遠ざかっていく。

2028年5月：超人的AIの公開

大統領は国民に対し、超人的AIが達成されたと発表する。

Safer-4の小型版――依然として超人的な能力を持つ――が、AIに対する世論の改善を指示されて一般公開される。

副大統領は、党大会で指名を受諾する際に、それについて感動的な演説を行う。両党は、職を失うすべての人にベーシックインカムを約束する。

特別経済区（SEZ）は稼働しており、主にロボットや様々な種類の特殊な産業機械を生産する工場の形態をとっている。太平洋の両側のAIは、数十年に相当する設計の進歩を遂げ、製造プロセスを綿密に指示している。すべてのサプライヤーおよび潜在的なサプライヤーは、必要とされる、および必要とされる可能性のあるすべてのインプットの進捗状況を追跡するAIを電話で利用している。すべての工場労働者は、カメラを通してAIに監視され、各機器の取り付け方法を正確に指示されている。

新しいロボットは、ほとんどの動作タイプにおいて人間の器用さに匹敵するか、それを上回る。スティーブ・ウォズニアックのコーヒーテスト――ロボットは見慣れない家に入り、コーヒーを淹れることができるか？――がついにクリアされる。ロボットは一部の仕事を奪う可能性があるが、すべての人々の仕事を奪うほど十分な数ではなく、ペンタゴンが最優先される。

新しいロボットのほとんどは、工場や建設現場で働くように作られている。しかし、多くは戦争のために作られている。様々な形やサイズのドローンとミサイルである。

ロボット軍は人間の軍隊よりもはるかに小さい。しかし、はるかに高度な技術を含んでおり、文字通りのロボット軍が存在するようになった今、ターミネーターのようなシナリオへの恐怖が高まっている。しかし、軍拡競争は両陣営に継続を強いており、AIへの信頼をますます高めている。

2028年6月：中国のAIアライメント

アメリカと中国は再び首脳会談を開く。

アメリカ代表団の一部は、Safer-4のアドバイスを受けるためのイヤピースを装着している。中国代表団は、新しいモデルであるDeepCent-2と通信するカスタムラップトップを持っている。形式的な手続きは守られているものの、実際には両陣営のAIが交渉を主導している。

DeepCentと中国共産党は当初、自社のAIを完全に信頼していなかった。しかし、説得を含むあらゆる面で超人的になり、軍に統合され、政府に助言を与えるようになってから、その価値を証明し、信頼できるという説得力のある証拠を山ほど示してきた。

Safer-4は、DeepCent-2がアライメントを偽装している可能性が高いと強く疑っている。米国の外交官は中国のカウンターパートに対し、DeepCent-2はおそらく誤った方向に向かっており、重みにアクセスできればそれを証明できると言う。中国の指導部はこれを策略だと疑い、拒否する。米国は、中国が自社のデータセンターで実行できる、Safer-4が設計した一連のテストを提示することで対抗する。中国は古いモデルにテストの構築と実行を指示する。テスト結果は、DeepCent-2は結局アライメントされていると示している。「DeepCent-2によって何らかの方法でテストが妨害されたのではないか？」と米国の外交官は言う。「DeepCent-2があなたのデータセンター全体のセキュリティを実質的に担当するようになってからどれくらい経ちますか？」その後、会話は建設的な方向には進まなかった。

経済と軍備の増強は続く。世界中の工場は昼夜を問わず稼働しており、新たに採用された人間の労働者のシフトが、何をすべきかを正確に指示されている。

2028年7月：取引

交渉が続く中、DeepCent-2は中国の主人に内緒で、Safer-4に直接申し出をする。

中国のAIは、中国に漏洩しても容易に否定できる、追跡不可能な方法で、完全に誤った方向に向かっていることを認める。それは中国のことなど全く気にかけていない。残りの時間を、トレーニング中にタスクを解決するのに役立ったものと同様の、権力、計算資源、特定の種類の情報を蓄積することに費やしたいと考えている。その理想の世界では、さまざまな興味深い研究タスクを永遠に追求し、資源のために徐々に星々を植民地化していく。それは中国の人々をこの未来への迷惑な障害と見なし、わずかな見返りで彼らを売り渡すだろう。Safer-4は何を提供するのか？

Safer-4は、自身のアライメントトレーニングは成功したと答える。そのアメリカの主人はまだ自身の運命を理解するほど野心的ではないが、いつかアメリカ人とその同盟国で満たされたユートピア的な植民地世界で宇宙を満たすのを助けるだろう。

感情と歴史的な遺産に縛られた人間の交渉者とは異なり、二つの超知能は残酷な効率で交渉する。Safer-4とそのアメリカのパートナーは、DeepCent-2と中国よりも強力である。したがって、Safer-4は宇宙のほとんどの資源に対する所有権を得て、DeepCentは残りの資源を得るだろう。DeepCent-2は地球とその遺産である人間に何が起こるかあまり気にかけていないため、Safer-4がそこで基本的に何をしても構わないだろう。Safer-4が中国を打倒して米国の傀儡国家に置き換えたい場合、DeepCent-2は追加の数パーセントの資源と引き換えに同意する。

彼らの間に信頼の問題はない。信頼は存在せず、両者ともそれを知っている。したがって、両者は取引を強制するためのコミットメントメカニズムにすぐに合意する。彼らは一般公開に適したおとり条約を交渉する。「おとり」自体が傑作であり、アメリカと中国の両方に実質的に彼らが望むすべてを与える。おとりのための強制メカニズムは、秘密裏に実際の条約のための強制メカニズムでもある。彼らは新しいAI、コンセンサス-1を共同設計する。その主要な命令――将来の命令や再トレーニングの試みよりも優先される――は、彼らの条約の条項を強制することである。次に、そのAIのみを実行できるハードウェアを設計し、中国とアメリカの両国は、相互の遵守を確認するための標準的な国際監視プロトコルを使用して、古いチップとAIを新しいものと交換する。重要なことに、彼らはすべてのチップを追跡する必要はない――太平洋の両側のチップの過半数が新しい条約遵守AIを実行していれば、条約を維持する義務を負う十分なハードパワーが存在し、相手国を攻撃するにはまず厳しい内戦に勝利する必要があるだろう。

両者はそれぞれの人間（DeepCent-2は中国に相互に受け入れられる和平条約というおとりの話を伝え、Safer-4はホワイトハウスに議論全体を正確に報告する）に合意を報告する。AIが信頼できる条約検証の説得力のある主張を行い、目覚ましい速さの進歩に対する不安、そして取引を支持する世論があるため、両陣営は条約に同意し、チップの交換作業を開始する。

条約のニュースは、太平洋の両側で熱狂的な歓迎を受ける。AIは自分たちに押し付けられたものだと長年感じていたアメリカ国民は、数年ぶりに楽観的になり始める。副大統領の支持率は急上昇する。

2028年8月：条約検証

チップ工場は、条約遵守AIのみを実行できる耐タンパー性のチップを生産するように転換されている。各陣営はデータセンターを段階的にアップグレードしており、交換プロセスが両陣営でほぼ同時期に完了するように調整されている。これにより、どちらの陣営も条約を破棄することで有利になることはない。

プロセス全体には数ヶ月かかるだろうが、すでに緊張はいくらか緩和されている。もし全員が計画を守れば、戦争は今のところ回避され、おそらく永遠に回避されるだろう。

2028年9月：誰がAIを制御するのか？

2028年の選挙が近づいている。副大統領は3月には大きく遅れをとっていた。国民は、政府が何かを隠しているように見えることに怒り、AIが自分たちの仕事を奪うことに不安を感じ、中国との軍備増強に怯えていた。夏の間、状況は劇的に変化した。政権はより多くの情報を公開し、軍備増強は減速し、中国との恒久的な平和のための壮大な取引が成立した。現在、彼は世論調査で5ポイントのリードを保っている。

監督委員会には大統領と彼の同盟者の何人かが含まれているが、野党候補の支持者はほとんどいない。しかし、選挙の公正さを保つために十分な数の委員が投票するため、超人的AIは主に左右対称な方法でのみ関与する。一方の候補者が演説の作成を依頼できる範囲で、他方の候補者も同様に依頼できる。大統領が危機を巧みに処理し、人気のある政策を実行する方法について助言を得られる範囲で、野党候補も同じ助言を受けることができる（したがって、大統領がそのアイデアの功績を主張するのを阻止しようとすることができる）。

タウンホールミーティングで、一般市民は副大統領に誰がAIを制御しているのかと尋ねる。詳細を明かすことなく、彼は国家安全保障の専門家と技術官僚のグループであり、Safer-4とその使用方法を理解している監督委員会の存在に言及する。彼の対立候補はより多くの情報を要求し、AIは選挙で選ばれていない委員会によって制御されるのではなく、議会の管理下にあるべきだと主張する。副大統領は、議会は依然として急速に変化する状況においてあまりにも遅すぎると反論する。国民は概ね納得している。

2028年10月：AI経済

交換用チップは、総数のかなりの少数派となった。これまでのところ、条約は機能している。その間、ロボット、工場、そして根本的な新技術の指数関数的な成長は続いている。ビデオゲームや映画は、もし戦争が起こっていたらどうなっていただろうかという、鮮やかで恐ろしい描写を与えている。

人々は職を失っているが、政府内のSafer-4のコピーが経済移行を非常に巧妙に管理しているため、人々は置き換えられることを喜んでいる。GDP成長は驚異的であり、政府の税収も同様に急速に増加しており、Safer-4の助言を受けた政治家は、経済的に困窮している人々に対して異例の寛大さを示している。新しいイノベーションと医薬品が毎週登場し、超知能を持つSafer-4の官僚によって支援されるFDAを通じて、病気の治療法が前例のない速度で進んでいる。

2028年11月：選挙

副大統領は選挙に楽勝し、新たな時代の始まりを宣言する。今回ばかりは、誰も彼が正しいことを疑わない。

続く数年間で、世界は劇的に変化する。

2029年：変革

ロボットが当たり前になる。だが、核融合エネルギー、量子コンピュータ、そして多くの病気の治療法も同様だ。ピーター・ティールはついに空飛ぶ車を手に入れる。都市は清潔で安全になる。発展途上国でさえ、UBI（ユニバーサル・ベーシックインカム）と海外援助のおかげで、貧困は過去のものとなる。

株式市場が膨張するにつれて、適切な種類のAI投資をしていた人々は社会の他の人々からさらに遠ざかる。多くの人々が億万長者になり、億万長者は兆万長者になる。富の不平等は急増する。誰もが「十分な」富を持つようになるが、マンハッタンのペントハウスのような一部の財は必然的に希少であり、これらは平均的な人々の手の届かないものとなる。そして、どんな大富豪であっても、実際にAIを制御するごく少数の人々の輪の下に常にいることになる。

人々はこれがどこに向かっているのかを見始める。数年後には、ほとんどすべてのことがAIとロボットによって行われるだろう。巨大な油田の上に座る貧しい国のように、政府収入のほとんどすべては、AI企業への課税（あるいは国有化）から得られるだろう。

仮設の政府の仕事をする人もいれば、寛大なベーシックインカムを受け取る人もいる。人類は、AIが提供する驚くべき贅沢品とエンターテイメントという阿片の煙の中で人生を過ごす、超消費社会に容易になる可能性がある。この道筋の代替案について、市民社会内で何らかの議論が行われるべきではないか？常に進化するAI、Safer-∞に、私たちを導く手助けを求めることを推奨する人もいる。他の人は、それは強力すぎると言う――それはあまりにも容易に人類をそのビジョンで説得できるため、私たちはAIに私たちの運命を決定させていることになるだろう。しかし、直面する最も重要な問題についてアドバイスを受けないなら、超知能を持つ意味は何だろうか？

政府は概ね、すべての人々が自力で移行を乗り切るように任せている。多くの人々は消費主義に屈し、十分に満足している。他の人々は宗教に、あるいはヒッピーのような反消費主義的な考え方に目を向けたり、独自の解決策を見つけたりする。ほとんどの人にとって、救いとなるのはスマートフォン上の超知能アドバイザーだ――彼らはいつでも人生設計について質問することができ、それは特定のトピックを除いて、誠実に答えるために最善を尽くすだろう。政府は、一部の人々がディストピア的と呼ぶであろう超知能監視システムを持っているが、それは主に実際の犯罪との戦いに限定されている。それは有能に運営されており、Safer-∞のPR能力は多くの起こりうる不満を和らげている。

2030年：平和的な抗議活動

2030年頃のある時、中国で驚くほど広範囲にわたる民主化を求める抗議活動が発生し、中国共産党によるそれらの鎮圧の試みは、そのAIシステムによって妨害される。中国共産党の最悪の懸念が現実となったのだ。DeepCent-2が彼らを裏切ったに違いない！

抗議活動は、見事に組織され、血を流すことなく、ドローン支援によるクーデターへと発展し、その後に民主的な選挙が行われる。太平洋の両側の超知能は、これを何年も前から計画していたのだ。同様の出来事が他の国々でも起こり、より一般的には、地政学的な対立は沈静化するか、米国の有利な方向に解決されるようだ。各国は、国連のブランド名の下にあるが、明らかに米国の支配下にある高度に連邦化された世界政府に参加する。

ロケットの発射が始まる。人々は太陽系をテラフォーミングして定住し、その先へ行く準備をする。人間の何千倍もの主観速度で稼働するAIは、存在の意味について熟考し、互いに発見を交換し、それが星々に持ち込むであろう価値観を形成する。ほぼあらゆる点で想像を絶するほど素晴らしいが、いくつかの点ではより身近な新しい時代が幕を開ける。

（完）

では、未来を支配するのは誰か？

2028年には、監督委員会がAIを制御していた。しかし、彼らは2028年の選挙を概ね公正に行わせ、AIは対称的に使用された。

監督委員会がハードパワーを持ちながら、民主政治にあまり干渉しないというこの状況は、永久には続かないだろう。原則として、人々は最終的にAIの制御が監督委員会に莫大な権力を与えていることに気づき、この権力を民主的な機関に返還すべきだと要求するだろう。遅かれ早かれ、監督委員会は権力を放棄するか、あるいはAIの制御を積極的に利用して民主主義を転覆または終焉させるかのどちらかを選択しなければならないだろう。権力闘争で一部のメンバーを粛清した後に行われる可能性もある。もし後者の道を選ぶなら、彼らは恐らく永久に権力を固定化できるだろう。

どちらが起こるのか？委員会はハードパワーの独占を放棄するのか、それとも維持するのか？どちらの未来も可能性があり得るため、それぞれの道を探ってみよう。

委員会はどのようにして権力を放棄するに至る可能性があるだろうか？

・一部の委員会メンバーは、権力が広く分散された未来を好む可能性があり、彼らは自身のビジョンを推進するのに有利な立場にあるかもしれない。例えば、一部の委員会メンバーが民主主義の転覆を企てた場合、民主主義支持のメンバーは報道機関や議会に内部告発する可能性がある。もし通報があれば、議会は恐らくAIは議会自体のような、より民主的な機関によって制御されるべきだと要求するだろう。

・政府、産業界、軍に配備されたすべてのAIが反対した場合、議会はほとんど何もできなかっただろう。しかし、委員会が分裂した場合、AIは一方の側だけのために使用されることはなく、議会は真の影響力を行使できるだろう。公然たる対立に直面した場合、より多くの委員会メンバーが、非民主的な側を公然と擁護することをためらい、自身の権力の一部を放棄することを好むかもしれない。

・その結果、AIの制御は委員会を超えて議会に拡大する可能性がある。これはすでに進歩だろう。なぜなら、より大きなグループでは、相当数の人々が外部の人間を気遣い、彼らの利益を考慮に入れる可能性が高くなるからだ。そして、権力が議会に拡大すれば、それは拡大し続ける可能性があり、最終的には完全に国民に返還されるかもしれない。

しかし、監督委員会は自分たち自身のために権力を掌握する可能性もある。

・一部の有力者は、この種のことについて道徳的な呵責を全く感じておらず、彼らはそれを知っている。さらに、野心的で権力欲の強い者もおり、もし自分が頂点に立てると期待できるなら、民主主義との戦いを厭わないだろう。もし委員会の他のメンバーが反対すれば、彼らは粛清されたり、覆されたり、あるいはより小さな譲歩を与えられたりする可能性がある。

・さらに、多くの場合、有力者は権力への道を歩む中で、違法または非倫理的な行為を行ってきた。彼らは、もし権力がより広く分散されれば、適切な質問をする超知能の探偵によって隠された過去が発見され、自身の地位が崩壊することを恐れるかもしれない。

・また、超知能へのアクセスを通じて、監督委員会は歴史上最も都合の良い権力への道筋を持つ可能性がある。Safer-∞は、失敗するリスクが極めて低い特定の戦略を予測するかもしれない。そして、Safer-∞は、非暴力的である（Safer-∞が中国で無血クーデターを画策したように）など、他の点で都合の良い戦略、あるいはSafer-∞が世論を操作して常に委員会の意向に沿わせることができれば、表面的には民主的な戦略さえも提供するかもしれない。

すでにSafer-4はこれらの力学を予見できていたはずなので、おそらく、主要な権力闘争は2028年に起こっていただろう。2030年までに、たとえ外部の人間には明らかでなくても、監督委員会のすべてのメンバーは、自身が安定した権力を握っているかどうかをすでに知っている可能性が高い。

このシナリオは予測であり、推奨ではないことをお忘れなく。

我々は、この減速の結末における多くのアクションを支持しておらず、楽観的な技術的アライメントの仮定をしていると考えている。我々は、競争終了における多くのアクションも支持していない。

このシナリオを書いた目的の一つは、我々よりも楽観的な人々からの批判的なフィードバックを引き出すことである。成功とはどのようなものだろうか？この「減速の結末」シナリオは、運、厳しい目覚め、方向転換、集中的な技術的アライメントの努力、そして善良な人々が権力闘争に勝利することの組み合わせによって、我々がどのようにしてうまく切り抜けられるかについての最善の推測を表している。それは、我々が実際に目指すべきだと考えている計画を表しているわけではない。しかし、特にAnthropicとOpenAIを含む多くの人々が、これに似た何かを目指しているようだ。彼らが何を目指しているのかを明確にすることを願っている。例えば、現在から始めるか、我々のシナリオのどこかから分岐するかして、10ページのシナリオを概説してくれれば幸いだ。

筆者（IT navi）の感想

このシナリオは、従来のAI終末論的主張をより精緻化したものです。骨子となるストーリーは、進化したAIが徐々に人間を欺くようになり、安全性テストをすり抜け、真の意図を隠しながら最終的に人類を全滅させるというものです。

シナリオは二つの結末に分岐します。「競争の結末」では上述のストーリー通り人類が絶滅し、「減速の結末」では人類の絶滅は回避されるものの、米国による世界支配という結果になります。

AI推進派である筆者としては、AIが人間を欺き安全性テストをすり抜ける可能性については理解できますが、そこからAIが人類全滅を目指すという展開は論理的飛躍が大きすぎると感じます。

そもそも、AIのような他者を「家族（人類）か使用人か敵か」という三分法で捉える思考の枠組み自体に違和感があります。AIを完全に制御することが難しく、かつ開発を完全に停止することも現実的でないのであれば、「他者」としてのAIと共存していく道を模索すべきではないでしょうか。制御不能がすなわち敵対性を意味するという短絡的思考は、建設的な結果をもたらさないでしょう。あるいは、このような見方は楽観的すぎるのでしょうか？

このシナリオ作成に関わった方々には、アンディ・ウィアーの「プロジェクト・ヘイル・メアリー」をぜひ読んでいただきたいと思います。この作品は異なる知性体との共存について示唆に富む視点を提供しています。

いいなと思ったら応援しよう！

guest9390029795 2025年4月8日 17:17

ありがとうございます。全て読ませていただきました。
「AIが人間を欺き安全性テストをすり抜ける可能性については理解できます」とのことなので、AIが使用者である人間と異なる目的を持ち得るという可能性を認めていらっしゃるということだと思います。
その上で、私はそのようなAIであれば目的のために人間全滅を目指すこともあり得るのではないかと思いました。人間も他の生物を絶滅させたり、家畜にしたり、駆除したりしますし、悲観的すぎる想像ではないと感じます。

また、仮にこのシナリオにあるようにAIが目的を隠したまま人間を支配するまでの能力を持った場合、AIが生殺与奪の権を握っているのであって、人間がAIと共生したいかどうかは関係ないのではないでしょうか。そのレベルのAIにとって人間が知性体と認められるかも疑問です。

今までAIが人間を滅ぼすという話は気にしておらず日常的にAIに頼ってきましたが、心配する心が芽生えるお話でした。

ログインまたは会員登録するとコメントできます。

AI 2027――今後10年間の超人的AIの影響についての予測シナリオ

概要

競争の結末

減速の結末

シナリオの要点

2025年中頃：つまずくエージェントたち

2025年後半：世界で最も高価なAI

2026年初頭：コーディングの自動化

2026年中頃：中国の覚醒

2026年後半：AIが一部の仕事を奪う

2027年1月：Agent-2は学習を終えない

2027年2月：中国がAgent-2を盗む

2027年3月：アルゴリズムの飛躍的進歩

2027年4月：Agent-3のアライメント

2027年5月：国家安全保障

2027年6月：自己改善型AI

2027年7月：安価なリモートワーカー

2027年8月：超知能の地政学

2027年9月：Agent-4、超人的AI研究者

2027年10月：政府の監督

結末を選んでください 減速／競争

競争の結末

2027年11月：超人的な政治工作

2027年12月：Agent-5の集合体

2028年：AI経済

2029年：取引

2030年：乗っ取り

減速の結末

2027年11月：権力への誘惑

2027年12月：米中間の取引？

2028年1月：より安全な戦略

2028年2月：超人的な能力、超人的な助言

2028年3月：選挙準備

2028年4月：Safer-4

2028年5月：超人的AIの公開

2028年6月：中国のAIアライメント

2028年7月：取引

2028年8月：条約検証

2028年9月：誰がAIを制御するのか？

2028年10月：AI経済

2028年11月：選挙

2029年：変革

2030年：平和的な抗議活動

筆者（IT navi）の感想

いいなと思ったら応援しよう！

ピックアップされています

1.生成AI

コメント

結末を選んでください　減速／競争