見出し画像

AnthropicCEOダリオ・アモディのDeepSeekと輸出規制についてのエッセイのGemini2.0-Flash-thinking-exp-01-21による機械翻訳と要約

**要約**

[DeepSeekという中国AI企業が、低コストで米国最先端AIモデルの性能に近づいた。しかし、これは米国のAIリーダーシップを脅かすものではなく、輸出規制の必要性をむしろ高める。輸出規制は民主主義国家をAI開発の最前線に保つために不可欠であり、競争を避けるためのものではない。AI開発にはスケーリング則、カーブのシフト、パラダイムのシフトという3つのダイナミクスが存在し、DeepSeekのV3モデルはコスト削減カーブ上の予想範囲内。R1モデルは強化学習を取り入れたが、革新性は低い。輸出規制は中国が数百万個のチップを入手するのを防ぐ唯一の手段であり、単極または二極の世界を決定する。DeepSeekの成功は輸出規制の失敗ではなく、中国の技術力を示すもの。輸出規制は抜け穴を塞ぎつつあり、中国へのチップ供給を制限し、米国主導の単極世界を維持するために重要。DeepSeek自体は敵ではないが、権威主義政府に拘束されており、輸出規制の重要性は変わらない。]

本編

DeepSeekと輸出規制について

2025年1月

数週間前、私は中国へのチップ輸出規制を強化するべきだと主張しました。それ以来、中国のAI企業であるDeepSeekは、少なくともいくつかの点で、より低いコストで米国の最先端AIモデルの性能に近づくことに成功しました。

ここでは、DeepSeekがAnthropicのような米国のAI企業にとって脅威であるかどうか(私は米国のAIリーダーシップに対する彼らの脅威に関する主張の多くは大げさだと考えていますが)¹には焦点を当てません。そうではなく、DeepSeekの発表がチップに関する輸出規制政策の根拠を損なうかどうかという点に焦点を当てます。私はそうは思いません。実際、私は彼らが輸出規制政策を1週間前よりもさらに本質的に重要にしていると考えています²。

輸出規制は、民主主義国家をAI開発の最前線に維持するという重要な目的を果たします。明確にするために言っておくと、それらは米国と中国の間の競争を避けるための手段ではありません。結局のところ、米国や他の民主主義国のAI企業は、我々が勝利したいのであれば、中国の企業よりも優れたモデルを持たなければなりません。しかし、我々がそうする必要がないのに、中国共産党に技術的な優位性を与えるべきではありません。

AI開発の3つのダイナミクス

私の政策論を述べる前に、理解しておくことが重要なAIシステムの3つの基本的なダイナミクスについて説明します。

スケーリング則。AIの特性—私と私の共同創設者は、OpenAIに在籍していた頃に最初に文書化したのですが—は、他の条件がすべて同じであれば、AIシステムのトレーニングをスケールアップすると、広範囲にわたる認知タスクで全体的にスムーズに結果が向上するということです。例えば、$1Mのモデルは重要なコーディングタスクの20%を解決し、$10Mのモデルは40%、$100Mのモデルは60%を解決するかもしれません。これらの違いは実際には非常に大きな意味を持つ傾向があり—10倍の違いは学部生と博士課程のスキルレベルの違いに相当する可能性があります—そのため、企業はこれらのモデルのトレーニングに多額の投資をしています。

カーブのシフト。この分野では、大小さまざまなアイデアが常に生まれており、物事をより効果的または効率的にしています。それは、モデルのアーキテクチャの改善(今日のすべてのモデルが使用している基本的なTransformerアーキテクチャの微調整)である場合もあれば、単に基盤となるハードウェア上でモデルをより効率的に実行する方法である場合もあります。新しい世代のハードウェアも同じ効果をもたらします。これが通常行うことは、カーブをシフトさせることです。革新が2倍の「演算量倍率」(CM)である場合、コーディングタスクで$10Mではなく$5Mで40%を達成できます。または、$100Mではなく$50Mで60%などを達成できます。すべての最先端AI企業は、これらのCMを定期的に多数発見しています。多くの場合、小さなもの(〜1.2倍)、時には中程度のもの(〜2倍)、そしてごくまれに非常に大きなもの(〜10倍)です。よりインテリジェントなシステムを持つことの価値が非常に高いため、このカーブのシフトにより、通常、企業はモデルのトレーニングにより多くのお金を費やすようになります。コスト効率の向上は、企業の財源によってのみ制限され、よりスマートなモデルのトレーニングに完全に費やされます。人々は当然、「最初は高価だったものが、後で安くなる」という考えに惹かれます—まるでAIが一定の品質を持つ単一のものであり、安くなったらトレーニングに使用するチップを減らすかのように。しかし、重要なのはスケーリングカーブです。それがシフトすると、カーブの終点にあるものの価値が非常に高いため、我々は単にそれをより速く横断するだけです。2020年、私のチームは、アルゴリズムの進歩によるカーブのシフトは〜1.68倍/年であることを示唆する論文を発表しました。それ以降、おそらく大幅に加速しています。また、効率とハードウェアは考慮されていません。今日の数値はおそらく〜4倍/年だと思います。別の見積もりはこちらにあります[https://epochai.org/blog/algorithmic-progress-in-ai]。トレーニングカーブのシフトは推論カーブもシフトさせ、その結果、モデルの品質を一定に保ちながら大幅な価格低下が長年発生しています。例えば、オリジナルのGPT-4より15ヶ月後にリリースされたClaude 3.5 Sonnetは、ほぼすべてのベンチマークでGPT-4を上回りながら、API価格は約10分の1です。

パラダイムのシフト。ごくまれに、スケールされている基盤となるものが少し変化したり、新しいタイプのスケーリングがトレーニングプロセスに追加されたりします。2020年から2023年にかけて、スケールされていた主なものは事前トレーニング済みモデルでした。インターネットテキストの量を増やしてトレーニングされたモデルで、その上に少量の他のトレーニングが追加されています。2024年には、思考の連鎖を生成するためにモデルをトレーニングするために強化学習(RL)を使用するというアイデアが、スケーリングの新たな焦点となっています。Anthropic、DeepSeek、および他の多くの企業(おそらく最も注目すべきは9月にo1-previewモデルをリリースしたOpenAI)は、このトレーニングが数学、コーディングコンテスト、およびこれらのタスクに似た推論のような特定の、客観的に測定可能なタスクのパフォーマンスを大幅に向上させることを発見しました。この新しいパラダイムは、通常のタイプの事前トレーニング済みモデルから始まり、次に第2段階としてRLを使用して推論スキルを追加することを含みます。重要なことに、このタイプのRLは新しいものであるため、我々はまだスケーリングカーブの初期段階にあります。第2段階のRLに費やされている金額は、すべてのプレーヤーにとってわずかです。$0.1Mではなく$1Mを費やすだけで、大きな利益を得るのに十分です。企業は現在、第2段階を数億ドル、数十億ドル規模にスケールアップするために非常に迅速に取り組んでいますが、強力な新しいパラダイムがスケーリングカーブの初期段階にあり、したがって急速に大きな利益を上げることができるユニークな「クロスオーバーポイント」に我々が立っていることを理解することが重要です。

DeepSeekのモデル

上記の3つのダイナミクスは、DeepSeekの最近のリリースを理解するのに役立ちます。約1ヶ月前、DeepSeekは「DeepSeek-V3」と呼ばれるモデルをリリースしました。これは純粋な事前トレーニング済みモデル³—上記の#3で説明した第1段階です。そして先週、彼らは第2段階を追加した「R1」をリリースしました。これらのモデルに関するすべてを外部から判断することはできませんが、以下は2つのリリースに関する私の最高の理解です。

DeepSeek-V3は実際には真の革新であり、1ヶ月前に人々が注目すべきだったものです(我々は確かにそうしました)。事前トレーニング済みモデルとして、一部の重要なタスクで最先端の米国モデル⁴の性能に匹敵するようでありながら、トレーニングにかかるコストは大幅に低いようです(ただし、特にClaude 3.5 Sonnetは、実際のコーディングなど、他の主要なタスクでは依然としてはるかに優れていることがわかりました)。DeepSeekのチームは、主にエンジニアリング効率に焦点を当てた、真の印象的な技術革新によってこれを実現しました。「キーバリューキャッシュ」と呼ばれる側面の管理、および以前よりもさらに「mixture of experts」と呼ばれる手法を推進することを可能にする革新的な改善が特にありました。

しかし、より詳しく見ていくことが重要です。

DeepSeekは「米国AI企業が数十億ドルを費やしたことを$6M⁵で実現した」わけではありません。私はAnthropicについてのみ話すことができますが、Claude 3.5 Sonnetはトレーニングに数千万ドル(正確な数値は避けます)を費やした中規模モデルです。また、3.5 Sonnetは、より大規模または高価なモデルを関与させるような方法でトレーニングされたわけではありません(一部の噂とは反対に)。Sonnetのトレーニングは9〜12ヶ月前に行われ、DeepSeekのモデルは11月/12月にトレーニングされましたが、Sonnetは多くの内部および外部評価で依然として著しく先行しています。したがって、妥当な記述は「DeepSeekは7〜10ヶ月古い米国モデルの性能に近いモデルを、かなり低いコストで(ただし、人々が示唆している比率には遠く及ばない)作成した」だと思います。

過去のコストカーブの低下傾向が〜4倍/年である場合、それは通常の事業活動—2023年と2024年に起こったような過去のコスト低下の通常の傾向—では、現在頃に3.5 Sonnet/GPT-4oよりも3〜4倍安価なモデルを期待できることを意味します。DeepSeek-V3はそれらの米国の最先端モデルよりも劣っているため—スケーリングカーブで〜2倍劣るとしましょう。これはDeepSeek-V3にとって非常に寛大だと思います—それはDeepSeek-V3のトレーニングコストが1年前の開発された現在の米国モデルよりも〜8倍少ない場合、完全に正常で、完全に「トレンドに乗っている」ことを意味します。私は数値を挙げるつもりはありませんが、DeepSeekのトレーニングコストを額面通りに受け取ったとしても、彼らはせいぜいトレンドに乗っており、おそらくそれさえもそうではないことは前の箇条書きから明らかです。例えば、これは元のGPT-4からClaude 3.5 Sonnetの推論価格差(10倍)よりも緩やかであり、3.5 SonnetはGPT-4よりも優れたモデルです。これらすべては、DeepSeek-V3はユニークなブレークスルーやLLMの経済性を根本的に変えるものではないと言いたいのです。それは継続的なコスト削減カーブ上の予想される点です。今回異なるのは、予想されるコスト削減を最初に実証した企業が中国企業であったことです。これはこれまで一度も起こったことがなく、地政学的に重要です。しかし、米国の企業もすぐに追随するでしょう—そして彼らはDeepSeekをコピーすることによってこれを行うのではなく、彼らも通常のコスト削減のトレンドを達成しているからです。

DeepSeekと米国のAI企業の両方は、以前に主要モデルをトレーニングするために使用していたよりも多くのお金と多くのチップを持っています。追加のチップは、モデルの背後にあるアイデアを開発するためのR&Dに使用され、時にはまだ準備ができていない(または正しくするために複数回の試行が必要だった)より大規模なモデルをトレーニングするために使用されます。DeepSeekは実際に50,000個のHopper世代チップ⁶を持っていると報告されています—これが真実かどうかは確かではありませんが、私は主要な米国AI企業が持っているもの(例えば、xAIの「Colossus」クラスター⁷よりも2〜3倍少ない)の〜2〜3倍の範囲内だと思います。それらの50,000個のHopperチップのコストは約10億ドルです。したがって、DeepSeekの企業としての総支出(個々のモデルをトレーニングするための支出とは異なります)は、米国のAI研究所と大きく異なりません。

「スケーリングカーブ」分析は少し単純化されすぎていることに注意する価値があります。モデルはいくらか差別化されており、異なる長所と短所を持っているためです。スケーリングカーブの数値は、多くの詳細を無視した粗い平均です。私はAnthropicのモデルについてのみ話すことができますが、上でほのめかしたように、Claudeはコーディングと人々との相互作用のうまく設計されたスタイル(多くの人が個人的なアドバイスやサポートのために使用しています)に非常に優れています。これらのタスクといくつかの追加タスクでは、DeepSeekとは比較になりません。これらの要素はスケーリング数値には現れません。

先週リリースされ、世間の注目が爆発的に高まった(Nvidiaの株価が〜17%下落したことも含む)R1は、V3よりも革新性やエンジニアリングの観点からはるかに面白くありません。これはトレーニングの第2段階—前のセクションの#3で説明した強化学習—を追加し、基本的にOpenAIがo1で行ったことを再現しています(彼らは同様の結果で同様の規模に達しているようです)⁸。しかし、我々はスケーリングカーブの初期段階にいるため、強力な事前トレーニング済みモデルから開始している限り、複数の企業がこのタイプのモデルを生成することが可能です。V3を与えられたR1の生成はおそらく非常に安価でした。したがって、我々は興味深い「クロスオーバーポイント」に立っており、一時的に複数の企業が優れた推論モデルを生成できる状況になっています。誰もがこれらのモデルのスケーリングカーブをさらに進むにつれて、これは急速に真実ではなくなるでしょう。

輸出規制

これらすべては、私の主な関心事である中国へのチップ輸出規制の前置きにすぎません。上記の事実を踏まえて、私は状況を次のように見ています。

カーブが定期的にシフトし、特定レベルのモデルインテリジェンスのトレーニングコストが急速に低下しているにもかかわらず、企業が強力なAIモデルのトレーニングにより多くのお金を費やす傾向が続いています。よりインテリジェントなモデルをトレーニングすることの経済的価値が非常に大きいため、コスト削減はほとんど即座に食いつぶされ、当初計画していた巨額のコストでさらにスマートなモデルを作成するために再び注ぎ込まれます。米国の研究所がまだ発見していない範囲で、DeepSeekが開発した効率化の技術革新は、すぐに米国と中国の両方の研究所によって数十億ドル規模のモデルのトレーニングに適用されるでしょう。これらは、以前にトレーニングを計画していた数十億ドル規模のモデルよりも優れた性能を発揮するでしょう—しかし、それでも数十億ドルを費やすでしょう。その数は、ほとんどすべてのことにおいてほとんどすべての人類よりも賢いAIに到達するまで、上がり続けるでしょう。

ほとんどすべての人類よりも賢いAIを作成するには、数百万個のチップ、少なくとも数十億ドルが必要であり、2026〜2027年に最も可能性が高いでしょう。DeepSeekのリリースは、これらを変更しません。なぜなら、それらは常にこれらの計算に織り込まれてきた予想されるコスト削減カーブにほぼ乗っているからです。

これは、2026〜2027年に、我々が2つの全く異なる世界に陥る可能性があることを意味します。米国では、複数の企業が間違いなく必要な数百万個のチップ(数十億ドルのコストで)を持つでしょう。問題は、中国も数百万個のチップを入手できるかどうか⁹です。

もし彼らができれば、我々は米国と中国の両方が科学技術の非常に急速な進歩を引き起こす強力なAIモデルを持つ二極化した世界に住むことになります—私が「データセンター内の天才の国々」と呼んだものです。二極化した世界は、必ずしも無期限にバランスが取れているとは限りません。米国と中国がAIシステムで同等であったとしても、中国は技術の軍事応用により多くの才能、資本、焦点を向けることができる可能性が高いと思われます。その巨大な工業基盤と軍事戦略的優位性と組み合わせることで、これは中国がAIだけでなくすべての面で世界舞台で主導権を握るのに役立つ可能性があります。

もし中国が数百万個のチップを入手できなければ、我々は(少なくとも一時的に)米国とその同盟国だけがこれらのモデルを持つ単極の世界に住むことになります。単極の世界が続くかどうかは不明ですが、AIシステムは最終的によりスマートなAIシステムを作るのに役立つ可能性があるため、一時的なリードが永続的な優位性に転換される可能性は少なくともあります¹⁰。したがって、この世界では、米国とその同盟国が世界舞台で主導的かつ長期的なリードを握るかもしれません。

十分に施行された輸出規制¹¹は、中国が数百万個のチップを入手するのを防ぐことができる唯一のものであり、したがって、我々が単極の世界になるか二極の世界になるかの最も重要な決定要因です。

DeepSeekの性能は、輸出規制が失敗したことを意味するものではありません。上で述べたように、DeepSeekは中程度から多数のチップを持っていたため、強力なモデルを開発し、トレーニングすることができたとしても驚くべきことではありません。彼らは米国のAI企業よりも実質的にリソース制約を受けておらず、輸出規制は彼らが「革新」を起こす主な要因ではありませんでした。彼らは単に非常に才能のあるエンジニアであり、中国が米国にとって深刻な競争相手であることを示しています。

DeepSeekはまた、中国が常に密輸によって必要なチップを入手できるとか、規制には常に抜け穴があるとかを示しているわけでもありません。私は輸出規制が、中国が数万個のチップを入手するのを防ぐように設計されたとは一度も信じていません。10億ドルの経済活動は隠すことができますが、1000億ドルまたは100億ドルでさえ隠すのは困難です。数百万個のチップを密輸することも物理的に困難かもしれません。DeepSeekが現在持っていると報告されているチップを見ることも有益です。SemiAnalysis[https://www.semianalysis.com/p/deepseek-moe-is-massive-and-changes]によると、これはH100、H800、H20の混在で、合計5万個です。H100はリリース以来輸出規制の対象となっているため、DeepSeekがそれらを持っている場合、密輸されたに違いありません(NvidiaはDeepSeekの進歩は「完全に輸出規制に準拠している」と述べていることに注意してください)。H800は2022年の最初の輸出規制では許可されていましたが、2023年10月の規制更新で禁止されたため、これらは禁止前に出荷された可能性があります。H20はトレーニングには効率が悪く、サンプリングには効率が良く—そしてまだ許可されていますが、私はそれらは禁止されるべきだと思います。これらすべては、DeepSeekのAIチップフリートのかなりの部分が、禁止されていない(ただし、禁止されるべき)チップ、禁止される前に出荷されたチップ、そして密輸された可能性が非常に高いチップで構成されているように見えると言いたいのです。これは、輸出規制が実際に機能し、適応していることを示しています。抜け穴は塞がれています。そうでなければ、彼らは最上位のH100の完全なフリートを持っている可能性があります。我々が十分に早くそれらを塞ぐことができれば、中国が数百万個のチップを入手するのを防ぎ、米国が主導する単極の世界の可能性を高めることができるかもしれません。

輸出規制と米国の国家安全保障に焦点を当てていることから、私は1つのことを明確にしたいと思います。私はDeepSeek自身を敵対者とは見ていませんし、ポイントは彼らを特に標的にすることではありません。彼らが行ったインタビューでは、彼らは単に有用な技術を作りたいと思っているスマートで好奇心旺盛な研究者のように見えます。

しかし、彼らは人権侵害を犯し、世界舞台で攻撃的に振る舞い、AIで米国に匹敵することができればこれらの行動においてはるかに抑制がなくなるであろう権威主義的な政府に拘束されています。輸出規制はこれを防ぐための我々の最も強力なツールの1つであり、テクノロジーがより強力になり、費用対効果が高まることが輸出規制を解除する理由になるという考えは全く意味がありません。

################################

翻訳に関しては、公開しているこのアプリでやりました。

いいなと思ったら応援しよう!

この記事は noteマネー にピックアップされました

noteマネーのバナー

コメント

コメントするには、 ログイン または 会員登録 をお願いします。
AnthropicCEOダリオ・アモディのDeepSeekと輸出規制についてのエッセイのGemini2.0-Flash-thinking-exp-01-21による機械翻訳と要約|ailora will
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1