JEPAとは何ですか?- 超知能への次の大物
ここ数年、私たちは生成の波に乗ってきました — テキストから画像への変換、コードの完成、詩を書くチャットインターフェースなど。大規模言語モデル (LLM
これらのモデルは優れた模倣者ですが、世界を本当に理解しているわけではありません。彼らには見えない。彼らはそれを感じられない。そして、その変化がどう変わるかを予測することもできません。
登場 ジェパ — その ジョイント埋め込み予測アーキテクチャ — Meta AIとそのチーフAIサイエンティスト、ヤン・ルカンによって先駆けられている新しいクラスのAIモデルです。ChatGPTのようには動作しません。オートコンプリートを試みたり、フォトリアリスティックなアートを生成しようとはしません。代わりに、私たちと同じように、周囲の世界から意味を観察し、予測し、抽象化することで学びます。
JEPAは、単に生成するだけでなく 理解している.
言語モデルから世界モデルへ
まずは明白なことから始めましょう:LLMは非常に強力です。彼らはカスタマーサービスからコーディングに至るまで、あらゆる面で革命をもたらしました。しかし、彼らは訓練データによっても制約されています。確かにインターネットは読んだことがあるが、一度も読んだことはない 見た 猫がテーブルのグラスを落としたり、幼児が歩き方を覚えたりします。彼らは重力を知らない。あるいはオブジェクトの持続性。あるいは、水で満たされたやかんが空のやかんよりも重くなるのではないかと。
これが世界について読むことと 体験 それ。
ルカンは長らく、AIが人間レベルの知能に達するためには、 「ワールドモデル」 — 世界の仕組みの内的表象。常識と直感的な物理学の融合のようなものだと考えてください。人間が動画の次に何が起こるかを予測したり、ドアの向こうを想像したり、新しい状況で数歩先を行って計画したりする方法です。
世界モデルを大規模に構築するために、MetaはJEPAを開発しています。これはテキストや画像を生成するのではなく、 抽象表現の予測 画像や映像などの感覚入力に欠けている情報の欠落。それは微妙ながらも深い変化です。
JEPAとは何か、そしてなぜそれが異なるのか?
従来の生成モデルは、画像の拡散モデルやテキストの自己回帰モデルのように、次に現れる正確なピクセルや単語を予測しようとします。それは忠実度にとっては良いことですが、同時に問題も伴います。細かいディテールをすべて作成するのはコストがかかり、多くの場合不要です。本当にすべての草の葉をモデル化して、畑があると理解できるのでしょうか?
JEPAは異なるアプローチを取っています。画像や動画の一部をマスキングし、ピクセル単位で再構成しようとするのではなく、 抽象表現 失われた内容について。つまり、 意味 見た目が正確には、何が欠けているのか。
動作は 潜在空間 — 意味的コンテンツを捉える高次元埋め込み — JEPAは、すべての細かい詳細をモデル化しなければならない罠を回避しています。それはノイズではなく、構造や意味論に焦点を当てています。これにより、より頑丈で効率的、そして議論の余地はより人間らしいものと言えるでしょう。
I-JEPA:見ることを学ぶ
最初のJEPA導入は、 イ・ジェパ2023年に、完全に自己監督によって訓練されたビジョンモデルとして開始されました。仕組みはこうです:
- イメージを与えてください。
- 一部をマスクで隠す (例えば、右下の隅だ).
- その欠けている部分がどんなものか、モデルに予測してもらいましょう 抽象的特徴空間において.
- その予測値をターゲットエンコーダのマスクされた領域の実際の表現と比較して訓練します。
その結果は?誰かがデータにラベルを付けたからではなく、意図的に豊かな視覚的特徴を学習するモデル そこに何があるべきかを理解してください 文脈に基づいています。
まるで、いくつかのピースが欠けているジグソーパズルを見ても、それが公園の犬だとわかっているようなものです。すべての要素を揃える必要はありません。I-JEPAも同じ技を学んでいます。
さらに、I-JEPAは驚くほど良い性能を発揮しています。ImageNetのようなベンチマークでは、最先端のモデルと競合し、しかも計算・訓練時間のごく一部で実現しています。Metaによると、I-JEPAは抽象予測アプローチのおかげで、同等の生成ビジョンモデルの約10分の1の計算量しか使用していません (出典).
また、手作りのデータ補完や対照的なサンプリング技術に頼ることもはるかに少なくなっています。データ構造から直接学習するという、よりクリーンでスケーラブルな手法です。
V-JEPA:学ぶために見て
もしI-JEPAが静止画像に関するものなら、 V-ジェパ ビデオでも同じ原理が適用されます。
V-JEPAは動画の一部、例えば中間の数フレームをマスキングし、欠けている時間セグメントの抽象的な表現を予測しようとします。これによりモデルは理解を強いられます 物の動き、変化、相互作用 時間をかけて。
2024年、Metaは導入しました V-JEPA 2、100万時間以上のインターネット規模の動画で訓練されました。このモンスターモデルは、物が何であるかだけでなく、その振る舞い――動き、因果関係、視覚的なダイナミクス――も学びました。
最も印象的な結果の一つは、V-JEPA 2がわずか62時間のロボットデータで後処理された時でした。それ以上の微調整は不要で、ロボットアームを制御できるようになりました (フランカ) 実際の環境でオブジェクトを選び、配置する――単に目標画像を与えるだけで。これはロボット工学におけるゼロショット一般化であり、大きな飛躍です (出典).
はっきりさせておくと、ロボットはそのテーブルや物の配置を見たことがなかった。しかし、V-JEPA 2は 世界を十分に見てきた ビデオを通じて、何が起こるべきかを想像し、それに応じて計画を立てることができました。
これは単に素晴らしいだけでなく、基盤的なことです。これは、私たちが子供のように学ぶロボットに近づいていることを示唆しています。つまり、観察することで。
JEPAとLLM:ライバルかチームメイトか?
では、LLMはどこに位置するのでしょうか?GPTスタイルのモデルはもう終わりでしょうか?
そうでもない。JEPAはLLMを置き換えているのではなく、それらを補完しているのです。
LLMは素晴らしいです。 抽象的記号的推論.彼らは言語を理解し生成し、事実を思い出し、指示に従うことができます。しかし、それらは地に足がつかない。犬を見たことも、熱を感じたことも、自転車から落ちる人を見たこともありません。
JEPAはその感覚のギャップを埋めてくれます。AIが学ぶ手段を与えます 知覚人間が常に使うような世界のモデルを構築するために。
最も強力なシステムはハイブリッドです。実際、MetaはすでにV-JEPA 2と言語モデルを組み合わせ、動画コンテンツに関する質問に答えられるシステムを作り出しました。これは基本的にLLMに目と常識を加えたものです。
こう考えてみてください:LLMは 話し手、JEPAは シーア.一方は言葉を扱い、もう一方は現実を扱います。これらが合わさることで、より賢いエージェントになります。
ワールドモデルズ競争
メタだけがゲーム内の存在ではありません。NVIDIAは最近、 コスモス モデル — 2,000万時間以上の動画で訓練された「ワールドファウンデーションモデル」のファミリーで、運転映像やロボティクスデモも含まれています。Cosmosは、自律システムの訓練やテストを支援するために、物理的に妥当なビデオシミュレーションを生成することを目指しています。
Cosmosが生成シミュレーション、つまり文字通り未来のビデオフレームを生成する方向に寄りかかっているのに対し、JEPAは潜在的な抽象に賭けています。次に何を描くかということではありません。何が起こりそうなのかを知ることが大切です。
どちらのアプローチも有効です。そしてどちらも、モデルが見たことをただ繰り返すのではなく、世界の仕組みを学ぶ未来を示唆しています。
なぜこれがビジネスやそれを超えて重要なのか
JEPAは学術的に聞こえるかもしれませんが、現実世界には非常に大きな影響があります。
で ロボティクス、それは新たな自律のレベルを解放します。YouTubeを見て学ぶロボットは、カスタムトレーニングなしでもあなたのキッチンに適応できます。で 医療JEPAで訓練されたモデルは、より少ないデータで医療スキャンで見えない構造を予測できます。で 自動運転JEPA型システムは歩行者の動きや閉塞車両をより正確に予測できるでしょう。
しかし、おそらく最もエキサイティングな分野は 具現化されたAI — 物理的な世界を見、計画し、行動するエージェントたち。ARアシスタントから倉庫ロボットまで、 理解して 暗記するのではなく。
JEPAはその理解の足場を提供しています。
さらなる参考文献および関連記事
もし興味を持っていただけたなら、以下も楽しめるかもしれません:
著者について
🧠✨ この記事は私が書いたものです!私はDootrixのCTOであり創設者です。Dootrixはモバイルアプリケーション、クラウドネイティブソリューション、デジタルイノベーションを専門とする先駆的なソフトウェア技術コンサルタント会社です。Microsoft Azureの深い専門知識と受賞歴のあるモバイルアプリ開発を活かし、Dootrixは急速に変化する技術環境でクライアントが新しいソリューションを開拓するのを支援しています。詳しくは、こちらをご覧ください。 Dootrix.com また、テクノロジーに関する定期的な一口サイズの最新情報を知りたい方は、こちらのリンクから私のニュースレターを購読してください: 次のこと 📬 、またはチェックアウト ポッドキャスト 🎙️.