JEPAとは何ですか?- 超知能への次の大物

Kevin Smith

公開日: 2025年7月17日

ここ数年、私たちは生成の波に乗ってきました — テキストから画像への変換、コードの完成、詩を書くチャットインターフェースなど。大規模言語モデル (LLM

これらのモデルは優れた模倣者ですが、世界を本当に理解しているわけではありません。彼らには見えない。彼らはそれを感じられない。そして、その変化がどう変わるかを予測することもできません。

登場ジェパ — そのジョイント埋め込み予測アーキテクチャ — Meta AIとそのチーフAIサイエンティスト、ヤン・ルカンによって先駆けられている新しいクラスのAIモデルです。ChatGPTのようには動作しません。オートコンプリートを試みたり、フォトリアリスティックなアートを生成しようとはしません。代わりに、私たちと同じように、周囲の世界から意味を観察し、予測し、抽象化することで学びます。

JEPAは、単に生成するだけでなく理解している.

言語モデルから世界モデルへ

まずは明白なことから始めましょう:LLMは非常に強力です。彼らはカスタマーサービスからコーディングに至るまで、あらゆる面で革命をもたらしました。しかし、彼らは訓練データによっても制約されています。確かにインターネットは読んだことがあるが、一度も読んだことはない見た猫がテーブルのグラスを落としたり、幼児が歩き方を覚えたりします。彼らは重力を知らない。あるいはオブジェクトの持続性。あるいは、水で満たされたやかんが空のやかんよりも重くなるのではないかと。

これが世界について読むことと体験それ。

ルカンは長らく、AIが人間レベルの知能に達するためには、「ワールドモデル」 — 世界の仕組みの内的表象。常識と直感的な物理学の融合のようなものだと考えてください。人間が動画の次に何が起こるかを予測したり、ドアの向こうを想像したり、新しい状況で数歩先を行って計画したりする方法です。

世界モデルを大規模に構築するために、MetaはJEPAを開発しています。これはテキストや画像を生成するのではなく、抽象表現の予測画像や映像などの感覚入力に欠けている情報の欠落。それは微妙ながらも深い変化です。

JEPAとは何か、そしてなぜそれが異なるのか?

従来の生成モデルは、画像の拡散モデルやテキストの自己回帰モデルのように、次に現れる正確なピクセルや単語を予測しようとします。それは忠実度にとっては良いことですが、同時に問題も伴います。細かいディテールをすべて作成するのはコストがかかり、多くの場合不要です。本当にすべての草の葉をモデル化して、畑があると理解できるのでしょうか?

JEPAは異なるアプローチを取っています。画像や動画の一部をマスキングし、ピクセル単位で再構成しようとするのではなく、抽象表現失われた内容について。つまり、意味見た目が正確には、何が欠けているのか。

動作は潜在空間 — 意味的コンテンツを捉える高次元埋め込み — JEPAは、すべての細かい詳細をモデル化しなければならない罠を回避しています。それはノイズではなく、構造や意味論に焦点を当てています。これにより、より頑丈で効率的、そして議論の余地はより人間らしいものと言えるでしょう。

I-JEPA:見ることを学ぶ

最初のJEPA導入は、イ・ジェパ2023年に、完全に自己監督によって訓練されたビジョンモデルとして開始されました。仕組みはこうです:

イメージを与えてください。
一部をマスクで隠す (例えば、右下の隅だ).
その欠けている部分がどんなものか、モデルに予測してもらいましょう抽象的特徴空間において.
その予測値をターゲットエンコーダのマスクされた領域の実際の表現と比較して訓練します。

その結果は?誰かがデータにラベルを付けたからではなく、意図的に豊かな視覚的特徴を学習するモデルそこに何があるべきかを理解してください文脈に基づいています。

まるで、いくつかのピースが欠けているジグソーパズルを見ても、それが公園の犬だとわかっているようなものです。すべての要素を揃える必要はありません。I-JEPAも同じ技を学んでいます。

さらに、I-JEPAは驚くほど良い性能を発揮しています。ImageNetのようなベンチマークでは、最先端のモデルと競合し、しかも計算・訓練時間のごく一部で実現しています。Metaによると、I-JEPAは抽象予測アプローチのおかげで、同等の生成ビジョンモデルの約10分の1の計算量しか使用していません (出典).

また、手作りのデータ補完や対照的なサンプリング技術に頼ることもはるかに少なくなっています。データ構造から直接学習するという、よりクリーンでスケーラブルな手法です。

V-JEPA:学ぶために見て

もしI-JEPAが静止画像に関するものなら、 V-ジェパビデオでも同じ原理が適用されます。

V-JEPAは動画の一部、例えば中間の数フレームをマスキングし、欠けている時間セグメントの抽象的な表現を予測しようとします。これによりモデルは理解を強いられます物の動き、変化、相互作用時間をかけて。

2024年、Metaは導入しました V-JEPA 2、100万時間以上のインターネット規模の動画で訓練されました。このモンスターモデルは、物が何であるかだけでなく、その振る舞い――動き、因果関係、視覚的なダイナミクス――も学びました。

最も印象的な結果の一つは、V-JEPA 2がわずか62時間のロボットデータで後処理された時でした。それ以上の微調整は不要で、ロボットアームを制御できるようになりました (フランカ) 実際の環境でオブジェクトを選び、配置する――単に目標画像を与えるだけで。これはロボット工学におけるゼロショット一般化であり、大きな飛躍です (出典).

はっきりさせておくと、ロボットはそのテーブルや物の配置を見たことがなかった。しかし、V-JEPA 2は世界を十分に見てきたビデオを通じて、何が起こるべきかを想像し、それに応じて計画を立てることができました。

これは単に素晴らしいだけでなく、基盤的なことです。これは、私たちが子供のように学ぶロボットに近づいていることを示唆しています。つまり、観察することで。

JEPAとLLM:ライバルかチームメイトか?

では、LLMはどこに位置するのでしょうか?GPTスタイルのモデルはもう終わりでしょうか?

そうでもない。JEPAはLLMを置き換えているのではなく、それらを補完しているのです。

LLMは素晴らしいです。抽象的記号的推論.彼らは言語を理解し生成し、事実を思い出し、指示に従うことができます。しかし、それらは地に足がつかない。犬を見たことも、熱を感じたことも、自転車から落ちる人を見たこともありません。

JEPAはその感覚のギャップを埋めてくれます。AIが学ぶ手段を与えます知覚人間が常に使うような世界のモデルを構築するために。

最も強力なシステムはハイブリッドです。実際、MetaはすでにV-JEPA 2と言語モデルを組み合わせ、動画コンテンツに関する質問に答えられるシステムを作り出しました。これは基本的にLLMに目と常識を加えたものです。

こう考えてみてください:LLMは話し手、JEPAはシーア.一方は言葉を扱い、もう一方は現実を扱います。これらが合わさることで、より賢いエージェントになります。

ワールドモデルズ競争

メタだけがゲーム内の存在ではありません。NVIDIAは最近、コスモスモデル — 2,000万時間以上の動画で訓練された「ワールドファウンデーションモデル」のファミリーで、運転映像やロボティクスデモも含まれています。Cosmosは、自律システムの訓練やテストを支援するために、物理的に妥当なビデオシミュレーションを生成することを目指しています。

Cosmosが生成シミュレーション、つまり文字通り未来のビデオフレームを生成する方向に寄りかかっているのに対し、JEPAは潜在的な抽象に賭けています。次に何を描くかということではありません。何が起こりそうなのかを知ることが大切です。

どちらのアプローチも有効です。そしてどちらも、モデルが見たことをただ繰り返すのではなく、世界の仕組みを学ぶ未来を示唆しています。

なぜこれがビジネスやそれを超えて重要なのか

JEPAは学術的に聞こえるかもしれませんが、現実世界には非常に大きな影響があります。

でロボティクス、それは新たな自律のレベルを解放します。YouTubeを見て学ぶロボットは、カスタムトレーニングなしでもあなたのキッチンに適応できます。で医療JEPAで訓練されたモデルは、より少ないデータで医療スキャンで見えない構造を予測できます。で自動運転JEPA型システムは歩行者の動きや閉塞車両をより正確に予測できるでしょう。

しかし、おそらく最もエキサイティングな分野は具現化されたAI — 物理的な世界を見、計画し、行動するエージェントたち。ARアシスタントから倉庫ロボットまで、理解して暗記するのではなく。

JEPAはその理解の足場を提供しています。

さらなる参考文献および関連記事

もし興味を持っていただけたなら、以下も楽しめるかもしれません:

著者について

🧠✨ この記事は私が書いたものです!私はDootrixのCTOであり創設者です。Dootrixはモバイルアプリケーション、クラウドネイティブソリューション、デジタルイノベーションを専門とする先駆的なソフトウェア技術コンサルタント会社です。Microsoft Azureの深い専門知識と受賞歴のあるモバイルアプリ開発を活かし、Dootrixは急速に変化する技術環境でクライアントが新しいソリューションを開拓するのを支援しています。詳しくは、こちらをご覧ください。 Dootrix.com また、テクノロジーに関する定期的な一口サイズの最新情報を知りたい方は、こちらのリンクから私のニュースレターを購読してください: 次のこと 📬 、またはチェックアウトポッドキャスト 🎙️.

コメントを閲覧または追加するには、サインインしてください

Kevin Smithさんのその他の記事

助けて!うちの会社全体が雰囲気コーダーです

2025年11月18日

助けて!うちの会社全体が雰囲気コーダーです

中で面白い瞬間が起きている @ドゥートリクス | 今すぐ次のことを🤖しな…
AIエージェントをついに機能させる可能性のある画期的な発見の内幕

2025年10月1日

AIエージェントをついに機能させる可能性のある画期的な発見の内幕

ここ数週間、LLMと信頼性についてたくさん考えています。…
MCP 1年後

2025年11月25日

MCP 1年後

*1年目の基準が同時に不可欠でありながら不十分になった理由* 最初の誕生日…

2件のコメント
肉体が計算になるとき:脳オルガノイドがAIにとって何を意味するのか

2025年7月30日

肉体が計算になるとき:脳オルガノイドがAIにとって何を意味するのか

ここ数週間で本当にいろいろなことが起きました。でもね、もしそれに興味があるなら、ポッドキャストを聴いたりツールボックスをチェックしてみてはいかがでしょうか? (以下のリンクを読み進めてご覧ください)…

1件のコメント
ソフトウェアの未来:ルールと理性が交差する場所

2025年8月19日

ソフトウェアの未来:ルールと理性が交差する場所

ソフトウェアは進化しています…
ChatGPTのApp Storeの瞬間

2025年11月12日

ChatGPTのApp Storeの瞬間

_DootrixのCTOケビン・スミスより_ もしOpenAIの最新の動きを追っているなら、 *ChatGPTアプリSDK*;誰でもChatGPT内でブランド化されたインタラクティブな体験を構築できる開発者フレームワークです。それと共に、…

2件のコメント
App StoreにおけるAIの瞬間:OpenAIのApps SDKが意味するもの、そしてなぜ英国が今準備すべきか

2025年10月15日

App StoreにおけるAIの瞬間:OpenAIのApps SDKが意味するもの、そしてなぜ英国が今準備すべきか

2025年10月6日、OpenAIは「ChatGPTのアプリ」と、開発者がChatGPT内で動作するインタラクティブでブランド化された体験を構築できる新しいApps SDKを発表しました。iPhoneがApp…
時間エージェント:インテリジェントビジネスオペレーションの未来

2025年7月25日

時間エージェント:インテリジェントビジネスオペレーションの未来

AI駆動システムの進化する環境の中で、 *時間エージェント*…

1件のコメント
なぜ小規模言語モデルとオープンプロトコルがエージェントAIの未来なのか

2025年8月5日

なぜ小規模言語モデルとオープンプロトコルがエージェントAIの未来なのか

過去2年間、AI業界はますます大規模なモデルを目指して加速しています。予算は急増しました。雲の請求書は膨れ上がっています。そして、多くの議論は人工汎用知能の約束に集中しています (AGI) そして最終的には人工超知能…

2件のコメント
思考の幻想

2025年7月2日

思考の幻想

_なぜAIは「考える」必要がないのか、そしてなぜAppleが本質を見誤ったのか_ Appleが研究論文を発表したとき…

1件のコメント

See all articles

JEPAとは何ですか?- 超知能への次の大物

Kevin Smith

言語モデルから世界モデルへ

JEPAとは何か、そしてなぜそれが異なるのか?

I-JEPA:見ることを学ぶ

V-JEPA:学ぶために見て

JEPAとLLM:ライバルかチームメイトか?

ワールドモデルズ競争

なぜこれがビジネスやそれを超えて重要なのか

さらなる参考文献および関連記事

Kevin Smithさんのその他の記事

他の人はこちらも閲覧されています

AIが主導権を握ったとき、あなたはどんな気持ちになりますか?

政策決定と戦略的支援における推論AIの役割

再帰的反省的思考:AI推論へのマルチモデルアプローチ

持続可能なLLM:1ビットLLM

生成AIディープダイブ:LLMと基盤モデルの力を解き放つ

React:AIに私たちのように考え、行動するよう教えること

生成AIジャングルを切り抜ける:LLMとエージェントの理解

AI エージェント 2025 - 概要

AIは知的ではありません — ただよく訓練された推測に過ぎません

GPT-5:AIの次の大きな飛躍 ― そしてそれがあなたのキャリア、ビジネス、そして経済的な未来に何を意味するのか