フロンティア級のモデルがタダで手に入る日が来た。Meta Llama 5、600B、コンテキスト500万トークン
# フロンティア級のモデルがタダで手に入る日が来た。Meta Llama 5、600B、コンテキスト500万トークン
「無料は妥協」という前提が壊れていく
GPT-5のAPIを月次で使っていると、請求書の重さがじわじわ効いてくる。トークン数で課金されるモデルを複数プロジェクトで並走させると、気づけばかなりの金額になる。そのたびに頭をよぎるのが「オープンソースで代替できないか」という選択肢だ。ただ、それはずっと「できはするが、性能は落ちる」という条件付きの話だった。
2026年4月8日、Metaがそのバランスを崩す一手を出してきた。Llama 5の公開だ。パラメータ数600B超(Bはbillion=10億。この数値が大きいほど、モデルの表現力や知識量が増える傾向がある)、コンテキストウィンドウ500万トークン、そして従来のAIとは異なるSystem 2思考を実装した初のフロンティア級モデルだと、Meta自身は主張している。
発表翌日の時点では、独立した第三者によるベンチマーク検証はほぼ存在しない。Metaの自己申告数値を鵜呑みにする気は、僕にもない。それを差し引いても、この発表には見逃せないポイントがいくつかある。
「速く答える」から「じっくり考える」への転換
System 2思考という言葉の出どころを先に説明しておく。
認知科学者ダニエル・カーネマンが提唱した概念で、人間の思考を二種類に分類したものだ。直感的・高速に動く「System 1」と、遅く・意識的・論理的に処理する「System 2」。日常会話はSystem 1、難しい数学の問題や重要な判断にはSystem 2が動く、という整理だ。
従来のLLM(大規模言語モデル)の動き方は、基本的にSystem 1に近い。プロンプトが来たら次のトークンを予測して出力する処理を高速に繰り返す。これは速くて便利だが、「この契約書の問題点を洗い出し、修正案を3パターン作り、法的リスクとコストでランキングして」みたいな多段階タスクには向かない。
Llama 5はこのアーキテクチャを変えようとしている。公式ドキュメントを読む限りでは、推論時に使う計算量を動的に増やすTest-Time Compute(TTC)という手法を強化し、即答ではなく内部で複数ステップを踏んでから出力する設計にしたようだ。「人間の監督なしに複雑な多段階問題を解ける」というMetaの主張の根拠がここにある。さらに、モデルが自身の学習ギャップを埋めるための高品質な合成データを自ら生成するRecursive Self-Improvement(再帰的自己改善)という機能も実装されているとされている。
500万トークンで何ができるか、具体的に
500万トークンという数字は体感がつかみにくい。少し具体化すると、日本語の文庫本1冊がおよそ10万〜15万文字で、トークン換算では大体15万〜20万トークン程度になる。500万トークンは、その25冊分以上を丸ごと読み込んだうえで回答できるということだ。
ビジネス用途で考えると、長大な契約書・社内マニュアル・過去の議事録をすべて一度に投入して質問に答えてもらう、という使い方が現実的になる。これまでは「重要な部分だけ抜き出して渡す」という前処理が必要だった。それがほぼ不要になる。
一方で気になる点もある。Llama 4にはScoutという派生モデルがあり、コンテキストウィンドウは1,000万トークンだった。Llama 5の500万トークンはScoutの半分だ。これを「退化」と見るか、「600Bフラッグシップとして前例のない規模」と見るかは、実際の性能次第で評価が変わる。
Metaがこれを無料で出し続ける理由
MetaがLlamaをオープンウェイト(モデルの重みを公開する形式)で無償提供し続けるのは、慈善事業ではない。
開発者がLlamaをベースにプロダクトを作ると、Meta AIのエコシステムへの依存が生まれる。Androidが無料なのと似た論理で、プラットフォーマーとしての地位を固める。と同時に、OpenAIやGoogleが有料APIで収益化しているビジネスモデルに価格圧力をかけ続ける。
Metaの2026年AI設備投資は1,150億〜1,350億ドル規模で、Llama 5の学習にはNVIDIA Blackwell B200 GPUを50万台超使ったクラスターを使用している。この規模の投資をしながらモデルをタダで出せるのは、短期の収益ではなく中長期のポジション獲得に賭けているからだ。
ここで一つ、同日にリリースされた別の発表が引っかかっている。Metaは同じ4月8日にMuse Sparkという、同社初のプロプライエタリ(非公開・有料)モデルも発表した。AIチーフオフィサーに就任したばかりのAlexandr Wang(Scale AI創業者)が主導したとされる。オープンソース一本足を掲げてきたMetaが、同日に有料モデルも出した。これは、オープン戦略を完全には信頼しきれていない可能性を示唆している。僕の見方では、Llama 5はエコシステム拡大のための投資で、Muse Sparkは収益モデルの実験という位置づけだと思う。
使い始めるための現実的な経路
Llama 5を自前で動かすには、まずllama.comでライセンス(利用規約)に同意してから、Hugging Face(huggingface.co/meta-llama)でモデルの重みをダウンロードする流れになる。
実行環境としては、クラウド展開(AWS・GCP・Azure上でKubernetes環境を構築し、Text Generation Inference等のフレームワークを使う形)が企業向けには現実的だ。自己ホスト派にはllama.cppやHugging Face Transformersも選択肢になる。
料金についていうと、モデルの重み自体は無償公開だが、運用コスト(GPU・サーバー)は自己負担になる。そして「無料で使える」という言葉には注意が必要で、600BモデルをフルスペックでローカルRunするには膨大なVRAMが必要だ。一般的なPCでは動かない。量子化(精度を落として軽量化する)されたバリアントが出てくれば、ハードルは下がるはずだが、現時点ではフル性能の恩恵を受けるにはかなりのGPUインフラが前提になる。
非エンジニアの場合、一番手軽な入口はMeta AIの公式UIかHugging Face上のホスト版を試すことになる。
ベンチマークが出るまで保留にしている理由
Llama 4が出たとき、コード生成ベンチマーク(LiveCodeBench)でのスコアはGPT-5の約半分程度だった。AIリサーチャーのZvi Mowshowitz氏はXに「Llama 4は何にも向いてない」と書き、「OpenAI・Anthropic・Google・xAI・DeepSeekとは別カテゴリ」という厳しい評価も複数の研究者から出た経緯がある。
Llama 5でこの差が縮まっているのかどうか、公式デモを見る限りでは判断できない。Metaが売り文句にしているエージェント型タスクの実力はコード生成と直結することが多く、ここが弱いままだと「自律的に複雑なタスクを解ける」という主張は空回りする。
独立したベンチマーク検証が出てくるのは早くて数週間後だろう。それまでは「Metaの主張」として距離を置いておく、というのが妥当な態度だと僕は思っている。
まず試すなら、ここから
Llama 5を今日から触れるかどうかは環境次第だ。
エンジニアであれば、Hugging FaceでLlama 5のモデルページを確認し、ライセンス申請を済ませるのが最初のステップになる。量子化バリアントが出次第、手元で試せる状態を準備しておく価値はある。
非エンジニアで雰囲気を掴みたいなら、Meta AIの公式UIが入口になる。System 2思考の恩恵が出やすいのは複雑な文書分析や多段階の推論タスクなので、そこを試してみると違いが実感しやすいはずだ。
企業の導入担当者であれば、「社内データを外部APIに送れない」という制約がある用途での検討が最も筋がいい。医療・法務・金融のデータ処理は、自己ホスト型の強みが最もストレートに活きる領域だ。
「オープンソースLLMは性能が落ちる」という前提を持ったまま評価を止めているなら、今が見直すタイミングかもしれない。それが正しいかどうかは、独立したベンチマークが証明する。
*出典:*
- Meta Unleashes Llama 5: Zuckerberg's Open-Source Gambit Challenges Proprietary AI Dominance(FinancialContent, 2026-04-08)
- Meta Builds AI Infrastructure With NVIDIA(NVIDIA Newsroom)
- Goodbye, Llama? Meta launches Muse Spark proprietary model(VentureBeat)
- Best AI Models April 2026: Ranked by Benchmarks(BuildFastWithAI)
- Meta Llama Reddit: What r/LocalLLaMA Really Thinks 2026(AI Tool Discovery)
- Meta Llama: Everything you need to know(TechCrunch)


コメント