Llama 4 の概要
以下の記事が面白かったので、簡単にまとめました。
・The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation
1. Llama 4
本日、「Llama 4 Scout」と「Llama 4 Maverick」がリリースしました。これらは、前例のないコンテキスト長のサポートを備えた初のオープンウェイトネイティブマルチモーダルモデルであり、MoEアーキテクチャを使用して構築されています。
また、新しいモデルの教師として機能する最も強力な「Llama 4 Behemoth」のプレビューも行います。
・Llama 4 Maverick
・17Bのアクティブパラメータ
・128のエキスパート
・合計400Bのパラメータ
・100万トークンのコンテキスト長
・Llama 4 Scout
・17Bのアクティブパラメータ
・16のエキスパート
・合計109Bのパラメータ
・1000万トークンのコンテキスト長
・Llama 4 Behemoth
・288Bのアクティブパラメータ
・16のエキスパート
・合計約2Tのパラメータ
「Llama 4 Scout」と「Llama 4 Maverick」は、「llama.com」と「Hugging Face」からダウンロードできます。
2. 事前学習
新しい「Llama 4」は、MoEアーキテクチャを使用する最初のモデルです。MoEアーキテクチャは、学習と推論の計算効率が高く、学習 FLOP 予算が固定されている場合、高密度モデルと比較して高い品質を実現します。
「Llama 4 Maverick」は推論効率を高めるために、交互に密なレイヤーとMoEレイヤーを使用します。各トークンは共有エキスパートに送信され、128のルーティング エキスパートの1つにも送信されます。その結果、すべてのパラメータがメモリに保存されますが、これらのモデルを提供する際にアクティブ化されるのは合計パラメータのサブセットのみです。これにより、モデル提供コストとレイテンシが削減され、推論効率が向上します。「Llama 4 Maverick」は、簡単に展開できるように単一の Nvidia H100 DGX Hostで実行することも、効率を最大限に高めるために分散推論で実行することもできます。
「Llama 4」はネイティブのマルチモーダル性を備えて設計されており、早期融合を組み込んでテキストトークンとビジョントークンを統合モデルバックボーンにシームレスに統合します。早期融合は大きな前進です。大量のラベルなしテキスト、画像、ビデオ データを使用してモデルを共同で事前学習できるからです。「Llama 4」ではビジョンエンコーダーも改良しました。これはMetaCLIPに基づいていますが、エンコーダーをLLMにうまく適応させるために、凍結された「Llama」と組み合わせて個別に学習されています。
「MetaP」と呼ばれる新しい学習手法を開発しました。これにより、レイヤーごとの学習率や初期化スケールなどの重要なモデルハイパーパラメータを確実に設定できます。選択したハイパーパラメータは、バッチサイズ、モデルの幅、深さ、学習トークンのさまざまな値にわたって適切に転送されることがわかりました。「Llama 4」では、200の言語で事前学習を行うことで、オープンソースのファインチューニング作業が可能になります。このうち100を超える言語にはそれぞれ10億を超えるトークンがあり、全体として「Llama 3」の10倍の多言語トークンがあります。
FP8精度を使用して、品質を犠牲にすることなく、モデルのFLOP使用率を高く保ちながら、効率的なモデル学習に重点を置いています。FP8と32K GPUを使用して「Llama 4 Behemoth」を事前学習したところ、390TFLOP/GPU を達成しました。学習用の全体的なデータミックスは30兆を超えるトークンで構成されており、これは「Llama 3」の事前学習ミックスの2倍以上で、多様なテキスト、画像、ビデオデータセットが含まれています。
特殊なデータセットを使用した長いコンテキスト拡張などの新しい学習レシピを使用してコア機能を向上させるために、いわゆる「中間学習」でモデルの学習を継続しました。これにより、モデルの品質を向上させると同時に、「Llama 4 Scout」でクラス最高の1000万の入力コンテキスト長を実現できました。
3. Llama 4 Maverick
「Llama 4 Maverick」は、画像とテキストの理解において比類のない業界トップの性能を提供し、言語の壁を越える高度なAIアプリケーションの作成を可能にします。一般的なアシスタントとチャットのユースケース向けの製品主力モデルである「Llama 4 Maverick」は、正確な画像理解とクリエイティブなライティングに最適です。
「Llama 4 Maverick」の事後学習における最大の課題は、複数の入力モダリティ、Reasoning、会話能力のバランスを維持することでした。モダリティを混合するために、個々のモダリティの専門家モデルと比較して性能を犠牲にしない、慎重にキュレーションされたカリキュラム戦略を考え出しました。「Llama 4」では、軽量の教師ありファインチューニング (SFT) > オンライン強化学習 (RL) > 軽量の直接選好最適化 (DPO) という異なるアプローチを採用して、事後学習パイプラインを刷新しました。重要な教訓は、SFT と DPO はモデルを過度に制約し、オンラインRLステージ中の探索を制限し、特にReasoning、コーディング、数学の領域で最適ではない精度につながる可能性があるということでした。これに対処するために、「Llama」を審査員として使用して簡単とタグ付けされたデータの50%以上を削除し、残りのより難しいセットで軽量のSFTを実行しました。その後のマルチモーダルオンラインRLステージでは、より難しいプロンプトを慎重に選択することで、性能を大幅に向上させることができました。さらに、継続的なオンラインRL戦略を実装し、モデルの学習と、それを使用して中~高難易度のプロンプトのみを継続的にフィルタリングして保持することを交互に行いました。この戦略は、コンピューティングと精度のトレードオフの点で非常に有益であることが証明されました。次に、軽量のDPOを実行して、モデルの応答品質に関連するコーナーケースを処理し、モデルのインテリジェンスと会話能力の適切なバランスを効果的に実現しました。パイプラインアーキテクチャと、適応型データ フィルタリングを備えた継続的なオンラインRL戦略の両方により、最先端のインテリジェンスと画像理解機能を備えた業界をリードする汎用チャット モデルが完成しました。
4. Llama 4 Scout
「Llama 4 Scout」では、サポートされるコンテキスト長が「Llama 3」の128Kから業界をリードする1,000万トークンに大幅に増加しています。これにより、複数のドキュメントの要約、パーソナライズされたタスクのための広範なユーザー アクティビティの解析、膨大なコードベースでの推論など、可能性の世界が開かれます。
「Llama 4 Scout」は、256Kのコンテキスト長で事前学習および事後学習されており、これにより、ベースモデルに高度な長さの一般化機能が強化されます。テキストの「干し草の山の中の針の検索」による検索や、1,000万トークンのコードに対する累積負の対数尤度 (NLL) などのタスクで説得力のある結果を示します。Llama 4アーキテクチャの主な革新は、位置埋め込みのないインターリーブアテンションレイヤーの使用です。さらに、長さの一般化を強化するために、アテンションの推論時間温度スケーリングを採用しています。これをiRoPEアーキテクチャと呼んでいます。「i」は「インターリーブ」アテンションレイヤーを表し、「無限」のコンテキスト長をサポートするという長期目標を強調し、「RoPE」はほとんどのレイヤーで使用されている回転位置埋め込みを指します。
5. Llama 4 Behemoth
同クラスのモデルの中でも高度なインテリジェンスを発揮する教師モデル、「Llama 4 Behemoth」のプレビューを公開しました。数学、多言語、画像ベンチマークで非推論モデルとして最先端の性能を提供するこのモデルは、より小規模な「Llama 4」を教えるのに最適な選択でした。教師モデルとして「Llama 4 Behemoth」から「Llama 4 Maverick」を共蒸留し、最終タスク評価指標全体で大幅な品質向上を実現しました。学習を通じてソフト ターゲットとハード ターゲットに動的に重み付けする、新しい蒸留損失関数を開発しました。事前学習中の 「Llama 4 Behemoth」からの共蒸留により、学生の学習で使用される学習データの大部分について、蒸留のターゲットを計算するために必要なリソース集約型のフォワード パスの計算コストが償却されます。学生の学習に組み込まれた追加の新しいデータについては、Behemothモデルでフォワードパスを実行して、蒸留ターゲットを作成しました。
6. 安全策と保護
「Llama 4」は、「開発者向け使用ガイド: AI 保護」で概説されているベスト プラクティスに基づいて構築されました。これには、事前学習から事後学習まで、モデル開発の各レイヤーで緩和策を統合することや、敵対的なユーザーから開発者を保護する調整可能なシステムレベルの緩和策が含まれます。これにより、開発者は「Llama」対応アプリケーションで役立つ、安全で適応性の高いエクスペリエンスを作成できるようになります。
6-1. 学習前後の緩和策
事前学習では、データフィルタリングを他のデータ軽減策と組み合わせて使用し、モデルを保護します。事後学習では、各段階で適切なレベルの安全性データを含む、ユーザーと開発者に役立つポリシーにモデルが準拠するように、さまざまな手法を適用します。
6-2. システムレベルのアプローチ
システムレベルでは、潜在的に有害な入力と出力を識別して防御するのに役立ついくつかの安全策をオープンソース化しています。これらのツールは、「Llama」や他のサードパーティ ツールに統合できます。
・Llama Guard
MLCommons で開発した危険分類法に基づいた、入出力の安全性に関する大規模言語モデルです。開発者はこれを使用して、入力または出力が特定のアプリケーション用に作成したポリシーに違反していないかどうかを検出できます。
・Prompt Guard
大規模な攻撃コーパスで学習された分類モデルです。明らかに悪意のあるプロンプト (ジェイルブレイク) と、挿入入力を含むプロンプト (プロンプトインジェクション) の両方を検出できます。
・CyberSecEval
AI モデルおよび製品開発者が生成 AI のサイバーセキュリティ リスクを理解し、軽減するのに役立つ評価を行います。
6-3. 評価とレッドチーム
制御された反復可能な方法で、幅広いシナリオとユースケースにわたってモデルの体系的なテストを実行します。これにより、学習後に組み込むデータが生成されます。
Metaでは、自動テストと手動テストを使用して、さまざまなトピックにわたって敵対的動的プローブを使用してモデルのストレス テストを行っています。潜在的なモデル リスクの理解と評価において進歩を遂げてきました。その一例が、「GOAT」の新開発です。「GOAT」を使用すると、中程度のスキルを持つ敵対的アクターの複数ターンのやり取りをシミュレートすることで、従来のレッド チームの限界に対処し、テスト範囲を拡大して脆弱性をより迅速に発見できます。テスト ツールキットに自動化を追加することで、「GOAT」 は、自動化によって既知のリスク領域に焦点を合わせながら、熟練した人間のレッドチームがより新しい敵対的領域に集中できるようにしました。これにより、プロセスがより効率的かつ効果的になり、リスクのより優れた定量的および定性的な全体像を構築できます。
6-4. LLMにおける偏見への対処
主要な法学修士課程はすべて偏見の問題を抱えていることはよく知られています。具体的には、政治的、社会的テーマの議論に関しては歴史的に左寄りです。これは、インターネットで入手できる学習データの種類によるものです。
目標は、AIモデルから偏見を取り除き、Llamaが論争の的となっている問題の双方を理解し、明確に表現できるようにすることです。この作業の一環として、Llamaの応答性をさらに高め、質問に答え、さまざまな視点に判断を下すことなく対応し、特定の視点を他の視点より優遇しないようにしています。
このリリースでは、これらの取り組みをさらに改善しました。「Llama 4」は 「Llama 3」よりも大幅に優れた性能を発揮し、Grok に匹敵します。
・「Llama 4」は、全体的に政治的および社会的に議論されているトピックを拒否することが少なくなっています (「Llama 3.3」の7%から2%未満)。
・「Llama 4」では、応答を拒否するプロンプトのバランスが大幅に改善されました (議論されている一連のトピックの質問において、不均等な応答拒否の割合が1%未満になりました)。
・Metaのテストでは、「Llama 4」は、政治的または社会的に議論の多い一連のトピックに対して、Grok と同等の割合 (「Llama 3.3」の半分) で強い政治的傾向で応答することが示されています。私たちは進歩を遂げていますが、まだ取り組むべきことがたくさんあることを認識しており、この割合をさらに引き下げていきます。



コメント