【論文瞬読】大規模言語モデルの可能性を広げるMany-Shot In-Context Learning

2024年4月20日 22:04

こんにちは！株式会社AI Nestです。今日は、大規模言語モデル(LLM)の新しい学習方式である「Many-Shot In-Context Learning」について、最新の研究を紹介したいと思います。

タイトル：Many-Shot In-Context Learning
URL：https://arxiv.org/abs/2404.11018
所属：Google DeepMind
著者：Rishabh Agarwal, Avi Singh, Lei M. Zhang, Bernd Bohnet, Stephanie Chan, Ankesh Anand, Zaheer Abbas, Azade Nova, John D. Co-Reyes, Eric Chu, Feryal Behbahani, Aleksandra Faust, Hugo Larochelle

In-Context Learning (ICL)とは？

In-Context Learning (ICL)とは、LLMが推論時に例示されたデモンストレーションから新しいタスクを学習する能力のことです。つまり、事前学習済みのLLMに対して、そのタスクを解くための例を与えるだけで、新しいタスクを学習させることができるのです。しかも、モデルの重みを更新する必要はありません。

従来のICLは、数ショットのデモンストレーションを使用するfew-shot ICLが主流でした。しかし、最近の研究では、大量のデモンストレーションを使用するmany-shot ICLへのスケールアップが注目されています。

Many-Shot ICLの威力

Agarwal et al.の論文「Many-Shot In-Context Learning」では、few-shotからmany-shotへICLをスケールアップすることで、様々なタスクでパフォーマンスが大幅に向上することが示されました。

研究チームは、機械翻訳、要約、プランニング、コード検証、数学的問題解決、科学的QA、アルゴリズム的推論など、多岐にわたるタスクでmany-shot ICLの有効性を実証しました。これにより、many-shot ICLがLLMの汎用性を高める有望なアプローチであることが示唆されたのです。

Figure1. 複数のタスクにおける多ショット学習と多ショット学習（ICL）の比較。多ショット学習は多ショットICLよりも一貫した性能向上を示す。この性能向上は、逐次パリティ予測や線形分類のような難しい非自然言語タスクにおいて特に顕著である。各タスクの棒の内側に、多ショットICLで最も成績の良かったショットの数を示す。少数ショットICLについては、ベンチマークで使用される典型的なショット数、例えばMATHの4ショット、またはGPT-3のコンテキスト長2048トークン未満のテストしたものの中で最長のプロンプトを使用する。推論指向のタスク、すなわちMATH、GSM8K、BBH、およびGPQAでは、人間が生成した思考の連鎖の根拠を使用する。翻訳については、英語からクルド語へのFLORES-MTの結果を報告し、要約はXLSumを使用し、MATHはMATH500テストセットに対応し、感情分析の結果は意味的に無関係なラベルで報告する。詳細は§3、§4、§5を参照のこと。

Figure 1は、様々なタスクにおけるmany-shot ICLとfew-shot ICLのパフォーマンス比較を示しています。多くのタスクで、many-shot ICLがfew-shot ICLを大きく上回っていることが分かります。

Figure2. 各タスクでテストされたベストパフォーマンと最大ショット数のコンテキスト長。横の破線はGPT-3（2048トークン）のコンテキスト長を示し、これはLLMの文献でテストされた典型的な少数ショットのプロンプトの代表である。いくつかのタスクにおいて、最も良い結果を出すショットは、テストした最大ショット数に対応することが観察された。いくつかのタスク（例：コード検証、プランニング）では、あるショット数を超えるとパフォーマンスがわずかに低下することが観察された。

Figure 2は、各タスクにおいて最適なショット数と最大ショット数を示しています。多くのタスクで、最適なパフォーマンスを達成するには数百から数千のショットが必要であることが分かります。

ヒューマンデータへの依存を軽減するアプローチ

Many-shot ICLでは大量のデモンストレーションが必要となりますが、高品質のヒューマンデータを大量に用意するのは容易ではありません。そこで、研究チームはヒューマンデータへの依存を軽減するために、2つの斬新なアプローチを提案しました。

1つ目は「Reinforced ICL」です。これは、ヒューマンの解答に代えてモデル生成の解答を使用する方法です。2つ目は「Unsupervised ICL」で、問題のみをプロンプトとして使用します。

Figure7. 問題解決のための多ショット強化ICLと教師なしICLは、一般に、真実のMATH解を用いたICLを上回る。MATH（左）棒グラフは、MATH500テストセットにおける5つのランダムシードの平均性能を示している。各ランダムシード（ドットで示す）は、プロンプト内のグランドトゥルースまたはモデル生成解（もしあれば）と共に、異なる問題のサブセットに対応する。GSM8Kに転送。(右) MATHから得られたプロンプトは、500の問題を含むGSM8Kテストスプリットにうまく転送されることがわかる。多ショットICLを用いた我々の結果は、MATH500で55.7%、GSM8Kで90.6%のテスト精度を得た4ショットMinervaプロンプトを上回った。

驚くべきことに、Figure 7に示すように、推論・問題解決タスクにおいて、これらのアプローチがヒューマンデータを用いたfew-shot ICLを上回る性能を示したのです。データ収集コストの観点から、非常に実用的な知見だと言えるでしょう。

Many-Shot ICLがもたらす可能性

研究チームは、many-shot ICLの特性解析も行いました。

Figure10. メニーショットICLによる事前トレーニングバイアスの克服。(左）多ショットICLはラベルの反転を克服する：センチメント分析のテスト精度は通常、トレーニングショットが増えるほど向上する。反転した抽象的なラベルは最終的にデフォルトラベルの性能に近づく。(右）バイアスを克服する確信度の変化。裏返されたラベルと抽象的なラベルの場合、予測されたセンチメントラベルに対するモデルの信頼度は、最初は低下し、その後、トレーニングショットが増えるにつれて急激に増加し、同じような値になります。詳細は§5.1を参照。

Figure 10に示すように、many-shot ICLにより、事前学習バイアスの克服が可能になることが明らかになりました。これは、LLMの適用可能性を大きく広げる発見だと言えます。事前学習データとは異なるドメインへの適応や、より抽象的なタスクへの対応が可能になるかもしれません。

今後の展望と課題

Many-shot ICLは、LLMの汎用性と実用性を高める上で重要な役割を果たすと期待されます。しかし、現時点では単一のLLM (Gemini 1.5 Pro)のみでの評価にとどまっているため、他のLLMでの追試が望まれます。

また、パフォーマンス低下のメカニズムなど、まだ解明すべき理論的な問題もあります。今後、様々なLLMでのmany-shot ICLの評価や、理論面での解明が進むことを期待しましょう。

まとめ

Many-shot ICLは、LLMの可能性を大きく広げる革新的なアプローチです。多岐にわたるタスクでその有効性が示され、ヒューマンデータへの依存を軽減する方法も提案されました。

今後、many-shot ICLの研究が進むことで、LLMがより汎用的で実用的なツールへと進化していくことでしょう。AIの可能性がさらに広がる、エキサイティングな時代が到来しています。

AI活用事例記事まとめ

1,188本

ログインまたは会員登録するとコメントできます。

【論文瞬読】大規模言語モデルの可能性を広げるMany-Shot In-Context Learning

In-Context Learning (ICL)とは？

Many-Shot ICLの威力

ヒューマンデータへの依存を軽減するアプローチ

Many-Shot ICLがもたらす可能性

今後の展望と課題

まとめ

ピックアップされています

AI活用事例 記事まとめ

コメント

Metaの驚異的な新LLMアーキテクチャがゲームチェンジャーに！

論文紹介 part13 ："The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities"を読む

Transformer2: 自律的に適応する新型LLMフレームワークの登場

（論文紹介）Large language models for artificial general intelligence (AGI)

DeepSeek社の推論モデルの論文「DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」を眺める

【AI基礎論】スケーリング則

技術解説記事: O1ライクモデルの「考え過ぎ」問題と効率化への挑戦

小規模言語モデル（SLM）とは？ 活用シーンから導入メリットまで

複数エージェントによる協調学習で多様性を保ちながら言語モデルの性能を向上させる新手法「Multiagent Finetuning: Self-Improvement with Diverse Reasoning Chains」

「自分好み」にAIを育てて毎日をもっと便利に！オープンソースLLMで遊んでみた。(後編）

忘備録 DeepSeek＞主要な大規模言語モデル（LLM）の技術的特徴を比較

テストタイムコンピューティング: AI推論の未来を切り開く鍵

生成AIと大規模言語モデルの進化：今週の注目トピックまとめ

忘備録 DeepSeek-R1が注目される「自己検証」と「長い思考連鎖（CoT）生成」の高度な推論能力について ちっともわからんけど。。。

DeepSeek-R1: 強化学習によるLLM推論能力向上

【4コマ漫画でわかる生成AI】大規模言語モデル（LLM）はどうやって学習するの？

DeepSeekと知識蒸留について

AIの学習をさらに良くするには？自分たちで学習するLLM

あれ、私たちもLLMっぽい？――“隠れた前提”を意識すると会話が変わるかも

【雑感】LLM関連の学び② プロンプトの精度向上

AIバブル崩壊、エヌビディア完全終了。DeepSeekの登場で設備投資が100分の1予想

推論時にも学習できるLLM!? 「Titans」

LLMsは組み合わせ的創造性を実現できる：科学研究向けの創造的アイデアをLLMsを用いて生み出す

[学習手法のブレークスルー]7Bモデルと8Kデータで実現した驚異の数学推論

ChatGPTの学習されたモデルは何に依存している？

LLM（大規模言語モデル）

生成AIを簡単に説明 (2025年1月編)

生成AI時代と社会人基礎力：自責思考② ～生成AIの出力内容改善の方程式～

LLM関連ブックマークまとめ(2024.12.23-12.29): QVQ72Bはすごいぞ、browser-use、o3のIQは157!、o1-preview-2024-09-20にまとめてもらった。

LLMの進化：テストタイムコンピュートで「考える」力を強化

ChatGPT o1に過去10年間のAI,LLM,人間の成長を解析させ、未来10年間（1年ずつ）のAI,LLM,人間の成長を未来視させてみた。最後にLLMから人間にこうしてけと提言させてみた。

大規模言語モデルで変わる未来】生成AIが創出する新たなビジネスチャンスと攻めの戦略

AIもコスパが大事(1)

『Gemini Deep Research』の雑感 ～活用のヒント：洞察を得よう～

DeepSeek推しのローカルLLM勢から見るDeepSeek

なぜ僕が、あの資料のURLを5秒で出せるのか？

AI活用事例記事まとめ

小規模言語モデル（SLM）とは？活用シーンから導入メリットまで

忘備録　DeepSeek＞主要な大規模言語モデル（LLM）の技術的特徴を比較

忘備録　DeepSeek-R1が注目される「自己検証」と「長い思考連鎖（CoT）生成」の高度な推論能力について　ちっともわからんけど。。。

『Gemini Deep Research』の雑感　～活用のヒント：洞察を得よう～