Vision Language Model の技術詳細と推論と学習

2024年4月13日 07:09

以下の記事が面白かったので、簡単にまとめました。

・Vision Language Models Explained

1. Vision Language Model

「Vision Language Model」は、画像とテキストの入力を受け取り、テキスト出力を生成する生成モデルの一種です。LLMは、優れたZero-Shotを備え、汎化が容易で、ドキュメントやWebページなどを含むさまざまな種類の画像を処理できます。

ユースケースには、「画像に関するチャット」「指示による画像認識」「視覚的な質問への回答」「文書の理解」「画像のキャプション」などが含まれます。一部の「Vision Language Model」は、画像内の空間特性をキャプチャすることもできます。これらのモデルは、特定の対象を検出またはセグメント化するよう求められたときに「境界ボックス」または「セグメンテーションマスク」を出力したり、「エンティティ位置」を特定したり、それらの「相対位置」「絶対位置」に関する質問に答えたりできます。

2. Vision Language Model の一覧

HuggingFaceにはオープンな「Vision Language Model」が多数あります。

3. リーダーボード

「Vision Language Model」のリーダーボードは、次のとおりです。

3-1. Vision Arena

「Vision Arena」は、モデル出力の匿名投票のみに基づくリーダーボードで、継続的に更新されます。ユーザーが画像とプロンプトを入力し、2つの異なるモデルからの出力が匿名でサンプリングされ、ユーザーは好みの出力を選択できます。このようにして、人間の好みのみに基づいて評価されます。

3-2. Open VLM Leaderboard

「Open VLM Leaderboard」は、「Vision Language Model」がメトリクスと平均スコアに従ってランク付けされるリーダーボードです。モデルのサイズ、プロプライエタリ、ライセンスに基づいてモデルをフィルタリングし、さまざまなメトリクスでランク付けすることもできます。

4. ベンチマーク

「Vision Language Model」のベンチマークは、次のとおりです。

4-1. VLMEvalKit

「VLMEvalKit」は、「Open VLM Leaderboard」を強化する「Vision Language Model」のベンチマークです。

4-2. LMMS-Eval

「LMMS-Eval」は、HuggingFaceでホストされているデータセットを使用して選択した HuggingFaceモデルを評価するための標準コマンドラインインターフェイスを提供します。

accelerate launch --num_processes=8 -m lmms_eval --model llava --model_args pretrained="liuhaotian/llava-v1.5-7b" --tasks mme,mmbench_en --batch_size 1 --log_samples --log_samples_suffix llava_v1.5_mme_mmbenchen --output_path ./logs/

4-3. MMMU

「MMMU」は、「Vision Language Model」を評価するための最も包括的なベンチマークです。芸術や工学などのさまざまな分野にわたる大学レベルの主題知識と推論を必要とする 11.5K のマルチモーダルな課題が含まれています。

4-4. MMBench

「MMBench」は、OCR、オブジェクトローカリゼーションなどを含む20の異なるスキルに関する3000の単一選択の質問で構成される評価ベンチマークです。この論文では、CircularEvalと呼ばれる評価戦略も紹介しています。この戦略では、質問の回答の選択肢がさまざまな組み合わせでシャッフルされ、モデルは常に正しい回答を返すことが期待されます。他にも、MathVista (視覚的な数学的推論)、AI2D (図の理解)、ScienceQA (科学の質問応答)、OCRBench (文書の理解) など、さまざまな分野にわたるより具体的なベンチマークがあります。

5. 技術詳細

「Vision Language Model」を事前学習するにはさまざまな方法があります。主なトリックは、画像とテキスト表現を統合し、それをテキストデコーダに供給して生成することです。最も一般的で有名なモデルは、多くの場合、画像エンコーダー、画像とテキスト表現を調整するための埋め込みプロジェクター (多くの場合、高密度ニューラルネットワーク)、およびこの順序で積み重ねられたテキストデコーダーで構成されます。学習部分に関しては、モデルごとに異なるアプローチが採用されています。

5-1. LLaVA

たとえば、「LLaVA」は、CLIP画像エンコーダー、マルチモーダルプロジェクター、Vicunaテキストデコーダーで構成されています。著者らは画像とキャプションのデータセットを「GPT-4」に供給し、キャプションと画像に関連する質問を生成しました。画像エンコーダとテキストデコーダをフリーズし、モデル画像と生成された質問を供給し、モデル出力をグランドトゥルースキャプションと比較することによって、画像とテキストの特徴を調整するようにマルチモーダルプロジェクターを学習しただけです。プロジェクターの事前学習後、画像エンコーダーをフリーズしたままにし、テキストデコーダーをフリーズ解除して、デコーダーを使用してプロジェクターを学習します。この事前学習とファインチューニングの方法は、「Vision Language Model」を学習する最も一般的な方法になります。

5-2. KOSMOS-2

「KOSMOS-2」は、モデルをエンドツーエンドで完全に学習することを選択していますが、これは「LLaVA」のような事前学習と比較して計算コストが高くなります。著者らはその後、モデルを調整するために言語のみの指示をファインチューニングしました。

5-3. Fuyu-8B

「Fuyu-8B」には画像エンコーダーさえありません。代わりに、画像パッチが投影レイヤーに直接供給され、その後シーケンスが自己回帰デコーダーを通過します。

6. Vision Language Model の推論

「transformers」による「Vision Language Model 」の推論手順は、次のとおりです。

(1) モデルとプロセッサの準備。

from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
import torch

# モデルとプロセッサの準備
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
processor = LlavaNextProcessor.from_pretrained("llava-hf/llava-v1.6-mistral-7b-hf")
model = LlavaNextForConditionalGeneration.from_pretrained(
    "llava-hf/llava-v1.6-mistral-7b-hf",
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True
)
model.to(device)

(2) 画像とテキストプロンプトの準備して推論実行。

from PIL import Image
import requests

# 画像とテキストプロンプトの準備
url = "https://github.com/haotian-liu/LLaVA/blob/1a91fc274d7c35a9b50b3cb29c4247ae5837ce39/images/llava_v1_5_radar.jpg?raw=true"
image = Image.open(requests.get(url, stream=True).raw)
prompt = "[INST] <image>\nWhat is shown in this image? [/INST]"

# 推論の実行
inputs = processor(prompt, image, return_tensors="pt").to(device)
output = model.generate(**inputs, max_new_tokens=100)
print(processor.decode(output[0], skip_special_tokens=True))

7. Vision Language Model の学習

「TRL」の「SFTTrainer」に「Vision Language Model」の実験的サポートが提供開始されました。

今回は、260kの画像と会話のペアを含む「llava-instruct」データセットを使用して、「Llava 1.5 VLM」でSFTを実行する方法の例を示します。データセットには、一連のメッセージとしてフォーマットされたユーザーアシスタントの対話が含まれています。たとえば、各会話は、ユーザーが質問する画像とペアになっています。

Vision Language Model の学習手順は、次のとおりです。完全なサンプルスクリプトはこちらにあります。

(1) TrlParserの準備。

from trl.commands.cli_utils import SftScriptArguments, TrlParser

# TrlParserの準備
parser = TrlParser((SftScriptArguments, TrainingArguments))
args, training_args = parser.parse_args_and_config()

(2) 指示をファインチューニングするためにチャットテンプレートの初期化。

LLAVA_CHAT_TEMPLATE = """A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. {% for message in messages %}{% if message['role'] == 'user' %}USER: {% else %}ASSISTANT: {% endif %}{% for item in message['content'] %}{% if item['type'] == 'text' %}{{ item['text'] }}{% elif item['type'] == 'image' %}<image>{% endif %}{% endfor %}{% if message['role'] == 'user' %} {% else %}{{eos_token}}{% endif %}{% endfor %}"""

(3) トークナイザーとプロセッサとモデルの準備。

from transformers import AutoTokenizer, AutoProcessor, TrainingArguments, LlavaForConditionalGeneration
import torch

# トークナイザーとプロセッサとモデルの準備
model_id = "llava-hf/llava-1.5-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.chat_template = LLAVA_CHAT_TEMPLATE
processor = AutoProcessor.from_pretrained(model_id)
processor.tokenizer = tokenizer
model = LlavaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.float16)

(4) テキストと画像のペアを結合するデータコレーターの準備。

# データコレーターの定義
class LLavaDataCollator:
    def __init__(self, processor):
        self.processor = processor

    def __call__(self, examples):
        texts = []
        images = []
        for example in examples:
            messages = example["messages"]
            text = self.processor.tokenizer.apply_chat_template(
                messages, tokenize=False, add_generation_prompt=False
            )
            texts.append(text)
            images.append(example["images"][0])

        batch = self.processor(texts, images, return_tensors="pt", padding=True)

        labels = batch["input_ids"].clone()
        if self.processor.tokenizer.pad_token_id is not None:
            labels[labels == self.processor.tokenizer.pad_token_id] = -100
        batch["labels"] = labels

        return batch

# データコレーターの準備
data_collator = LLavaDataCollator(processor)

(5) データセットの読み込み。

from datasets import load_dataset

# データセットの読み込み
raw_datasets = load_dataset("HuggingFaceH4/llava-instruct-mix-vsft")
train_dataset = raw_datasets["train"]
eval_dataset = raw_datasets["test"]

(6) SFTTrainerの準備と学習の開始。

from trl import SFTTrainer

# SFTTrainerの準備
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    dataset_text_field="text",  # need a dummy field
    tokenizer=tokenizer,
    data_collator=data_collator,
    dataset_kwargs={"skip_prepare_dataset": True},
)

# 学習の開始
trainer.train()

(7) モデルの保存とHuggingFace HubへのPush。

# モデルの保存とHuggingFace HubへのPush
trainer.save_model(training_args.output_dir)
trainer.push_to_hub()

いいなと思ったら応援しよう！

自然言語処理入門

1,620本

コメントするには、ログインまたは会員登録をお願いします。

Vision Language Model の 技術詳細と推論と学習

1. Vision Language Model

2. Vision Language Model の一覧

3. リーダーボード

3-1. Vision Arena

3-2. Open VLM Leaderboard

4. ベンチマーク

4-1. VLMEvalKit

4-2. LMMS-Eval

4-3. MMMU

4-4. MMBench

5. 技術詳細

5-1. LLaVA

5-2. KOSMOS-2

5-3. Fuyu-8B

6. Vision Language Model の推論

7. Vision Language Model の学習

いいなと思ったら応援しよう！

ピックアップされています

自然言語処理入門

コメント

VLMとは？視覚と言語を統合して理解するAIモデル

FEYNMAN: 知識注入型ダイアグラム生成エージェント

ビジョンモデルが絵の先生になってくれるかも

AI勉強日記｜G検定学習22日目

（メモ）最近読んだ情報など（2026/3/10）

生成AI基礎② LLM用語集

画像を読むAI「VLM」、私が試してみた

大規模マルチモーダルモデルとは何か？初心者向け解説

ChatGPTやClaudeの「中身」、覗いてみない？ ― 初心者向け LLMの作り方・仕組み完全解説+ハンズオン

2026年、マルチモーダルAIが街の安全をガチで守る時代が来てるって知ってる？

Google画像生成AIを実際にAPIで叩いて比較した——Imagen 4 vs Nano Banana 2 vs Nano Banana Pro

Mistral-Small-4-119B-2603 再び。Reasoning Mode と画像入力を試した。そして再びそっと閉じた。

【ComfyUI】ローカルLLMによるプロンプト拡張を簡単に準備する【Z-image】

ComfyUIでLLM（Qwen 3.5 4B / Qwen3-VL-8B）を試してみた

【論文】【AI】Green-VLA: 汎用ロボット制御の進化 ― 段階的学習が拓く未来

Accelerate AI through Open Source Inference _ NVIDIA GTC (NVIDIA Develoer)

中規模t2i学習用データセットの設計戦略

【YouTube】LLMの限界と次世代AI「世界モデル（World Models）」の仕組みと未来

勉強熱心なAIと会議する「ガリ勉くん」

「一眼では見えない」を解消する——CoME-VLが示す複数エンコーダVLMの可能性

【LLM最新一覧】主要モデル完全リスト（2017年〜2026年4月）

dimOS・VLA・World Model — ヒューマノイドロボットのAIスタック全体像を解説

同じVLAを作っていても、どこで差がつくのか？VLMとActionを融合する5つのアーキテクチャ

G検定⑤「第4章 応用分野と発展的なモデル 」

Hugging Face 入門 全10回-【第8回】

マルチモーダルAIの進化：LLMはいかに多様な情報を統合するか

【個人開発記録】スマホに会話できるキャラを住まわせるまで⑲～画像生成～

16GBのGPUで動く最強LLM

G検定まとめノート 第6章 ディープラーニングの応用例

実践 Vision RAG ユーザー養成講座：マルチモーダルAIによる次世代ナレッジ構築ガイド

LM Studio を使って NVIDIA-Nemotron-Nano-9B-v2-Japanese を Open WebUI で試してみた

Flux.2-klein-4B をComfyUI で動かしてみた・無料でダウンロードできる特製ワークフロー＆実際に生成された画像＆HuggingFace Space の無…

【技術構造論】ロボットの「脳」はどう作られるのか？ [2026/03/16]

1億円採用の結果とOmakase.ai開発ログ

10XでのLLMデザイン活用 8事例（2025年夏版）

AIに絶対音感トレーニングアプリ作ってもらったときのデザイン指示

VLMとは？視覚と言語を統合して理解するAIモデル

FEYNMAN: 知識注入型ダイアグラム生成エージェント

ビジョンモデルが絵の先生になってくれるかも

AI勉強日記｜G検定学習22日目

（メモ）最近読んだ情報など（2026/3/10）

生成AI基礎② LLM用語集

画像を読むAI「VLM」、私が試してみた

大規模マルチモーダルモデルとは何か？初心者向け解説

ChatGPTやClaudeの「中身」、覗いてみない？ ― 初心者向け LLMの作り方・仕組み完全解説+ハンズオン

2026年、マルチモーダルAIが街の安全をガチで守る時代が来てるって知ってる？

Google画像生成AIを実際にAPIで叩いて比較した——Imagen 4 vs Nano Banana 2 vs Nano Banana Pro

Mistral-Small-4-119B-2603 再び。Reasoning Mode と画像入力を試した。そして再びそっと閉じた。

【ComfyUI】ローカルLLMによるプロンプト拡張を簡単に準備する【Z-image】

ComfyUIでLLM（Qwen 3.5 4B / Qwen3-VL-8B）を試してみた

【論文】【AI】Green-VLA: 汎用ロボット制御の進化 ― 段階的学習が拓く未来

Accelerate AI through Open Source Inference _ NVIDIA GTC (NVIDIA Develoer)

中規模t2i学習用データセットの設計戦略

【YouTube】LLMの限界と次世代AI「世界モデル（World Models）」の仕組みと未来

勉強熱心なAIと会議する「ガリ勉くん」

「一眼では見えない」を解消する——CoME-VLが示す複数エンコーダVLMの可能性

【LLM最新一覧】主要モデル完全リスト（2017年〜2026年4月）

dimOS・VLA・World Model — ヒューマノイドロボットのAIスタック全体像を解説

同じVLAを作っていても、どこで差がつくのか？VLMとActionを融合する5つのアーキテクチャ

Vision Language Model の技術詳細と推論と学習

dimOS・VLA・World Model　　　　　 — ヒューマノイドロボットのAIスタック全体像を解説

G検定⑤「第4章　応用分野と発展的なモデル」

Hugging Face 入門全10回-【第8回】

G検定まとめノート　第6章　ディープラーニングの応用例

dimOS・VLA・World Model　　　　　 — ヒューマノイドロボットのAIスタック全体像を解説

G検定⑤「第4章　応用分野と発展的なモデル」

Hugging Face 入門全10回-【第8回】

G検定まとめノート　第6章　ディープラーニングの応用例