Gemma 4 技術仕様詳細レポート (特にマルチモーダルについて)
gemma4のモデルごとのマルチモーダル機能について再確認をしたく、Gemninに調べてもらいました。4種類のモデルには、よく言われる音声が扱える差以外にも想定用途に合わせた機能差が合って興味深いので記事に纏めました。AI出力は修正しているので、原文とは異なりますが、ところどころAI臭が残っていることはご容赦ください。
1.モデル別マルチモーダル対応表
Gemma 4は全モデルが「目(画像・ビデオ)」を持っています
一方で「耳(音声)」をネイティブで持っているのは小型モデルのみという構成になっています。
画像・ビデオ音声 (Audio)最適なデバイス
Effective 2B (E2B) 2.3B スマホ、Raspberry Pi
Effective 4B (E4B) 4.5B ラップトップ、Jetson
ビデオ音声 (Audio)と音声付き画像非対応
26B A4B (MoE) 26B 般的なデスクトップGPU
31B Dense 30.7B VRAM-48G 等
E2B/E4Bは外部の音声認識(Whisper等)を介さず、音声を直接トークンとして処理します。これにより、感情のニュアンスまで汲み取った超低遅延(0.5秒以下)の対話が可能になります。
1. 音声 (Audio) のネイティブ対応【E2B / E4B のみ】
今回の Gemma 4 の最大の特徴は、軽量モデルである E2B と E4B に音声エンコーダーが内蔵されたことです。
仕組み: Whisper などの外部モデルを介さず、モデルが直接音声を理解します。
メリット: 音声認識(ASR)や音声翻訳を、スマホやPCのローカル環境で「1つのモデル」かつ「極めて低遅延」に実行できます。AITuber のようなリアルタイム性が求められる用途には、この小型モデルが最適です。
2. 動画 (Video) の理解能力
全モデルで動画の入力に対応していますが、挙動に少し違いがあります。
小型モデル (E2B/E4B): 音声付き動画をそのまま理解できます。
大型モデル (26B/31B): 基本的に「フレーム(画像)の連続」として動画を解析します。音声情報は処理できませんが、その分、1フレームごとの画像解析精度や論理的推論(何が起きているかの説明)は非常に強力です。
3. 画像 (Image) 解析の進化
全てのモデルで、可変アスペクト比・可変解像度に対応しました。
グラフやチャート、OCR(文字読み取り)、UI画面の理解など、これまで大型モデルでしか難しかったタスクを 2B や 4B でも実用レベルでこなせるようになっています。
Gemma 4 の Effective 2B(E2B)
Gemma 4 の Effective 2B(E2B) は、単なる「最小サイズ」というだけでなく、上位モデルにはない独自の役割と設計を持っています。
1. 「ネイティブ音声入力」による超低遅延対話
上位の 26B や 31B モデルは、画像や動画は理解できますが、音声を直接聴くことはできません。音声認識(ASR)を別のモデル(Whisperなど)で行う必要があります。
E2B の強み: 音声波形を直接テキスト生成に繋げられるため、「聴いてから答える」までのプロセスを 1 つのモデル内で完結できます。
実用メリット: AITuber の「耳」として機能させた際、外部 ASR を介さない分、レスポンスの遅延(レイテンシ)を劇的に削れます。
2. 「Shared KV Cache」による省メモリ特化
E2B モデルは、他のサイズよりも極限までメモリ効率を追求したアーキテクチャを採用しています。
仕組み: モデルの深い層(最後の数レイヤー)で、前の層の KV キャッシュを再利用する Shared KV Cache という仕組みを導入しています。
実用メリット: コンテキスト(記憶)を長く保ちながらも、KV キャッシュの肥大化を抑えられます。スマホや Raspberry Pi、あるいは NVIDIA Jetson Orin Nano のような、VRAM が極めて限られた環境で 128K トークンを回し切れるのは、この最適化がある E2B ならではの芸当です。
3. スマートフォン・エッジデバイスへの「完全オフライン実装」
31B モデルを動かすには モンスター級の GPU が必要ですが、E2B は Android や iOS の AICore(Litert / Core ML)上で完全にネイティブ動作するように設計されています。
特権: クラウドを一切介さず、デバイス内の電力消費(バッテリー持ち)を考慮した「MatFormer」構造をベースにしています。
実用メリット: 「常に手元で動き続ける、声の聞こえる AI エージェント」を作るなら、上位モデルよりも E2B の方が遥かに安定して長時間稼働させられます。
役割 モデル選択
最高精度の思考・複雑な推論 31B Dense
コスパと速度のバランス 26B MoE
リアルタイム音声対話・エッジ動作 E2B
E2B/E4Bの差はモデルの大きさだけか?
E2B は、いわば 「五感(特に耳)が敏感で、どこにでも潜り込める身軽な末っ子」 です。大きなVRAMなら、メインの思考は 31B に任せ、「ユーザーの声をリアルタイムで聞き取って要約するフロントエンド」 として E2B を並列で走らせるような構成が、最も実用的な「最強の布陣」になるかもしれません。
2B と E4B(Effective シリーズ)の差は、単なるパラメータ数の違い(モデルの大きさ)だけに留まらず、その**「設計思想と運用目的」**に明確な違いがあります。
具体的な3つの異なるポイント
1. 「マルチモーダル性能」の深度
どちらも画像・動画を扱えますが、特に**音声(Audio)**に関する最適化の度合いが異なります。
E2B(超軽量・リアルタイム特化): 音声認識や翻訳において、精度よりも**「レイテンシ(反応速度)」**を極限まで優先した設計です。スマートフォンのバックグラウンドで常に待機し、ユーザーの「あ、」という声に即座に反応するような、ウェアラブルデバイスや常時起動型AIに特化しています。
E4B(バランス型・実用推論特化): E2B よりも「音声を聴き取った後の論理的な判断」に重きを置いています。例えば、ユーザーの話し方から感情を読み取ったり、騒がしい場所での聞き取り精度を維持したりする能力は、パラメータに余裕のある E4B の方が一段階上です。
2. アーキテクチャの微細な違い(MatFormer)
Gemma 4 の Effective シリーズは、MatFormer という「モデルの一部を切り出しても動く」特殊な構造をベースにしていますが、その「切り出し方」の柔軟性が異なります。
E2B: メモリ消費を抑えるために、一部の層で Shared KV Cache(キャッシュの共有)をよりアグレッシブに行っています。これにより、長い会話でも VRAM をほとんど消費しません。
E4B: 推論の「厚み」を出すために、フルアテンションに近い計算リソースを割り当てています。E2B が「効率重視のメモ帳」なら、E4B は「要点を逃さないノート」といったイメージです。
3. VRAM 24GB〜48GB 環境での「役割」
高性能な環境では、この 2 つの差は「並列数」として現れます。
E2B: VRAM をほとんど使わないため、メインの 31B モデルを動かしながら、裏で 10個以上のエージェントとして同時に走らせる ことが可能です(マルチエージェント・オーケストレーション)。
E4B: 1つ1つの個体がある程度の思考能力を持つため、31B の「有能な秘書」として、複雑なタスク(コードの整形や、長文の要約)を単独で任せるのに適しています。


コメント