【NVIDIA謹製】Nemotron 3 Nano 30B A3Bを使ってみた話【ローカルLLM】
はじめに
Ollamaではまだ利用できませんが、LM Studioで利用可能になったNVIDIAのNemotron 3 Nano 30B A3Bを利用してみました。
A3B(アクティブ3B)なので、つよつよCPUならば、GPU無しでもそれなりに利用できるはずです。
※ Nemotron 3 Nano 30B A3Bのhuggingfaceページはこちら
Nemotron-3-Nano-30B-A3B-BF16 は、NVIDIA によってゼロからトレーニングされた大規模言語モデル(LLM)で、推論タスクと非推論タスクの両方に対応できる統合モデルとして設計されています。このモデルは、ユーザーの問い合わせやタスクに対してまず推論トレースを生成し、その後最終的な応答で回答します。モデルの推論機能は、チャットテンプレート内のフラグで設定できます。ユーザーが中間的な推論トレースを省略し、直接最終答案を得たい場合は、そのように設定可能です。ただし、推論を必要とする難しいプロンプトに対しては、わずかに精度が低下する可能性があります。一方、まず推論トレースを生成してから最終解答を行うことで、一般にクエリやタスクへの高品質な最終解決策が得られます。
モデルはハイブリッド Mixture-of-Experts(MoE)アーキテクチャを採用しており、23 の Mamba-2 と MoE 層、さらに 6 つの Attention 層で構成されています。各 MoE 層は 128 のエキスパートと 1 つの共有エキスパートで構成され、トークンごとに 6 エキスパートがアクティブ化されます。このモデルは 3.5B のアクティブパラメータを持ち、合計 30B パラメータを持っています。
サポートされている言語は:英語、ドイツ語、スペイン語、フランス語、イタリア語、日本語です。改善には Qwen が用いられています。
このモデルは、商用利用に備えています。
導入
LM StudioのModel Searchから導入可能です
設定と動作確認
ファイルサイズだけで20GB超えなので、多くの家庭用PCでは、GPUだけでの動作は難しいと思います。
CPUメインの動作で確認するので、GPU動作に拘らず、コンテキストサイズを大きめ(64k)にします。最大のコンテキストサイズは1Mです。
※ 一般にGPUとCPUのバランスは、GPUオフロード値とコンテキスト長で調整します。コンテキストを大きく取ると、GPUオフロードの値を下げる必要があります
GPU(RTX 3060)は1〜2割程度しか利用していないので、ほとんどCPU(Ryzen7 5700x)依存ですが、それでも快適指標である30 token/sを出します。似た規模のQwen3 30B A3Bに匹敵するパフォーマンスだと思います。
最新のつよつよCPUであれば、実用以上のパフォーマンスになると思います。
性能確認
論理推論
数学の問題
ただし、ちょっと考えすぎた(約4分)感があります。実数近似で解の確認をしていました。
画像用プロンプト作成(FLUX.2-dev用)
メタプロンプトに「天空にそびえる荘厳な神の城の画像」を入力します
※ メタプロンプト
生成されたプロンプト
{
"scene": "高く聳える神々の城が空に浮かぶ壮大な光景",
"subjects": [
{
"description": "光り輝く金色と白銀の城壁、尖塔が雲の隙間から伸びる",
"position": "画面中央上部、空へ向かって聳える",
"action": "静かに浮遊し、柔らかな光を放つ"
}
],
"style": "hyper-realistic cinematic, ultra‑detailed",
"color_palette": ["#FFD700", "#87CEEB", "#FFFFFF", "#000000"],
"lighting": "ゴールドの逆光と柔らかな拡散光、朝日の光が城全体を照らす",
"mood": "荘厳で神秘的、崇高",
"background": "青空と白い雲が広がり、遠くに星々が瞬く",
"composition": "rule of thirds, low angle from below, emphasizing height",
"camera": {
"angle": "low angle",
"lens": "85mm",
"depth_of_field": "deep focus on castle, slight bokeh on clouds"
}
}指示・想定どおりです。
まとめ
まだOllamaでアーキテクチャが利用できないのが残念ですが、CPU利用でも実用的に利用できるモデルなので、Qwen3 30B/gpt-oss 20Bに匹敵する性能と使いやすさだと思います。
以下、関連する記事の【PR】です。



コメント