【NVIDIA謹製】Nemotron 3 Nano 30B A3Bを使ってみた話【ローカルLLM】

2025年12月16日 10:21

はじめに

Ollamaではまだ利用できませんが、LM Studioで利用可能になったNVIDIAのNemotron 3 Nano 30B A3Bを利用してみました。

A3B（アクティブ3B）なので、つよつよCPUならば、GPU無しでもそれなりに利用できるはずです。

※ Nemotron 3 Nano 30B A3Bのhuggingfaceページはこちら

Nemotron-3-Nano-30B-A3B-BF16 は、NVIDIA によってゼロからトレーニングされた大規模言語モデル（LLM）で、推論タスクと非推論タスクの両方に対応できる統合モデルとして設計されています。このモデルは、ユーザーの問い合わせやタスクに対してまず推論トレースを生成し、その後最終的な応答で回答します。モデルの推論機能は、チャットテンプレート内のフラグで設定できます。ユーザーが中間的な推論トレースを省略し、直接最終答案を得たい場合は、そのように設定可能です。ただし、推論を必要とする難しいプロンプトに対しては、わずかに精度が低下する可能性があります。一方、まず推論トレースを生成してから最終解答を行うことで、一般にクエリやタスクへの高品質な最終解決策が得られます。

モデルはハイブリッド Mixture-of-Experts（MoE）アーキテクチャを採用しており、23 の Mamba-2 と MoE 層、さらに 6 つの Attention 層で構成されています。各 MoE 層は 128 のエキスパートと 1 つの共有エキスパートで構成され、トークンごとに 6 エキスパートがアクティブ化されます。このモデルは 3.5B のアクティブパラメータを持ち、合計 30B パラメータを持っています。

サポートされている言語は：英語、ドイツ語、スペイン語、フランス語、イタリア語、日本語です。改善には Qwen が用いられています。

このモデルは、商用利用に備えています。

引用：https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16のDescriptionの内容をNemotron-3-Nano-30B-A3Bで日本語に翻訳したもの

導入

LM StudioのModel Searchから導入可能です

設定と動作確認

ファイルサイズだけで20GB超えなので、多くの家庭用PCでは、GPUだけでの動作は難しいと思います。

CPUメインの動作で確認するので、GPU動作に拘らず、コンテキストサイズを大きめ（64k）にします。最大のコンテキストサイズは1Mです。

※ 一般にGPUとCPUのバランスは、GPUオフロード値とコンテキスト長で調整します。コンテキストを大きく取ると、GPUオフロードの値を下げる必要があります

GPU（RTX 3060）は1〜2割程度しか利用していないので、ほとんどCPU（Ryzen7 5700x）依存ですが、それでも快適指標である30 token/sを出します。似た規模のQwen3 30B A3Bに匹敵するパフォーマンスだと思います。

最新のつよつよCPUであれば、実用以上のパフォーマンスになると思います。

性能確認

論理推論

数学の問題

正解です。難無くこなしています。
ただし、ちょっと考えすぎた（約4分）感があります。実数近似で解の確認をしていました。

画像用プロンプト作成（FLUX.2-dev用）

メタプロンプトに「天空にそびえる荘厳な神の城の画像」を入力します

※ メタプロンプト

生成されたプロンプト

{
  "scene": "高く聳える神々の城が空に浮かぶ壮大な光景",
  "subjects": [
    {
      "description": "光り輝く金色と白銀の城壁、尖塔が雲の隙間から伸びる",
      "position": "画面中央上部、空へ向かって聳える",
      "action": "静かに浮遊し、柔らかな光を放つ"
    }
  ],
  "style": "hyper-realistic cinematic, ultra‑detailed",
  "color_palette": ["#FFD700", "#87CEEB", "#FFFFFF", "#000000"],
  "lighting": "ゴールドの逆光と柔らかな拡散光、朝日の光が城全体を照らす",
  "mood": "荘厳で神秘的、崇高",
  "background": "青空と白い雲が広がり、遠くに星々が瞬く",
  "composition": "rule of thirds, low angle from below, emphasizing height",
  "camera": {
    "angle": "low angle",
    "lens": "85mm",
    "depth_of_field": "deep focus on castle, slight bokeh on clouds"
  }
}

指示・想定どおりです。

まとめ

まだOllamaでアーキテクチャが利用できないのが残念ですが、CPU利用でも実用的に利用できるモデルなので、Qwen3 30B/gpt-oss 20Bに匹敵する性能と使いやすさだと思います。

以下、関連する記事の【PR】です。

いいなと思ったら応援しよう！

ブログ

418本

コメントするには、ログインまたは会員登録をお願いします。

買うたび抽選 ※条件・上限あり＼note クリエイター感謝祭ポイントバックキャンペーン／最大全額もどってくる！ 12.1 月〜1.14 水まで

【NVIDIA謹製】Nemotron 3 Nano 30B A3Bを使ってみた話【ローカルLLM】

はじめに

導入

設定と動作確認

性能確認

論理推論

数学の問題

画像用プロンプト作成（FLUX.2-dev用）

まとめ

いいなと思ったら応援しよう！

ピックアップされています

ブログ

コメント

forge-NEOでLLMチャレンジ(ZIT)

RTX3060 12GB で Mistral 3 14B Reasoning を使ってみた

LMStudioのQwen3-NEXT-80BがRTX3060/12GBで動いた！他社よりも高パラメータモデルが動くQwen3のすごさとは？

Lemonade Serverに統合されたFLMが結構すごい

Text-generation-webui@Paperspace x Python3.13 2025/11

Nano Banana Pro：Gemini 3 Pro Image実力を検証！デザイン、数学、迷路

低価格帯ノートPCにローカルLLMを入れてみた

llama.cpp攻略！ローカルLLM環境構築からGGUF変換、推論実行まで

DGX Spark：LLM の性能とは

ラズパイでLLMはじめてみた。その2（３つのLLMに「航空券が安くて楽しめる海外旅行のプランをいくつか教えて下さい」※外部接続無し）

気になるローカルLLMを動かす

Ollama 徹底活用ガイド：2024年後半〜2025年最新トレンドとローカルLLM開発 AI記事

AI環境を構築せよ。情報漏洩ゼロの「Ollama」入門

久々にMacでローカルLLMを試す

プログラミング素人でもローカルLLMを改造してAIを進化させる実験をする方法

【ひとりだちDX】n8nとOllamaをセルフホストで動かす（Linux環境）

gpt-oss-120bをRTX PRO6000 (Blackwell)で動かしてみた。

【無料で最新AIが使える！】LM arenaを使い倒す

ローカルLLM向けPCを導入する際のスペック比較早見表

GB10 1台でNIM + Open WebUIを接続して、別PCから操作できるようにする（その1）

LongCat-Image/Editを試してみた

NVIDIA ライブストリーム : NemotronとAIエージェント

ローカルLLMをRadeon RX 9060XTで動かしてみる

【2025年最新版】LLM開発におすすめのPC徹底比較 個人でも「自分のAIモデル」を育てられる時代へ

MacでローカルLLM完全実践ガイド

実写とイラストの融合（NanoBanana）

Nano Banana Pro に期待🍌

貧乏人のローカルLLM

【AI・5行要約】PFN×NICT、日本語強化LLM "PLaMo 3"の挑戦

各社LLMの使用チップを調べてみた

NVIDIA 自動運転をオープンソースとして提供自動運転・ロボットでの覇権を狙う

Ollamaにクラウドモデルがあるので試してみた！

【Gemini 3】話題の「Nano-Banana Pro」でプロ級のポンチ絵をCLIから爆速生成！CLIツール llm-cli 活用ガイド

GX10でローカルLLM+web検索:ローカルLLMチャレンジ4/1000日目

ローカルで動くAIに興味がわいた

自身の同棲経験をもとにサービス企画！カップル向け部屋探しアプリ 『ぺやさがし』誕生秘話

forge-NEOでLLMチャレンジ(ZIT)

RTX3060 12GB で Mistral 3 14B Reasoning を使ってみた

LMStudioのQwen3-NEXT-80BがRTX3060/12GBで動いた！他社よりも高パラメータモデルが動くQwen3のすごさとは？

Lemonade Serverに統合されたFLMが結構すごい

Text-generation-webui@Paperspace x Python3.13 2025/11

Nano Banana Pro：Gemini 3 Pro Image実力を検証！デザイン、数学、迷路

低価格帯ノートPCにローカルLLMを入れてみた

llama.cpp攻略！ローカルLLM環境構築からGGUF変換、推論実行まで

DGX Spark：LLM の性能とは

ラズパイでLLMはじめてみた。その2（３つのLLMに「航空券が安くて楽しめる海外旅行のプランをいくつか教えて下さい」※外部接続無し）

気になるローカルLLMを動かす

Ollama 徹底活用ガイド：2024年後半〜2025年最新トレンドとローカルLLM開発 AI記事

AI環境を構築せよ。情報漏洩ゼロの「Ollama」入門

久々にMacでローカルLLMを試す

プログラミング素人でもローカルLLMを改造してAIを進化させる実験をする方法

【ひとりだちDX】n8nとOllamaをセルフホストで動かす（Linux環境）

gpt-oss-120bをRTX PRO6000 (Blackwell)で動かしてみた。

【無料で最新AIが使える！】LM arenaを使い倒す

ローカルLLM向けPCを導入する際のスペック比較早見表

GB10 1台でNIM + Open WebUIを接続して、別PCから操作できるようにする（その1）

LongCat-Image/Editを試してみた

NVIDIA ライブストリーム : NemotronとAIエージェント

ローカルLLMをRadeon RX 9060XTで動かしてみる

【2025年最新版】LLM開発におすすめのPC徹底比較 個人でも「自分のAIモデル」を育てられる時代へ

MacでローカルLLM完全実践ガイド

実写とイラストの融合（NanoBanana）

Nano Banana Pro に期待🍌

貧乏人のローカルLLM

【AI・5行要約】PFN×NICT、日本語強化LLM "PLaMo 3"の挑戦

各社LLMの使用チップを調べてみた

NVIDIA 自動運転をオープンソースとして提供自動運転・ロボットでの覇権を狙う

【2025年最新版】LLM開発におすすめのPC徹底比較　個人でも「自分のAIモデル」を育てられる時代へ

NVIDIA　自動運転をオープンソースとして提供自動運転・ロボットでの覇権を狙う

自身の同棲経験をもとにサービス企画！カップル向け部屋探しアプリ『ぺやさがし』誕生秘話

【2025年最新版】LLM開発におすすめのPC徹底比較　個人でも「自分のAIモデル」を育てられる時代へ

NVIDIA　自動運転をオープンソースとして提供自動運転・ロボットでの覇権を狙う

自身の同棲経験をもとにサービス企画！カップル向け部屋探しアプリ『ぺやさがし』誕生秘話