【2025年】年末ローカルAIまとめ①【パソコンLLMの基本】
はじめに
2025年12月現在、筆者が主に利用しているローカルAIに関する基本やもろもろを紹介します。①はLLMに関するもの②は画像生成AIを予定しています。
ローカルLLM(大規模言語モデル)
基礎知識
ChatGPTやGeminiのようなAIチャットをローカルで実行できます。ただし、一般にNVIDIA製のGPUを搭載した高性能なゲーミングPCが必要になります。
※ 最近はAMD製GPUも、どんどんAI性能を上げてきています
CPU/GPUの演算速度も大切ですが、ゲーム用途と大きく異なる点は、システムメモリとGPUメモリ容量の大きさが最重要です。特に、最も重視すべき点はVRAM容量です。ミドルクラスGPUの場合は選択肢が限られるので、次がおすすめです。2025年現在、多くのAIモデルを実用的に利用する事が可能です。
NVIDIA Geforce RTX 3060 (12GB)
NVIDIA Geforce RTX 4060 ti (16GB)
NVIDIA Geforce RTX 5060 ti (16GB)
エントリー・ミドルクラスのゲーミングPCでは、依然として8GBが主流なので、ゲーム目的でなくAI目的であれば、世代や演算性能を犠牲にしても、よりVRAMの大きなGPUカードを選んでください。
※ 例:5060ti(8GB)よりも4060ti(16GB)の方が、AI用途であれば圧倒的に良い
ローカルLLMは、知識を問う用途に関しては、RAG等を利用しない限り、クラウド商用AIサービスに全く及びません(というか使い物になりません)が、ローカル内のデータで完結する作業に関しては十分すぎる実用レベルに達していると思います。
※ 筆者はollama + OpenWebUIで利用しています
Alibaba Qwen3 30B A3B 2507
※ オープンウェイトのAIモデルは、当初は米国MetaのLlamaが主流でしたが、今は中国Alibaba Qwenが欧米でも支配的になっています
Qwen3 30B A3B 2507は、筆者が主に利用しているモデルです。
30Bパラメータのモデルですが、実際の計算に利用されるアクティブ・パラメータを3Bに抑えるMoE(Mixture of Expers)アーキテクチャなので、非常に高速に動作します。
Qwen3 30B A3B 2507シリーズは次のバリエーションがあります。ローカルで利用する場合は、用途別に分かれている方が何かと使いやすいと思います。
✅ Qwen3-30B-A3B-Instruct-2507
思考(リーズニング)を利用しないモデル
✅ Qwen3-30B-A3B-Thinking-2507
回答する前に、思考(リーズニング)を利用するモデル
✅ Qwen3-Coder-30B-A3B-Instruct
プログラミング・コードを生成するモデル
一般的なゲーミングPCである8GBや12GBのVRAMでは、重みのすべてをVRAM上に配置する事はできませんが、実際に利用する演算処理数は3Bモデルのものと変わらないため、一部や全部をCPUで演算したり、システムメモリをVRAMのスワップとして利用しても、実用的な速度で利用できます。もちろん、大容量のシステムメモリが必要です。(32GBはギリギリで、64GB以上が推奨)
次に、ローカルLLMを利用する必須知識のひとつとして、量子化モデルという概念があります。JPEG画像圧縮(量子化)と同じ用途・概念と考えて問題ありません。非圧縮デジカメ画像を利用する事がほとんどないのと同様に、利用できる演算資源が限られるローカルで利用する場合は必須の技術(不可逆圧縮形式)です。
AIニューラルネットワークの重み(ニューロン間の接続の強さ)は、画像と同じ準アナログデータとも言えるので、人間にとって劣化がわからない品質を保ったまま、どの程度の圧縮モデルを選ぶのかが重要になります。
JPEG画像の場合は、圧縮なしRAWデータから比較すると1/10以下程度の圧縮率が一般的ですが、LLMの場合は、圧縮なし16bit(または32bit)→4bitの1/4(例:Q4_K_M量子化)が品質とサイズのバランスが良いものとされています。
ただし、筆者が利用しているQwen3 30B A3Bはさらに特殊な高圧縮のものを利用しています。Q4_K_Mよりも2/3以下のサイズになります。性能劣化もほとんどありません。
※ Intelの量子化版
※ 次のollamaコマンドで入手可能です
# Instruct版
ollama pull huggingface.co/Intel/Qwen3-30B-A3B-Instruct-2507-gguf-q2ks-mixed-AutoRound:Q2_K_S
# Thinking版
ollama pull huggingface.co/Intel/Qwen3-30B-A3B-Thinking-2507-gguf-q2ks-mixed-AutoRound:Q2_K_S
# Coder版
ollama pull huggingface.co/Intel/Qwen3-Coder-30B-A3B-Instruct-gguf-q2ks-mixed-AutoRound:Q2_K_SLLMのコンテキストサイズに関して
静的サイズを下げる事によって、VRAMに重みデータをすべて保存する事が可能になりますが、もう一つ重要な利点があります。LLMを実行するには動的データもVRAMに確保する必要があるからです。
入力として大量のデータをインプットしたりアウトプットするには、コンテキストサイズを大きく取る必要があります。画像生成AIでも、解像度を上げると必要なVRAMが増えるように、LLMでも大量の文脈を扱うためには、より多くのVRAMを必要とします。
つまり概算として、【静的データ】+【動的データ】をVRAM内に抑える事ができれば、もっとも効率よくGPU演算ができます。
ファイルサイズ(静的データ) + 入出力の文脈コンテキスト(動的データ) < GPUメモリサイズ
例として、RTX 5060ti(16GB)で利用する場合、コンテキストサイズが32k(約3万日本語文字)であれば、すべてGPU内に収まります
ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
61-qwen3-30b-a3b:latest f1e8bac96d05 14 GB 100% GPU 32768 Stopping...しかし、64kに増やすと10%溢れてしまいます。
ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
61-qwen3-30b-a3b:latest 47b01dd36250 17 GB 10%/90% CPU/GPU 65536 Stopping...※ GPU内に収まる状態では118 token/sですが、1割溢れた状態では47 token/sになってしまいます。
文脈を扱う動的データ側にも量子化手法があり、ollamaでは次の環境変数で変更できます。この手法を利用すれば、コンテキスト96kまでGPU内に収まり、110 token/sで動作します。
NAME ID SIZE PROCESSOR CONTEXT UNTIL
61-qwen3-30b-a3b:latest 3782487066de 16 GB 100% GPU 98304 Stopping...ただし、逆にパフォーマンスが落ちたり、劣化が激しくなるモデルもあるため注意が必要です。
※ Qwen3 30B A3BのQ8_0は、ほとんど劣化しないようです
# ollamaでは合わせて設定する必要があります
OLLAMA_FLASH_ATTENTION=1
# 圧縮なし
OLLAMA_KV_CACHE_TYPE=f16
# 圧縮あり(1/2)
OLLAMA_KV_CACHE_TYPE=Q8_0
# さらに圧縮(1/4あまり実用的でない)
OLLAMA_KV_CACHE_TYPE=Q4_0OpenAI gpt-oss 20B
ローカルLLM人気の火付け役になったモデルです。無難な性能で、それなりの長さの実データコンテキストを扱う場合は、上記(intel量子化版の)Qwen3 30B A3Bよりも高速に動作します。同じVRAMサイズなら、コンテキスト最大サイズも、より大きなものが扱えると思います。
ただし、思考(リーズニング)ありモデルしかないのが弱点です。
アーキテクチャはMoEなので、Qwen3 30Bと同じ理屈で高速動作します。
(分野や使い方によって一長一短はありますが)総合的な性能は、Qwen3 30B Thinkingとほぼ拮抗し、甲乙つけがたいぐらいと筆者は考えています。
公式ollamaライブラリ版(モデル名しかないもの)が最も安定動作すると思います。
# ダウンロード
ollama pull gpt-oss:latestAlibaba Qwen3 4B 2507
※ Alibaba最新の画像生成AIのZ-Imageのテキストエンコーダーとして利用されているモデルです
Qwen3の4B版です。一般的なゲーミングPCの8G VRAMでも十分実用的に利用できます。CPUオンリーでも、最新つよつよCPUなら、実用以上の動作速度になります。
さらに、雑魚8Bモデルでは、Qwen3 4B 2507モデルの足元にも及ばないぐらいSLMとは思えない超高性能のおすすめモデルです。
※ 欧米ではそれほど絶賛されませんが、(筆者の推測ですが)日本語を扱える小さな規模のモデルが少なかったからだと思います。
4B版も思考(リーズニング)あり・なしで分かれています。※ 両者とも2507(2025年7月)モデルです。
# デフォルトはQ4_K_M
# リーズニングなし
ollama pull qwen3:4b-instruct
# リーズニングあり
ollama pull qwen3:4b-thinkingローカル運用では、知識よりも論理性能が重要になりますが、十分すぎる性能を持っています。
8Bモデルはおろか、他のほとんどの10〜16B前後のパラメータモデルをも凌駕する性能です。
上記テストは、20B以上のモデルでも失敗するものが大半で、1年前では、クラウドAIでも失敗していたものです。
ローカルVLM(視覚言語モデル)
基礎知識
LLMに視覚機能を持たせたモデルです。画像を入力として利用する事ができます。完全に閉じた環境で利用できるローカルAIでは、最も便利な用途の一つです。
※ 機密情報・著作物・個人情報・その他の理由で、画像ファイルを外部のクラウド・サーバーに提供・アップロードする行為は、(利用規約関係なく)文字チャットよりも解決すべきハードルが高くなります
ローカルなので、ありとあらゆる目に写る・画面に写る画像を、何も考えずにスクリーンショット&コピペ利用できます。
LLMチャットやAPI利用でも言えることですが、クラウドAI利用のリテラシーとして、利用する際に「クラウドへ入力しても良い内容か」という思考ブロック(判断)を必ず挟む必要があります。ある意味、絶対に無くしてはならない重要な思考・判断です。
しかし、完全にローカルで閉じた環境であれば、この「ブロック」を意識の外へ追い出し(誰にも干渉されない)内心の一部とすることができます。AIを自分の脳や思考の延長として利用したいのであれば、多少の訓練は必要ですが、この思考中の障壁外しは非常に重要な概念だと思います。
最近公開のVLMは、ほぼすべて日本語対応ですが、画像上の日本語を読み込めるモデルが増えたのは、2025年になってからです。
Alibaba Qwen3 VL 30B
上述のローカルLLM Qwen3 30B A3Bに視覚機能を持たせたモデルです。2025年現在では、パソコンで動作するローカルVLM最高峰の性能です。
LLM性能は通常のQwen3 30Bと同じか若干劣る程度ですが、画像を利用しなくても必要VRAMが増えます。
Qwen3 VLでは、LLMと同じくリーズニングありなしモデルに分かれています
# ollama公式モデル・リーズニング版
ollama pull qwen3-vl:30b
# リーズニングなし
ollama pull qwen3-vl:30b-a3b-instruct筆者環境(24GB VRAM)でも、32kコンテキストでGPUメモリ内に収める事はできません。
しかしMoEなので、CPUを利用しても30 token/s程度で動作します。
Alibaba Qwen3 VL 8B
(MoEでない)Qwen3 VLのより小さな8Bモデルです。
# ollama公式モデル・リーズニング版(デフォルトが8B thinkingモデルです)
ollama pull qwen3-vl
# リーズニングなし
ollama pull qwen3-vl:8b-instructコンテキストサイズを大きく設定しなければ、8GB VRAMのGPUでも十分実用的に動作するモデルです。
ただし、Qwen3 VLのクセのようなものがあり、無限ループ暴走しやすいです。少し工夫が必要です。
Mistral Magistral Small 2509
フランスMistralのMagistralも画像を入力として扱えます。
筆者用途ではQwen3 VL 30Bに次ぐVLM性能だと思います。Qwen3 VL 30Bには及びませんが、画像内の日本語も扱えるモデルです。
ただし、MoEではないので重いです。
Google Gemma3 4B/12B/27B
※ 最近のGoogleは、大型フラッグシップモデルの公開をせずに、オープンコミュニティへは、小型モデルとLLM周辺技術に力を入れているようです。公開された当初は、Gemma3は最高性能のモデルの一つでしたが、27Bモデルであっても、最近公開のモデルやQwen3、gpt-ossに比べると見劣りしてしまいます。
4Bよりも大きなモデルは、Vision機能も利用できます。しかしVision性能は、Qwen2.5/3 VLに大きく劣る性能だと思います。(※ llama.cppを利用する限り、Gemma3のVision性能を出しきれないという情報もあり)
Gemma3には、モバイルデバイスなどの小さな環境でより高性能に動作することを目的としたGemma 3nシリーズがあります。筆者が試す限りでは、4Bモデル以上、12Bモデル以下という性能だと思います。
※ つまりQwen 4Bに完全に劣るという…
そして、謳い文句はマルチモーダル対応なのですが、llama.cppやggufの制限により、ollamaやlm-studioではVision機能を利用できません…
しかもlm-studioは「Vision機能対応」マークがついているにも関わらず、実際は利用できないという有様です。利用者も少なく、あまり積極的にGoogle側の貢献やメンテナンスがないのかもしれません
※ ②へつづく
Uncensored LLM(非検閲・脱獄LLM)
万人向けの情報ではないので、支援者様(メンバーシップ)限定にさせてもらいます。
ここから先は
この記事が気に入ったらチップで応援してみませんか?



購入者のコメント