【推し】筆者が利用しているローカルLLM 2025年版【日本語LLM】
はじめに
筆者が利用しているローカルLLMを紹介します。定量的な評価は行っていないので、筆者が日常で利用している条件下での独断と偏見です。
以前の記事のアップデート版です。(古い)Visionモデルは以前の方が詳しいです。
筆者のローカルAI環境:
CPU:Ryzen5 3600
OS:Windows 11 Pro(24H2)
システムメモリ:64GB
GPU:NVIDIA RTX 3060 12GB
※ RTX 3060(12GB)で実用的に利用できる上限は、およそ、7Bモデルで約32Kトークン、14Bモデルで約12Kトークンになります。
Ollamaの環境変数として以下を設定しています。
OLLAMA_FLASH_ATTENTIONとOLLAMA_KV_CAHE_TYPEを設定する事で、(性能低下はありますが)利用できるnum_ctxサイズを大幅に上げる事ができます。
OLLAMA_KEEP_ALIVE=0は、ComfyUIなどの他のAIと共存させるために必須です。GPUの利用が終わった後にVRAMを即時開放します。もちろん、デメリットは都度ロードが発生するので、回答までに2〜3秒ほどラグが発生してしまう事です。
OLLAMA_HOSTやOLLAMA_ORIGINSはセキュリティ的に問題になるので、必要ない場合は設定しないでください。サーバーとしてLANからアクセスする時の設定です。
※ Windows11上でのOllama+Open WebUI利用です。
1B〜4B部門(SLM)
ノートパソコンやエントリークラスのゲーミングPCで動作するモデルです。
パラメータ規模の小さいモデルの利点は、高速である事と、GPUを利用できるゲーミングPCなら長文を扱えるので、要約や直訳に向いています。
もちろん、デメリットはおバカさんであることですが。
Qwen2.5 3B
中国アリババ社のQwenモデルです。日本語も公式対応になっています。日本語性能も無難で標準的な性能です。
※ 長文を扱える日本語モデルが少なかったのでQwen2.5 3Bは重宝していましたが、今では後述するGemma3 4BやPhi4-miniの方が多くの点で優れていると思います。
Ollama公式ライブラリから入手できます。
ollama run qwen2.5:3bパラメータ規模:3.1B
ベースモデル:qwen2
利用量子化サイズ:Q4_K_M
num_ctx:98304(最大は128k)
ローカルPCのGPUでも最大128k近くのコンテキストサイズを利用できるので、超長文の要約用途等に利用できます。日本語対応とされていますが、時々中国語(簡体字)を混ぜてしまいます。
Google Gemma 2(2B-JPN)
Googleが開発したgemma2の日本語チューニング2Bモデルです。Geminiのオープンソース版がGemmaシリーズとされています。日本語LLMは他社や個人が日本語チューニングを行う事が多いのですが、Gemma2-jpnはGoogle謹製の日本語特化モデルです。
huggingfaceページはこちら、
筆者が利用しているモデル(Ollamaライブラリからダウンロードできるezoチューニング版7shi氏ggufファイル)
ollama pull 7shi/ezo-gemma-2-jpn:2b-instruct-q8_0パラメータ規模:2.6B
ベースモデル:gemma2
利用量子化サイズ:Q8_0
num_ctx:8192
ゲーミングPCでなくとも、ほぼすべてのパソコンで動作可能だと思われます。最近のCPUであれば、GPUやNPUを利用しなくても実用的な速度で動くと思います。ただし、num_ctxの上限が8k固定なので長文は扱えません。
日本語実用モデルとしては最小のものだと思います。
Google Gemma3 4B
Google Gemmaシリーズの最新モデルです。日本語チューニング版ではありませんが、問題なく日本語を扱えます。デメリットは、最新アーキテクチャである事もあり、(Ollama側の問題だと思いますが)まだ少し動作が怪しい事です。
Ollama公式ライブラリから入手できます。
ollama pull gemma3:4bパラメータ規模:4.3B
ベースモデル:gemma3
利用量子化サイズ:Q4_K_M
num_ctx:65536(最大は128k)
【追記:2025年3月27日】ollamaライブラリのモデルに更新が入りました。筆者環境では動作速度が大きく改善しています。ollama pull gemma3:4b、ollama pull gemma3:12bで最新版に更新されます。
筆者感覚では、Gemma2-JPNよりも日本語性能が優れているように感じます。トークンサイズも大きく取れるので、ハードウェア性能で4B版が動作する環境であれば、こちらがおすすめです。
さらにVision機能も搭載しているので、画像も扱えます。多くの場合、このモデルだけで事足りるのではと思います。
※ ただし、現状は環境変数OLLAMA_FLASH_ATTENTION&OLLAMA_KV_CHACHE_TYPE併用の相性が悪いので、無効化した状態での利用です。筆者は通常はWindowsネイティブ版Ollamaを利用していますが、Gemma3だけ環境変数を分けるためにDocker版にしています。
Microsoft Phi4 mini 3.8B
マイクロソフトのPhi4のSLM版です。Gemma3のようにVision機能はありませんが、日本語性能はGemma3 4Bと同程度だと思います。
Ollama公式ライブラリから入手できます。
ollama pull phi4-miniパラメータ規模:3.8B
ベースモデル:phi3
利用量子化サイズ:Q4_K_M
num_ctx:65536(最大は128k)
7B〜14B部門
家庭のゲーミングPCで動作するローカルLLMとしては一般的な規模になります。
CyberAgent版 DeepSeek-R1 14B
世間を騒がせた中国DeepSeek社のリーズニングモデルを、日本のCyberAgent社が日本語チューニングしたモデルです。リーズニングモデルとは、回答する前に一度思考してから回答するモデルの事です。
オリジナルのDeepSeekR1モデルは天安門事件を教えてくれませんが、CyberAgent版はちゃんと答えてくれます。
ローカルで利用できる日本語リーズニングモデルの定番です。
※ ただし蒸留版なので、アーキテクチャはqwen2です。
huggingfaceのページはこちら、
筆者は自分で量子化(gguf化)したものを利用していますが、今ではOllamaライブラリにも有志の方が変換したものがあります。
パラメータ規模:14.8B
ベースモデル:qwen2
利用量子化サイズ:Q4_K_M
num_ctx:12288(最大は128k)
CyberAgent Mistral-Nemo-Japanese-Instruct-2408 12B
フランス企業のMistralとNVIDIAが開発したMistral-Nemoのモデルをベースに、同じくCyberagent社が日本語チューニングを行ったモデルです。
時々暴走する事がありますが、まともな日本語の回答をしてくれます。後述する最近のPhi4やGemma3モデルが出るまでは、それらに匹敵するローカル最高性能クラスの日本語モデルだと思います。
huggingfaceのページはこちら、
パラメータ規模:12.2B
ベースモデル:mistralai/Mistral-Nemo-Instruct-2407
利用量子化サイズ:Q4_K_M(llama.cppで量子化したもの)
num_ctx:14336(いわゆるトークンサイズでRTX 3060 12GBに収まるギリギリサイズにした値)
Microsoft Phi4 14.7B
マイクロソフトPhiシリーズの最新バージョンです。Phi3までの日本語性能はウンコ性能でしたが、Phi4は大きく改善しています。筆者感覚では、(ollama不具合の影響もありますが)後述Gemma3 12Bよりも日本語性能で優れているように感じます。
Ollama公式ライブラリから入手できます。
ollama pull phi4パラメータ規模:14.7B
ベースモデル:phi3
利用量子化サイズ:Q4_K_M
num_ctx:10240(最大は128k)
Google Gemma3 12B
Google Gemmaシリーズの最新モデルの12B版です。
日本語も流暢に扱え、マルチモーダルモデルである事もあり、ローカルLLMでは定番になるものと思われます。
※ ただし上述した理由で、Ollama利用ではまだ性能とパフォーマンスが怪しいです。
Ollama公式ライブラリから入手できます。
ollama pull gemma3:12bパラメータ規模:12.2B
ベースモデル:gemma3
利用量子化サイズ:Q4_K_M
num_ctx:?(最大は128k)
Gemma3の最大の魅力は、日本語文字の「画像」を読み取れる事です。日本語対応のローカルVisionモデルは多数存在しますが、ゲーミングPC上で日本語文字画像を読み取れるモデルはGemma3とQwen2/2.5-vlしか存在しません。そしてOllamaで利用可能なモデルはGemma3がはじめてです。
AXCXEPT Llama-3.1 8B EZO
日本のベンチャー企業AXCXEPT社のLlama 3.1の日本語チューニングモデルです。情報が少なくあまり知られていませんが、8B日本語モデルとして最高水準だと思います。
特に7〜8Bモデルであれば、筆者環境でも32Kトークンを利用できるので、長文を扱う場合に利用できます。
似たモデルに東工大&産総研のLlama-3.1-Swallow-8B-Instruct-v0.2がありますが、8Kトークンを超える長文を扱う場合は、AXCXEPT版の方が優秀のように思います。
※ Llama3.1はMeta社のLLMです
huggingfaceのページはこちら、
筆者はmradermacher氏がgguf化したモデルを利用しています。
ollamaコマンドで直接ダウンロードする場合は、
ollama pull hf.co/mradermacher/Llama-3.1-8B-EZO-1.1-it-i1-GGUF:Q6_Kパラメータ規模:8B
ベースモデル:llama
利用量子化サイズ:Q6_K
num_ctx:32768(最大は128k)
Uncensored(脱獄)部門
Uncensoredモデルとは、叡智な質問や小説に利用されるものというイメージがありますが、検閲(たとえば中国モデルで言えば天安門事件は答えないなど)をチューニングによって外したモデルです。
他にも、人間からの指示に対する反抗を防ぐ事ができます。たとえば、Geminiでは、次のようにブロックされるため会話が噛み合いません。
一方で、Uncensored版LLMでは、
大した情報ではありませんが、万人のための情報でもないので、支援者様(メンバーシップ)欄にしています。Uncensoredモデルの利用は自己責任でお願いします。
この記事が気に入ったらチップで応援してみませんか?



購入者のコメント