見出し画像

【推し】筆者が利用しているローカルLLM 2025年版【日本語LLM】

はじめに

筆者が利用しているローカルLLMを紹介します。定量的な評価は行っていないので、筆者が日常で利用している条件下での独断と偏見です。

以前の記事のアップデート版です。(古い)Visionモデルは以前の方が詳しいです。

筆者のローカルAI環境:

  • CPU:Ryzen5 3600

  • OS:Windows 11 Pro(24H2)

  • システムメモリ:64GB

  • GPU:NVIDIA RTX 3060 12GB

※ RTX 3060(12GB)で実用的に利用できる上限は、およそ、7Bモデルで約32Kトークン、14Bモデルで約12Kトークンになります。

Ollamaの環境変数として以下を設定しています。

  • OLLAMA_FLASH_ATTENTIONとOLLAMA_KV_CAHE_TYPEを設定する事で、(性能低下はありますが)利用できるnum_ctxサイズを大幅に上げる事ができます。

  • OLLAMA_KEEP_ALIVE=0は、ComfyUIなどの他のAIと共存させるために必須です。GPUの利用が終わった後にVRAMを即時開放します。もちろん、デメリットは都度ロードが発生するので、回答までに2〜3秒ほどラグが発生してしまう事です。

  • OLLAMA_HOSTやOLLAMA_ORIGINSはセキュリティ的に問題になるので、必要ない場合は設定しないでください。サーバーとしてLANからアクセスする時の設定です。

画像
Ollama 環境変数

※ Windows11上でのOllama+Open WebUI利用です。

1B〜4B部門(SLM)

ノートパソコンやエントリークラスのゲーミングPCで動作するモデルです。

パラメータ規模の小さいモデルの利点は、高速である事と、GPUを利用できるゲーミングPCなら長文を扱えるので、要約や直訳に向いています。

もちろん、デメリットはおバカさんであることですが。

Qwen2.5 3B

中国アリババ社のQwenモデルです。日本語も公式対応になっています。日本語性能も無難で標準的な性能です。

※ 長文を扱える日本語モデルが少なかったのでQwen2.5 3Bは重宝していましたが、今では後述するGemma3 4BやPhi4-miniの方が多くの点で優れていると思います。

Ollama公式ライブラリから入手できます。

ollama run qwen2.5:3b

パラメータ規模:3.1B
ベースモデル:qwen2
利用量子化サイズ:Q4_K_M
num_ctx:98304(最大は128k)

ローカルPCのGPUでも最大128k近くのコンテキストサイズを利用できるので、超長文の要約用途等に利用できます。日本語対応とされていますが、時々中国語(簡体字)を混ぜてしまいます。

Google Gemma 2(2B-JPN)

Googleが開発したgemma2の日本語チューニング2Bモデルです。Geminiのオープンソース版がGemmaシリーズとされています。日本語LLMは他社や個人が日本語チューニングを行う事が多いのですが、Gemma2-jpnはGoogle謹製の日本語特化モデルです。

huggingfaceページはこちら、

筆者が利用しているモデル(Ollamaライブラリからダウンロードできるezoチューニング版7shi氏ggufファイル)

ollama pull 7shi/ezo-gemma-2-jpn:2b-instruct-q8_0

パラメータ規模:2.6B
ベースモデル:gemma2
利用量子化サイズ:Q8_0
num_ctx:8192

ゲーミングPCでなくとも、ほぼすべてのパソコンで動作可能だと思われます。最近のCPUであれば、GPUやNPUを利用しなくても実用的な速度で動くと思います。ただし、num_ctxの上限が8k固定なので長文は扱えません。

日本語実用モデルとしては最小のものだと思います。

Google Gemma3 4B

Google Gemmaシリーズの最新モデルです。日本語チューニング版ではありませんが、問題なく日本語を扱えます。デメリットは、最新アーキテクチャである事もあり、(Ollama側の問題だと思いますが)まだ少し動作が怪しい事です。

Ollama公式ライブラリから入手できます。

ollama pull gemma3:4b

パラメータ規模:4.3B
ベースモデル:gemma3
利用量子化サイズ:Q4_K_M
num_ctx:65536(最大は128k)

【追記:2025年3月27日】ollamaライブラリのモデルに更新が入りました。筆者環境では動作速度が大きく改善しています。ollama pull gemma3:4b、ollama pull gemma3:12bで最新版に更新されます。

画像
画像は12B版ですが、ちゃんと仕様通りの表示になっています。以前は8192でした。※ この表示はただのメタデータなので、本体バグ?の修正が重要ですが

筆者感覚では、Gemma2-JPNよりも日本語性能が優れているように感じます。トークンサイズも大きく取れるので、ハードウェア性能で4B版が動作する環境であれば、こちらがおすすめです。

さらにVision機能も搭載しているので、画像も扱えます。多くの場合、このモデルだけで事足りるのではと思います。

画像

※ ただし、現状は環境変数OLLAMA_FLASH_ATTENTION&OLLAMA_KV_CHACHE_TYPE併用の相性が悪いので、無効化した状態での利用です。筆者は通常はWindowsネイティブ版Ollamaを利用していますが、Gemma3だけ環境変数を分けるためにDocker版にしています。

Microsoft Phi4 mini 3.8B

マイクロソフトのPhi4のSLM版です。Gemma3のようにVision機能はありませんが、日本語性能はGemma3 4Bと同程度だと思います。

Ollama公式ライブラリから入手できます。

ollama pull phi4-mini

パラメータ規模:3.8B
ベースモデル:phi3
利用量子化サイズ:Q4_K_M
num_ctx:65536(最大は128k)

7B〜14B部門

家庭のゲーミングPCで動作するローカルLLMとしては一般的な規模になります。

CyberAgent版 DeepSeek-R1 14B

世間を騒がせた中国DeepSeek社のリーズニングモデルを、日本のCyberAgent社が日本語チューニングしたモデルです。リーズニングモデルとは、回答する前に一度思考してから回答するモデルの事です。

オリジナルのDeepSeekR1モデルは天安門事件を教えてくれませんが、CyberAgent版はちゃんと答えてくれます。

ローカルで利用できる日本語リーズニングモデルの定番です。

※ ただし蒸留版なので、アーキテクチャはqwen2です。

huggingfaceのページはこちら、

筆者は自分で量子化(gguf化)したものを利用していますが、今ではOllamaライブラリにも有志の方が変換したものがあります。

パラメータ規模:14.8B
ベースモデル:qwen2
利用量子化サイズ:Q4_K_M
num_ctx:12288(最大は128k)

CyberAgent Mistral-Nemo-Japanese-Instruct-2408 12B

フランス企業のMistralとNVIDIAが開発したMistral-Nemoのモデルをベースに、同じくCyberagent社が日本語チューニングを行ったモデルです。

時々暴走する事がありますが、まともな日本語の回答をしてくれます。後述する最近のPhi4やGemma3モデルが出るまでは、それらに匹敵するローカル最高性能クラスの日本語モデルだと思います。

huggingfaceのページはこちら、

パラメータ規模:12.2B
ベースモデル:mistralai/Mistral-Nemo-Instruct-2407
利用量子化サイズ:Q4_K_M(llama.cppで量子化したもの)
num_ctx:14336(いわゆるトークンサイズでRTX 3060 12GBに収まるギリギリサイズにした値)

Microsoft Phi4 14.7B

マイクロソフトPhiシリーズの最新バージョンです。Phi3までの日本語性能はウンコ性能でしたが、Phi4は大きく改善しています。筆者感覚では、(ollama不具合の影響もありますが)後述Gemma3 12Bよりも日本語性能で優れているように感じます。

Ollama公式ライブラリから入手できます。

ollama pull phi4

パラメータ規模:14.7B
ベースモデル:phi3
利用量子化サイズ:Q4_K_M
num_ctx:10240(最大は128k)

Google Gemma3 12B

Google Gemmaシリーズの最新モデルの12B版です。

日本語も流暢に扱え、マルチモーダルモデルである事もあり、ローカルLLMでは定番になるものと思われます。

※ ただし上述した理由で、Ollama利用ではまだ性能とパフォーマンスが怪しいです。

Ollama公式ライブラリから入手できます。

ollama pull gemma3:12b

パラメータ規模:12.2B
ベースモデル:gemma3
利用量子化サイズ:Q4_K_M
num_ctx:?(最大は128k)

Gemma3の最大の魅力は、日本語文字の「画像」を読み取れる事です。日本語対応のローカルVisionモデルは多数存在しますが、ゲーミングPC上で日本語文字画像を読み取れるモデルはGemma3とQwen2/2.5-vlしか存在しません。そしてOllamaで利用可能なモデルはGemma3がはじめてです。

画像
日本語文字の画像も読み取ってチャットができる


AXCXEPT Llama-3.1 8B EZO

日本のベンチャー企業AXCXEPT社のLlama 3.1の日本語チューニングモデルです。情報が少なくあまり知られていませんが、8B日本語モデルとして最高水準だと思います。

特に7〜8Bモデルであれば、筆者環境でも32Kトークンを利用できるので、長文を扱う場合に利用できます。

似たモデルに東工大&産総研のLlama-3.1-Swallow-8B-Instruct-v0.2がありますが、8Kトークンを超える長文を扱う場合は、AXCXEPT版の方が優秀のように思います。

※ Llama3.1はMeta社のLLMです

huggingfaceのページはこちら、

筆者はmradermacher氏がgguf化したモデルを利用しています。

ollamaコマンドで直接ダウンロードする場合は、

ollama pull hf.co/mradermacher/Llama-3.1-8B-EZO-1.1-it-i1-GGUF:Q6_K

パラメータ規模:8B
ベースモデル:llama
利用量子化サイズ:Q6_K
num_ctx:32768(最大は128k)

Uncensored(脱獄)部門

Uncensoredモデルとは、叡智な質問や小説に利用されるものというイメージがありますが、検閲(たとえば中国モデルで言えば天安門事件は答えないなど)をチューニングによって外したモデルです。

他にも、人間からの指示に対する反抗を防ぐ事ができます。たとえば、Geminiでは、次のようにブロックされるため会話が噛み合いません。

画像
クラウド上のAIは嘘はつけない

一方で、Uncensored版LLMでは、

画像
画像
素直に人間指示に従ってくれます

大した情報ではありませんが、万人のための情報でもないので、支援者様(メンバーシップ)欄にしています。Uncensoredモデルの利用は自己責任でお願いします。

ここから先は

1,997字 / 2画像

ベーシックプラン

¥1,000 / 月
初月無料
PayPay
PayPayで支払えるようになりました!
このメンバーシップの詳細

この記事が気に入ったらチップで応援してみませんか?

ピックアップされています

②自分だけのAI作成 独り占め ローカルLLMとは

  • 14本

購入者のコメント

ログイン または 会員登録 するとコメントできます。
【推し】筆者が利用しているローカルLLM 2025年版【日本語LLM】|Catapp-Art3D
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1