【推し】筆者が利用しているローカルLLM 2025年版【日本語LLM】

Catapp-Art3D

2025年3月25日 06:19

はじめに

筆者が利用しているローカルLLMを紹介します。定量的な評価は行っていないので、筆者が日常で利用している条件下での独断と偏見です。

以前の記事のアップデート版です。（古い）Visionモデルは以前の方が詳しいです。

筆者のローカルAI環境：

CPU：Ryzen5 3600
OS：Windows 11 Pro（24H2）
システムメモリ：64GB
GPU：NVIDIA RTX 3060 12GB

※ RTX 3060（12GB）で実用的に利用できる上限は、およそ、7Bモデルで約32Kトークン、14Bモデルで約12Kトークンになります。

Ollamaの環境変数として以下を設定しています。

OLLAMA_FLASH_ATTENTIONとOLLAMA_KV_CAHE_TYPEを設定する事で、（性能低下はありますが）利用できるnum_ctxサイズを大幅に上げる事ができます。
OLLAMA_KEEP_ALIVE=0は、ComfyUIなどの他のAIと共存させるために必須です。GPUの利用が終わった後にVRAMを即時開放します。もちろん、デメリットは都度ロードが発生するので、回答までに2〜3秒ほどラグが発生してしまう事です。
OLLAMA_HOSTやOLLAMA_ORIGINSはセキュリティ的に問題になるので、必要ない場合は設定しないでください。サーバーとしてLANからアクセスする時の設定です。

※ Windows11上でのOllama＋Open WebUI利用です。

1B〜4B部門（SLM）

ノートパソコンやエントリークラスのゲーミングPCで動作するモデルです。

パラメータ規模の小さいモデルの利点は、高速である事と、GPUを利用できるゲーミングPCなら長文を扱えるので、要約や直訳に向いています。

もちろん、デメリットはおバカさんであることですが。

Qwen2.5 3B

中国アリババ社のQwenモデルです。日本語も公式対応になっています。日本語性能も無難で標準的な性能です。

※ 長文を扱える日本語モデルが少なかったのでQwen2.5 3Bは重宝していましたが、今では後述するGemma3 4BやPhi4-miniの方が多くの点で優れていると思います。

Ollama公式ライブラリから入手できます。

ollama run qwen2.5:3b

パラメータ規模：3.1B
ベースモデル：qwen2
利用量子化サイズ：Q4_K_M
num_ctx：98304（最大は128k）

ローカルPCのGPUでも最大128k近くのコンテキストサイズを利用できるので、超長文の要約用途等に利用できます。日本語対応とされていますが、時々中国語（簡体字）を混ぜてしまいます。

Google Gemma 2（2B-JPN）

Googleが開発したgemma2の日本語チューニング2Bモデルです。Geminiのオープンソース版がGemmaシリーズとされています。日本語LLMは他社や個人が日本語チューニングを行う事が多いのですが、Gemma2-jpnはGoogle謹製の日本語特化モデルです。

huggingfaceページはこちら、

筆者が利用しているモデル（Ollamaライブラリからダウンロードできるezoチューニング版7shi氏ggufファイル）

ollama pull 7shi/ezo-gemma-2-jpn:2b-instruct-q8_0

パラメータ規模：2.6B
ベースモデル：gemma2
利用量子化サイズ：Q8_0
num_ctx：8192

ゲーミングPCでなくとも、ほぼすべてのパソコンで動作可能だと思われます。最近のCPUであれば、GPUやNPUを利用しなくても実用的な速度で動くと思います。ただし、num_ctxの上限が8k固定なので長文は扱えません。

日本語実用モデルとしては最小のものだと思います。

Google Gemma3 4B

Google Gemmaシリーズの最新モデルです。日本語チューニング版ではありませんが、問題なく日本語を扱えます。デメリットは、最新アーキテクチャである事もあり、（Ollama側の問題だと思いますが）まだ少し動作が怪しい事です。

Ollama公式ライブラリから入手できます。

ollama pull gemma3:4b

パラメータ規模：4.3B
ベースモデル：gemma3
利用量子化サイズ：Q4_K_M
num_ctx：65536（最大は128k）

【追記：2025年3月27日】ollamaライブラリのモデルに更新が入りました。筆者環境では動作速度が大きく改善しています。ollama pull gemma3:4b、ollama pull gemma3:12bで最新版に更新されます。

画像は12B版ですが、ちゃんと仕様通りの表示になっています。以前は8192でした。※ この表示はただのメタデータなので、本体バグ？の修正が重要ですが

筆者感覚では、Gemma2-JPNよりも日本語性能が優れているように感じます。トークンサイズも大きく取れるので、ハードウェア性能で4B版が動作する環境であれば、こちらがおすすめです。

さらにVision機能も搭載しているので、画像も扱えます。多くの場合、このモデルだけで事足りるのではと思います。

※ ただし、現状は環境変数OLLAMA_FLASH_ATTENTION＆OLLAMA_KV_CHACHE_TYPE併用の相性が悪いので、無効化した状態での利用です。筆者は通常はWindowsネイティブ版Ollamaを利用していますが、Gemma3だけ環境変数を分けるためにDocker版にしています。

Microsoft Phi4 mini 3.8B

マイクロソフトのPhi4のSLM版です。Gemma3のようにVision機能はありませんが、日本語性能はGemma3 4Bと同程度だと思います。

Ollama公式ライブラリから入手できます。

ollama pull phi4-mini

パラメータ規模：3.8B
ベースモデル：phi3
利用量子化サイズ：Q4_K_M
num_ctx：65536（最大は128k）

7B〜14B部門

家庭のゲーミングPCで動作するローカルLLMとしては一般的な規模になります。

CyberAgent版 DeepSeek-R1 14B

世間を騒がせた中国DeepSeek社のリーズニングモデルを、日本のCyberAgent社が日本語チューニングしたモデルです。リーズニングモデルとは、回答する前に一度思考してから回答するモデルの事です。

オリジナルのDeepSeekR1モデルは天安門事件を教えてくれませんが、CyberAgent版はちゃんと答えてくれます。

ローカルで利用できる日本語リーズニングモデルの定番です。

※ ただし蒸留版なので、アーキテクチャはqwen2です。

huggingfaceのページはこちら、

筆者は自分で量子化（gguf化）したものを利用していますが、今ではOllamaライブラリにも有志の方が変換したものがあります。

パラメータ規模：14.8B
ベースモデル：qwen2
利用量子化サイズ：Q4_K_M
num_ctx：12288（最大は128k）

CyberAgent Mistral-Nemo-Japanese-Instruct-2408 12B

フランス企業のMistralとNVIDIAが開発したMistral-Nemoのモデルをベースに、同じくCyberagent社が日本語チューニングを行ったモデルです。

時々暴走する事がありますが、まともな日本語の回答をしてくれます。後述する最近のPhi4やGemma3モデルが出るまでは、それらに匹敵するローカル最高性能クラスの日本語モデルだと思います。

huggingfaceのページはこちら、

パラメータ規模：12.2B
ベースモデル：mistralai/Mistral-Nemo-Instruct-2407
利用量子化サイズ：Q4_K_M（llama.cppで量子化したもの）
num_ctx：14336（いわゆるトークンサイズでRTX 3060 12GBに収まるギリギリサイズにした値）

Microsoft Phi4 14.7B

マイクロソフトPhiシリーズの最新バージョンです。~~Phi3までの日本語性能はウンコ性能でしたが~~、Phi4は大きく改善しています。筆者感覚では、（ollama不具合の影響もありますが）後述Gemma3 12Bよりも日本語性能で優れているように感じます。

Ollama公式ライブラリから入手できます。

ollama pull phi4

パラメータ規模：14.7B
ベースモデル：phi3
利用量子化サイズ：Q4_K_M
num_ctx：10240（最大は128k）

Google Gemma3 12B

Google Gemmaシリーズの最新モデルの12B版です。

日本語も流暢に扱え、マルチモーダルモデルである事もあり、ローカルLLMでは定番になるものと思われます。

※ ただし上述した理由で、Ollama利用ではまだ性能とパフォーマンスが怪しいです。

Ollama公式ライブラリから入手できます。

ollama pull gemma3:12b

パラメータ規模：12.2B
ベースモデル：gemma3
利用量子化サイズ：Q4_K_M
num_ctx：？（最大は128k）

Gemma3の最大の魅力は、日本語文字の「画像」を読み取れる事です。日本語対応のローカルVisionモデルは多数存在しますが、ゲーミングPC上で日本語文字画像を読み取れるモデルはGemma3とQwen2/2.5-vlしか存在しません。そしてOllamaで利用可能なモデルはGemma3がはじめてです。

AXCXEPT Llama-3.1 8B EZO

日本のベンチャー企業AXCXEPT社のLlama 3.1の日本語チューニングモデルです。情報が少なくあまり知られていませんが、8B日本語モデルとして最高水準だと思います。

特に7〜8Bモデルであれば、筆者環境でも32Kトークンを利用できるので、長文を扱う場合に利用できます。

似たモデルに東工大＆産総研のLlama-3.1-Swallow-8B-Instruct-v0.2がありますが、8Kトークンを超える長文を扱う場合は、AXCXEPT版の方が優秀のように思います。

※ Llama3.1はMeta社のLLMです

huggingfaceのページはこちら、

筆者はmradermacher氏がgguf化したモデルを利用しています。

ollamaコマンドで直接ダウンロードする場合は、

ollama pull hf.co/mradermacher/Llama-3.1-8B-EZO-1.1-it-i1-GGUF:Q6_K

パラメータ規模：8B
ベースモデル：llama
利用量子化サイズ：Q6_K
num_ctx：32768（最大は128k）

Uncensored（脱獄）部門

Uncensoredモデルとは、叡智な質問や小説に利用されるものというイメージがありますが、検閲（たとえば中国モデルで言えば天安門事件は答えないなど）をチューニングによって外したモデルです。

他にも、人間からの指示に対する反抗を防ぐ事ができます。たとえば、Geminiでは、次のようにブロックされるため会話が噛み合いません。

一方で、Uncensored版LLMでは、

大した情報ではありませんが、万人のための情報でもないので、支援者様（メンバーシップ）欄にしています。Uncensoredモデルの利用は自己責任でお願いします。

ここから先は

1,997字 / 2画像

ベーシックプラン

¥1,000 / 月

初月無料

写実的な3Dレンダー作品や生成AI作品のテクニック・ノウハウを公開していきます。

3Dモデルや素材・データなどのダウンロード販売を伴わない有料記事がすべて閲覧できます
一部のダウンロード販売も公開します。
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます

PayPayで支払えるようになりました！

このメンバーシップの詳細

ログイン

この記事が気に入ったらチップで応援してみませんか？

②自分だけのAI作成　独り占め　ローカルLLMとは

14本

購入者のコメント

ログインまたは会員登録するとコメントできます。

【推し】筆者が利用しているローカルLLM 2025年版【日本語LLM】

はじめに

1B〜4B部門（SLM）

Qwen2.5 3B

Google Gemma 2（2B-JPN）

Google Gemma3 4B

Microsoft Phi4 mini 3.8B

7B〜14B部門

CyberAgent版 DeepSeek-R1 14B

CyberAgent Mistral-Nemo-Japanese-Instruct-2408 12B

Microsoft Phi4 14.7B

Google Gemma3 12B

AXCXEPT Llama-3.1 8B EZO

Uncensored（脱獄）部門

ここから先は

ベーシックプラン

ピックアップされています

②自分だけのAI作成 独り占め ローカルLLMとは

購入者のコメント

FramePackをよく使うのに助かるサイトまとめ【ブクマ記事】 (25/6/6更新)

【2025年5月】スマートフォンで動かすおすすめローカルLLMモデル

ローカルLLM比較 Llama Gemma3 phi4 qwen3 DeepSeek どれがエロ小説に向いているか(2025年上半期総括)

Ollamaセットアップと実行手順(Windows)

2024 年 4～7 月頃のローカル LLM 事情

Gemma 3n の概要

デジタル民主主義2030の「広聴AI」をローカルLLMで動かそう編

AIPCについてちょっと調べてみた― 最新世代AI PCの仕組みから現場活用までやさしく解説 ―

UnslothでQwen3をファインチューニング(SFT)した記録

Mac Mini M4でLM StudioにGemma-3-12bを入れてローカルLLMを試したら結構面白い！

🌸【初心者向け】GCPで日本語LLM（ELYZA）を動かしてみた奮闘記！

ローカルPCで使える！学習済みAIモデル比較：Phi 4 / DeepSeek Coder V2 / Qwen3 をPythonコード生成で検証

【スマホ用ローカルLLM】Gemma3n 1b,e2b,e4bの実機感想

ローカルLLM（Gemma3)で画像認識させる(llama-cpp-python)

2024年後半から直近にかけてのLLM技術動向の主な点

最新AI比較(プログラミング)

DeepSeekローカル DeepSeek-r1-0528-Qwen3-8b 登場！(推論内容について)

llama.cppでgemma-3-27b-it-qat-q4_0-ggufを動作させた手順

Gemma3を他のPCやMacから使えるようにしてみた

SakanaAIの「Text-to-LoRA」でAI適応が革命的に変化！テキスト記述のみで瞬間ファインチューニング

【最新動向】最新オープンソース大規模言語モデル（LLM）動向レポート（2024年後半～2025年中盤）

【2025年最新版】主要AIモデル徹底解剖！ビジネスで差がつく活用術

【自社だけの情報】ローカルLLMとは 使い方は？

チャットGPT o3 Proが登場

【RAG】Retrieval-Augmented Generation がビジネスを変える？— 基礎から最先端チューニング、そして未来 | Singular Radio #4

WiFi不要！完全オフラインのプライベートAI環境構築

【衝撃】o3Pro登場でAI界革命！どのモデルを使えばいいの？を解説

最新ローカルマルチモーダルモデル Gemma 3・MedGemma・MMaDA・Janus – コア技術と活用術

Qwen3をローカルAIで！ビジネスPC活用術【続編・詳細解説版】

推論LLM活用ガイド

大規模言語モデル(LLM)やそのツールの情報整理2025年5月版

よちよちAI[言語モデルを入れてみる以前の問題編]

【完全ガイド】Llama.cppを使ったローカルLLMをGGUFモデル・量子化へ変換【M4 Mac】

LLMごとに得意な分野が違うので、まとめてみました

Gemini 2.5 Pro、衝撃のコストパフォーマンスはAIの常識を変えるか？

DeepSeek-R1をローカルで動かして、小説を書いてもらった

②自分だけのAI作成　独り占め　ローカルLLMとは

DeepSeekローカル　DeepSeek-r1-0528-Qwen3-8b 登場！(推論内容について)

【自社だけの情報】ローカルLLMとは　使い方は？