ローカルLLMについて詳しく調べてみた

日本語

LLM
AI
Cloudflare
AWS
GCP
セキュリティ

#はじめに

私のローカルLLM経験は「Cloudflare Workers AIでGemma 3を動かしてみた」程度の浅い知識しかない。

普段はClaude Codeでコーディングしたり、claude.aiやGeminiで相談したり。Google AI Proプランに加入しているので、NotebookLMとかGoogle関連のサービスでGeminiをちょっと触るぐらい。メインはClaude Codeでの開発なので、ローカルLLMは正直あまり縁がなかった。

そんな私がなんでこの記事を書いているかというと、仕事でLLMの選定を考える機会があって、「ローカルLLMって実際どうなの？」「中国製モデル使って大丈夫なの？」みたいな疑問が湧いてきたから。

調べてみたら意外と情報が散らばっていて、公式ドキュメントを横断的にまとめた記事があまりなかった。なので、自分の勉強も兼ねて整理してみた。

同じように迷っている人の参考になれば嬉しい。

#そもそも「ローカルLLM」って何？

ChatGPTやClaudeを使ったことがある人は多いと思う。あれは「クラウドAPI型」のLLM。入力したテキストはOpenAIやAnthropicのサーバーに送られて、そこで処理されて結果が返ってくる仕組みだ。

一方、 ローカルLLM （セルフホストLLM、オンプレミスLLMとも呼ばれる）は、 自分の管理下にあるサーバーやPCでLLMを動かす 方式。データが外部に出ることなく、完全に自分のコントロール下で推論処理を行う。

具体的には以下のような形態がある：

形態	説明
自社サーバー	自社のデータセンターやオフィス内のサーバーでLLMを稼働
クラウドGPU	AWS、GCP、Cloudflareなどのクラウド上のGPUを借りてLLMを稼働
ローカルPC	開発者の手元のPCでLLMを稼働（主に開発・テスト用途）

私が試したCloudflare Workers AI（Gemma 3の12B）は「クラウドGPU」に該当する。Cloudflareがホストしているモデルを、自分のWorkerから呼び出す形式だ。セットアップが楽だったので、「ローカルLLM入門」としては悪くなかったと思う。

#ローカルLLMが必要になる場面

「で、結局いつ使うの？」という話。

#1. データプライバシーが最優先の場合

金融、医療、法務、政府機関など、機密データを外部サーバーに送信できない業種では、ローカルLLMが現実的な選択肢になる。

自社サーバーでモデルを動かせば、機密情報が外部プロバイダーのサーバーに送信されることを避けられる。

まあ、私のような個人開発者には縁遠い話ではある。でも「将来的にB2B SaaSを作りたい」みたいな野望がある人は、頭の片隅に入れておいて損はないかも。

#2. コンプライアンス要件がある場合

SOC 2、GDPR、HIPAAなどのコンプライアンス要件を持つ顧客を抱える場合、外部APIへのデータ送信が許可されないケースがある。

この辺のアルファベット略語、正直まだ全部は理解できていない。「なんかヤバそうな規制があるらしい」ぐらいの認識。詳しい人、教えてください。

#3. 大量のトークンを処理する場合

APIの従量課金が積み重なると、自社運用の方がコスト効率が良くなる損益分岐点が存在する。一般的に1日あたり200万トークン以上を処理する場合、セルフホストの検討価値があるかもしれない。

ただ、この「200万トークン」という数字はあくまで目安。実際の損益分岐点は使用するモデルやハードウェア構成によって大きく変わるので、ちゃんと自分で計算した方がいい。

私の場合、Claude APIの月額がだいたい数千円程度なので、まだまだAPIで十分。H100を買う金はない。というか置く場所もない。

#4. カスタマイズが必要な場合

自社データでのファインチューニングや、特定のプロンプト設定、コンテキストウィンドウの自由な調整など、APIでは制限される柔軟性が必要な場合に有効。

「このモデル、もうちょっと〇〇に詳しくなってほしいんだよなぁ」みたいな欲求がある人向け。

#主要APIプロバイダーのデータ取り扱いポリシー

「ローカルLLMが必要か」を判断する前に、まずは各社APIのデータポリシーを正確に理解しておこう。

ここは公式ドキュメントから引用しているので、信頼性は高いはず。 というか、ここで嘘を書いたら記事の意味がないので、かなり慎重に確認した。

#OpenAI API

項目	内容
モデル訓練への使用	API経由のデータは訓練に使用されない（オプトインしない限り）
データ保持期間	不正利用監視のため最大30日間保持
ゼロデータ保持	審査承認を得た顧客のみ利用可能

As of March 1, 2023, data sent to the OpenAI API is not used to train or improve OpenAI models (unless you explicitly opt in).

— OpenAI Data Controls

注意点：WebやアプリでChatGPTを使う場合（いわゆる「チャット画面でやりとりするやつ」）は、デフォルトでモデル訓練に使用される可能性がある。APIとは別物なので混同しないように。

これ、意外と知らない人多いんじゃないかな。「ChatGPTに機密情報入れちゃった…」という事故、割と聞く。

#Anthropic Claude API

項目	内容
モデル訓練への使用	商用契約（API、Enterprise等）では訓練に使用されない
データ保持期間	2025年9月以降、7日間に短縮（従来は30日）
ゼロデータ保持	DPA追加契約で利用可能

Commercial Terms prohibit it entirely. API data is never used for model training.

— Anthropic Privacy Center

注意点：WebやアプリでClaude（claude.ai）を使う場合、2025年の規約更新でオプトイン形式でデータ提供できるようになった。Free、Pro、Maxプランのユーザーが対象。API利用には影響しない。

私はClaude APIを愛用しているので、このポリシーは安心材料。7日間保持に短縮されたのも良い傾向だと思う。

#Google Vertex AI

項目	内容
モデル訓練への使用	顧客データは基盤モデルの訓練に使用されない
データ保持	リージョン指定でデータ所在地を制御可能
セキュリティ	CMEK、VPC Service Controls対応

As outlined in Service Specific Terms, Google won’t use your data to train or fine-tune any AI/ML models without your prior permission.

— Vertex AI Zero Data Retention

Google、企業向けはしっかりしてる印象。個人向けのGeminiとは別物という認識で良さそう。

#AWS Bedrock

項目	内容
モデル訓練への使用	顧客データは訓練に使用されない
モデルプロバイダーのアクセス	AnthropicやMetaなどのモデル提供者は顧客データにアクセス不可
コンプライアンス	GDPR、HIPAA対応

Amazon Bedrock doesn’t use your prompts and completions to train any AWS models and doesn’t distribute them to third parties.

— AWS Bedrock Data Protection

モデル提供者（Anthropic、Meta等）がAWSの顧客データにアクセスできない構造になっているのは、セキュリティ面で安心材料かなと思う。「Bedrockでclaudeを使ったら、Anthropicにデータが行くの？」という疑問に対する答えは「No」らしい。

#Azure OpenAI

項目	内容
モデル訓練への使用	顧客データは訓練に使用されない
データ保持期間	最大30日間（不正利用監視目的）
ゼロデータ保持	EA/MCA契約顧客のみ利用可能
注意点	ファインチューニング時にデータが一時的に地理的に移動する可能性あり（2025年3月更新）

Any prompts and completions you send to Azure OpenAI are not used to train or improve Microsoft’s or OpenAI’s foundational AI models.

— Azure OpenAI Data Privacy

2025年3月の更新で「ファインチューニング時にデータが地理的に移動する可能性」が追加されたのは、ちょっと気になるポイント。データレジデンシー要件がある企業は要確認。

#ローカルLLMの主要モデル一覧

ここからが本題。ローカルで動かせるLLMモデルを、公式情報を元に整理した。

正直、モデルの数が多すぎて全部は追いきれない。 なので、2026年1月時点で主要と思われるものに絞った。

#国別・特徴別の早見表

モデル	開発元	国	パラメータ	ライセンス	日本語	推論特化	マルチモーダル
Llama 4	Meta	🇺🇸	17B〜400B+	Llama License	△	-	✓
Gemma 3	Google	🇺🇸	270M〜27B	Gemma ToU	△	-	✓
Phi-4	Microsoft	🇺🇸	3.8B〜14B	MIT	△	✓	✓
Mistral Large 3	Mistral AI	🇫🇷	41B active / 675B total	Apache 2.0	△	-	✓
Qwen3	Alibaba	🇨🇳	0.6B〜235B	Apache 2.0	◎	✓	✓
DeepSeek-R1	DeepSeek	🇨🇳	1.5B〜671B	MIT	○	✓	-
ELYZA	ELYZA	🇯🇵	7B〜70B	商用可	◎	✓	-

※ 日本語対応の評価は公式情報とベンチマーク結果を参考にした主観的な評価

こうして見ると、日本語に強いモデルは中国製が目立つんだよなぁ…。この表を作りながら「うーん」と唸ってしまった。後で詳しく書く。

#各モデルの詳細

Llama 4（Meta / アメリカ）

Metaが開発するオープンウェイトモデル。2025年4月にLlama 4がリリースされた。

公式情報：

Llama 4 Scout: 17Bアクティブパラメータ、16エキスパート構成。単一H100 GPUで動作可能
Llama 4 Maverick: 17Bアクティブ / 400Bトータルパラメータ、128エキスパート構成
Llama 4 Behemoth: 教師モデルとして開発中、MATH-500やGPQA DiamondでGPT-4.5やClaude Sonnet 3.7を上回る

Llama 4 Scout and Llama 4 Maverick as the first open-weight natively multimodal models with unprecedented context length support and the first built using a mixture-of-experts (MoE) architecture.

— Meta AI Blog

特徴：

ネイティブマルチモーダル（テキスト + 画像入力）
MoE（Mixture of Experts）アーキテクチャで効率的
200言語サポート（Maverick）

日本語について： 200言語サポートとはいえ、アジア言語特化ではないので、日本語性能はQwen系に劣る可能性が高いかなぁという印象。「200言語対応！」と言われても、日本語がその200言語の中でどれぐらい優先されているかは別問題だし。

Gemma 3（Google / アメリカ）

Googleが開発するオープンモデル。Gemini 2.0の技術をベースにしている。

公式情報：

パラメータサイズ: 270M、1B、4B、12B、27B
コンテキスト長: 4B以上は128Kトークン（前世代の16倍）
対応言語: 140言語以上
マルチモーダル: 4B以上は画像+テキスト入力対応

Gemma 3 supports over 140 languages.

— Google AI Gemma Docs

特徴：

27Bでも単一H100またはTPUで動作
量子化オプションでメモリ削減可能（27B: 46.4GB → 21GB）
関数呼び出し機能搭載

ライセンス： Gemma Terms of Useに基づく。商用利用可能だが、使用制限条項を下流ユーザーにも適用する必要がある。Apache 2.0ほど自由ではない点に注意。

私の経験： 私がCloudflare Workers AIで試したのがこのGemma 3の12Bモデル。Workers AIのダッシュボードからポチポチするだけでセットアップできて、「あ、思ったより簡単じゃん」と感動した記憶がある。

ただ、日本語で使おうとしたら微妙に不自然な返答が返ってきて、「やっぱ日本語は弱いのかな…」と思った。英語で使う分には悪くなかったけど。

Phi-4（Microsoft / アメリカ）

Microsoftが開発する小型高性能モデル。「Small Language Model」という位置づけ。読み方は「ファイ」（ギリシャ文字のφ）。

公式情報：

Phi-4: 14Bパラメータ、複雑な推論（特に数学）に特化
Phi-4-mini: 3.8Bパラメータ、128Kコンテキスト、200K語彙
Phi-4-multimodal: 5.6Bパラメータ、テキスト+音声+画像入力
Phi-4-reasoning: 14Bで、DeepSeek-R1 distilled 70Bを上回り、フルDeepSeek-R1に迫る推論性能

Phi-4-reasoning, with only 14B parameters, performs well across a wide range of reasoning tasks, outperforming significantly larger open-weight models such as DeepSeek-R1 distilled 70B model.

— Microsoft Tech Community

特徴：

MITライセンス（完全オープン）
小型なのに推論性能が高い
合成データを活用した効率的な学習

向いている用途： 数学、コーディング、論理的推論が必要なタスク。小型なのでエッジデバイスやコスト重視の環境に適しているかも。

14Bで70Bモデルを上回るとか、パラメータ数のインフレに歯止めをかける希望の光を感じる。「デカけりゃ正義」じゃないんだな。

Mistral Large 3（Mistral AI / フランス）

フランスのMistral AIが開発。ヨーロッパ発のオープンモデルとして存在感がある。

公式情報：

パラメータ: 41Bアクティブ / 675Bトータル（MoE）
コンテキスト長: 256Kトークン
ライセンス: Apache 2.0

Mistral Large 3 is a state-of-the-art, open-weight large language model released by French AI startup Mistral AI in December 2025. It is fully open-sourced under the Apache 2.0 license.

— Mistral AI Docs

特徴：

ヨーロッパ言語に強い
完全Apache 2.0ライセンス
コード特化モデル（Codestral）も提供

日本語について： 80言語以上サポートとはいえ、ヨーロッパ言語が主軸。日本語は「使えなくはないけど、最適ではない」という感じかなぁ。フランス語やドイツ語で使いたい人には良さそう。

Qwen3（Alibaba / 中国）

Alibabaが開発。日本語を含むアジア言語に強い。

公式情報：

Dense: 0.6B、1.7B、4B、8B、14B、32B
MoE: 30B-A3B（3Bアクティブ）、235B-A22B（22Bアクティブ）
対応言語: 119言語
ライセンス: Apache 2.0

Qwen3 models support 119 languages and dialects.

— Qwen Blog

特徴：

日本語、中国語、韓国語などアジア言語に強い
Reasoning Model（思考の連鎖）対応
完全Apache 2.0ライセンス

日本語性能： JMMLUなど日本語ベンチマークでの評価が含まれており、公式に多言語対応を謳っている。日本語で使うならQwen系は有力な選択肢。

正直な感想： 性能だけ見たら「Qwen一択じゃん」って思っちゃうんだけど、そう単純にいかないのが後述する「心理的な壁」問題。悩ましい。

DeepSeek-R1（DeepSeek / 中国）

DeepSeekが開発。強化学習のみで推論能力を獲得した点が特徴的。

公式情報：

DeepSeek-R1: OpenAI o1と同等の数学、コード、推論性能
蒸留モデル: 1.5B、7B、8B、14B、32B、70B（Qwen2.5/Llama3ベース）
ライセンス: MIT License

DeepSeek-R1 achieves performance comparable to OpenAI-o1 across math, code, and reasoning tasks.

— DeepSeek GitHub

特徴：

強化学習のみで推論能力を獲得（SFTなし）
自己検証、リフレクション、長いCoT生成
MITライセンスで商用利用可

注意点（後述のセキュリティ懸念参照）： モデル自体はMITライセンスだが、DeepSeekのクラウドサービスを使う場合はデータが中国に送信される。ローカルで動かす分には問題ないはず。

技術的にはすごく面白いモデルなんだけど、色々と物議を醸しているのも事実。詳しくは後で書く。

#SLM（Small Language Model）とは

ここで一旦、**SLM（Small Language Model）**という概念について触れておきたい。

上のモデル一覧でPhi-4を「小型高性能モデル」と紹介したけど、これはSLMに分類される。SLMとは、一般的に1億〜50億パラメータ程度の比較的小さなモデルを指す。

Small language models (SLMs) can have anywhere from 100 million parameters to around 5 billion, whereas LLMs can have billions or even trillions of parameters.

— IBM: What Are Small Language Models?

SLMの特徴

項目	SLM	LLM
パラメータ数	1億〜50億	数十億〜数兆
必要リソース	一般的なPC/スマホでも動作可能	高性能GPU/クラウドが必要
レイテンシ	低い（応答が速い）	比較的高い
コスト	低い	高い
得意分野	特定タスク、エッジデバイス	汎用的な複雑タスク

代表的なSLMモデル

モデル	開発元	パラメータ	特徴
Phi-4-mini	Microsoft	3.8B	推論特化、MITライセンス
Gemma 3	Google	270M〜4B	マルチモーダル対応
Llama 4 Scout	Meta	17B active	MoEで効率的、スマホでも動作可能
Qwen3	Alibaba	0.6B〜4B	多言語対応

The Phi 4 mini model stands out as a state-of-the-art SLM, trained on 5 trillion tokens using innovative training methods.

— Hugging Face Blog

なぜSLMが注目されているのか

「デカければ正義」だったLLMの世界で、SLMが注目されている理由は主に3つ：

エッジデバイスでの実行: スマホ、IoTデバイス、組み込みシステムで動かせる
コスト効率: 推論コストが大幅に低い
レイテンシ: リアルタイム応答が必要なアプリに適している

私のようにローカルPCで軽く試したい人にとっても、SLMは現実的な選択肢。RTX 4060（8GB VRAM）でも十分動かせるモデルがある。

ただし、SLMは「万能」ではない。複雑な推論や長文生成ではLLMに劣る傾向がある。用途に応じて使い分けるのが正解だと思う。

ELYZA（ELYZA / 日本）

東京大学松尾研究室発のスタートアップが開発。日本語に特化。

公式情報：

ELYZA-japanese-Llama-2: 7B、13B、70Bパラメータ
ELYZA-Shortcut-1.0-Qwen-32B: Qwen2.5-32Bベースの最新モデル
ELYZA-Thinking-1.0: Reasoning Model（CoT対応）
ライセンス: 商用利用可能

日本語による対話・タスクの実行においてグローバルプレイヤーが提供する海外製LLMに匹敵する性能を実現しています。

— ELYZA公式

特徴：

日本語に完全特化
GPT-4oに匹敵するスコア（JMMLU、Japanese MT-Bench等）
日本企業なので心理的障壁が低い

向いている用途： 日本語でのビジネス利用、日本企業向けサービス。

個人的な感想： 「日本企業が作った日本語特化モデル」というだけで、なんか安心感がある。性能がQwenと比べてどうかは正直わからないけど、「中国製は避けたい」という要件がある場合の救世主的存在かもしれない。松尾研発というブランドも信頼感ある。

#日本語に強いローカルLLM詳細調査

日本語でローカルLLMを使いたい場合、どのモデルを選ぶべきか。ここでは日本製モデルを中心に、ライセンスや実用性を詳しく調べてみた。

#ELYZA 詳細

ライセンスについて

ELYZAのモデルはベースモデルのライセンスを継承している点に注意が必要。

モデル	ベース	ライセンス	商用利用
ELYZA-japanese-Llama-2-7B/13B	Llama 2	Llama 2 Community License	✓（条件付き）
Llama-3-ELYZA-JP-8B	Llama 3	Meta Llama 3 Community License	✓（条件付き）
ELYZA-Shortcut-1.0-Qwen-32B	Qwen2.5	要確認	要確認

Llama 2 is licensed under the LLAMA 2 Community License, Copyright (c) Meta Platforms, Inc.

— Hugging Face ELYZA

Meta Llama Community Licenseは商用利用可能だが、月間アクティブユーザー7億人以上の場合はMetaからの特別許可が必要という条件がある。まあ、ほとんどの企業には関係ない話だと思うけど。

Cloudflare Workers AIで使えるか？

結論：使えない。

調べてみたところ、Cloudflare Workers AIにELYZAモデルは含まれていない。日本語テキスト生成用のモデルとしては、Gemma 3（140言語対応）やQwen3（119言語対応）などの多言語モデルを使うことになる。

日本語専用モデルとしてはPLaMo Embedding 1B（Preferred Networks製）があるが、これはテキスト埋め込み用であってテキスト生成には使えない。

必要スペック

Llama-3-ELYZA-JP-8Bの場合：

推奨VRAM: 16GB以上（FP16の場合）
量子化（Q4）: 8GB程度で動作可能
推奨GPU: RTX 4060以上、または M1/M2 Mac（16GB以上）

#PLaMo（Preferred Networks / 日本）

Preferred Networks（PFN）が開発する国産LLM。金融特化モデルや翻訳特化モデルなど、用途別のラインナップが充実している。

ライセンス（PLaMo Community License）

ユーザー又はその関係会社の直近事業年度の収入又は売上が10億円を超えないことが条件

— PLaMo Community License

つまり：

年商10億円未満: 無料で商用利用可能
年商10億円以上: PFNから商用ライセンスを別途取得する必要あり

これ、スタートアップや中小企業にはかなり良心的なライセンスだと思う。大企業は別途契約してねという形。

主なモデル

モデル	用途	商用利用
PLaMo 2 8B	汎用	✓（条件付き）
PLaMo Prime	商用フラッグシップ	有料
PLaMo Lite	エッジデバイス向け	有料
PLaMo翻訳	翻訳特化	✓（条件付き）
金融特化PLaMo	金融業界向け	有料

Cloudflare Workers AIで使えるか？

PLaMo Embedding 1Bのみ利用可能。ただしこれはテキスト埋め込み用なので、チャットや文章生成には使えない。

#CyberAgent（サイバーエージェント / 日本）

サイバーエージェントが開発する日本語LLM。OpenCALMシリーズやCyberAgentLMなど、オープンソースで積極的に公開している。

主なモデル

モデル	パラメータ	ライセンス	特徴
CyberAgentLM3-22B-Chat	220億（22B）	Apache 2.0	商用利用可、日本語特化
DeepSeek-R1-Distill-Qwen-14B-Japanese	140億	MIT	日本語リーズニングモデル
OpenCALMシリーズ	各種	Apache 2.0	商用利用可

CyberAgentLM3-22B-Chatは、スクラッチで開発され、商用利用可能なApache License 2.0で提供されています。

— サイバーエージェント公式

DeepSeek-R1-Distill-Qwen-14B-Japaneseは、中国DeepSeek社のリーズニングモデルをサイバーエージェントが日本語チューニングしたもの。ローカルで利用できる日本語リーズニングモデルとしては定番になっているらしい。

— Hugging Face: cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese

#Stockmark（ストックマーク / 日本）

ビジネス情報や特許情報を含む大規模な日本語データで学習されたモデル。

モデル	パラメータ	ライセンス
Stockmark-13B	130億	MIT

— Hugging Face: Stockmark-13B

正直、ベンチマークでの評価はあまり高くないという話も聞く。「結論を急ぎすぎる」傾向があるらしい。用途によっては合わないかもしれない。

#LLM-jp（国立情報学研究所 / 日本）

国立情報学研究所（NII）が中心となって開発している、アカデミア発のオープンな日本語LLM。

モデル	パラメータ	特徴
LLM-jp-3 172B	1720億	最大規模の日本語モデル
LLM-jp-13B	130億	研究開発向け

— Hugging Face: llm-jp

研究目的での利用が主眼だが、商用利用の可否はモデルごとに確認が必要。

#RakutenAI（楽天 / 日本）

楽天グループが2024年3月に公開した国産LLM。

モデル	パラメータ	ライセンス
RakutenAI-7B-Instruct	70億	Apache 2.0

— Hugging Face: Rakuten/RakutenAI-7B-instruct

Apache 2.0ライセンスなので商用利用も自由。楽天という大企業が出しているという安心感はあるかも。

#日本語モデルまとめ

モデル	開発元	ライセンス	年商10億円未満	年商10億円以上
ELYZA（Llama系）	ELYZA	Meta Llama License	✓	✓
PLaMo 2 8B	PFN	PLaMo Community	✓	要契約
CyberAgentLM3	CyberAgent	Apache 2.0	✓	✓
Stockmark-13B	Stockmark	MIT	✓	✓
RakutenAI-7B	楽天	Apache 2.0	✓	✓

私の感想： 「中国製は避けたい、でも日本語性能は欲しい」という場合、ELYZAかCyberAgentLMが現実的な選択肢になりそう。ライセンス的にはApache 2.0のCyberAgentLMが一番シンプルかな。

#ローカルPCで動かす場合の必要スペック

「自分のPCでLLM動かしたい」という人向けに、必要スペックをまとめてみた。

#モデルサイズ別のVRAM目安

モデルサイズ	FP16（フル精度）	Q4量子化	推奨GPU
7B	約17GB	約4GB	RTX 4060 (8GB) 以上
8B	約18GB	約5GB	RTX 4060 (8GB) 以上
13B〜14B	約24GB	約9GB	RTX 4070 (12GB) 以上
32B	約60GB	約18GB	RTX 4090 (24GB)
70B	約140GB	約40GB	複数GPU or クラウド

RTX 4090は「工夫すれば30Bクラスまで動かせる、個人が買える最強の実験室」です。

— note記事

#量子化（Quantization）について

「Q4」とか「4bit量子化」というのは、モデルの精度を落としてメモリ使用量を減らす技術。ざっくり言うと：

FP16（フル精度）: 高品質だけどメモリ食う
Q8（8bit）: ほぼ品質変わらず、メモリ半減
Q4（4bit）: 品質やや低下、メモリ1/4程度

日常的な用途（チャット、文章生成など）ならQ4でも十分実用的。複雑な推論タスクでは品質低下が気になるかも。

#GPU別の目安

GPU	VRAM	動かせるモデル目安
RTX 4060	8GB	7B〜8B（Q4）
RTX 4070	12GB	14B（Q4）、7B（FP16）
RTX 4080	16GB	14B（Q8）、32B（Q4の一部）
RTX 4090	24GB	32B（Q4）、14B（FP16）
RTX 5090	32GB	32B（Q8）、70B（Q4の一部）

#Mac（Apple Silicon）の場合

Macは「ユニファイドメモリ」という仕組みで、CPUとGPUがメモリを共有している。これがLLMには有利に働くことがある。

Mac	メモリ	動かせるモデル目安
M1/M2 (16GB)	16GB	7B〜8B
M3 Pro (36GB)	36GB	14B〜32B（Q4）
M3 Max (64GB)	64GB	32B〜70B（Q4）
M3 Ultra (192GB)	192GB	70B以上も可能

Mac環境では、M1・M2・M3チップ搭載機種が特に優秀な性能を発揮し、統合メモリアーキテクチャによる効率的なモデル実行が可能です。

— Zenn記事

ただし、推論速度はNVIDIA GPUに劣る傾向がある。メモリ容量で勝負するか、速度で勝負するかはトレードオフ。

#私の環境での体感

私はRTX 4070 Ti SUPER（16GB VRAM）を使っている。Gemma 3の12BをQ4量子化で動かす分には問題なかった。ただ、ローカルで常用するかというと…正直、Claude Codeの方が楽なのでそっちを使っちゃう。

#ランニングコスト比較

「で、結局いくらかかるの？」という話。

#コスト比較表（月額目安）

環境	初期費用	月額ランニングコスト	向いている人
ローカルPC（RTX 4090）	約30〜40万円	電気代約3,000〜5,000円	個人開発者、実験用途
クラウドGPU（H100）	なし	約$2,000〜8,000/月	中規模チーム、本番運用
Cloudflare Workers AI	なし	従量課金（低コスト）	プロトタイプ、軽量用途
API（Claude/GPT）	なし	使用量次第（数千円〜）	ほとんどの人

#損益分岐点の目安

A private LLM starts to pay off when you process over 2 million tokens a day.

— LLM Total Cost of Ownership

1日200万トークン以上 処理するなら、セルフホストの検討価値あり。それ以下ならAPIで十分というのが一般的な見解らしい。

私の場合、Claude Codeで1日に使うトークンはせいぜい数万〜数十万程度。APIで全然足りる。200万トークン/日って相当な量だと思う。

#クラウドGPUの価格動向（2025年）

2025年に入ってから、クラウドGPUの価格が大幅に下がっているらしい。

AWS H100 instances dropped from approximately $7/hour to $3.90/hour in June 2025.

— BentoML GPU Procurement Guide

AWSのH100が約44%値下げ。競争が激化しているおかげで、ユーザーには嬉しい傾向。

#隠れコストに注意

セルフホストの場合、GPU代以外にも以下のコストがかかる：

電気代: 高性能GPUは消費電力が大きい（RTX 4090で450W、H100で700W）
冷却: 発熱対策、エアコン代
運用人件費: トラブル対応、アップデート作業
セキュリティ: 監査、コンプライアンス対応

Self-hosting brings extra costs for 24/7 on-call staff, under-used GPUs, security audits, and higher electricity use. Add a 15% buffer for these overheads.

— Cost to Host Private LLM

15%のバッファを見込んでおけ、とのこと。

#中国製LLMに関する懸念と現実的な評価

さて、ここからが本記事で一番書きたかったパート。

正直に書く。性能面では中国製モデル（特にQwen、DeepSeek）が日本語で強いのは事実。でも、日本企業で採用する際に心理的な障壁があるのも事実だと思う。

「心理的な障壁」って曖昧な言い方だけど、要は「なんとなく不安」「上に説明しづらい」「何かあった時に責任取れない」みたいな感情のこと。技術的な話だけじゃ片付かない、組織の意思決定における現実がある。

#DeepSeekの具体的な懸念事項

DeepSeekについては、複数のセキュリティ研究者から懸念が報告されている。ここは感情論ではなく、実際の報告に基づいた話。

懸念事項	報告内容
データ保存先	すべてのデータは中国本土のサーバーに保存
訓練への使用	プロンプトの訓練利用オプトアウト不可
キーストローク収集	入力パターンの収集が報告されている
セキュリティ脆弱性	弱い暗号化（3DES）、SQLインジェクション脆弱性が指摘
規制当局の対応	イタリア、韓国でアプリ削除・利用禁止措置

DeepSeek retains data “as long as necessary” for business purposes, with analysts noting no automatic deletion schedule. All data is stored on servers in mainland China.

— Krebs on Security

The US Navy banned the use of DeepSeek due to “potential security and ethical concerns associated with the model’s origin and usage.”

— TechTarget

米海軍が使用禁止って、結構インパクトある話だよなぁ…。

#「ローカルで動かす」ことの意味

ここで重要な区別がある。これ、私も最初は混乱していた。

クラウドAPI経由で使う場合：

データは提供元のサーバーに送信される
中国企業のAPIを使う = データが中国に行く

モデルをダウンロードしてローカルで動かす場合：

データは自社サーバー内で完結
推論時のデータ漏洩リスクはない（モデルの重みをダウンロードして動かすだけなので）

つまり、QwenやDeepSeekのオープンソースモデルを 自社サーバーで動かす場合 、推論時のデータが中国に送信されることはない。

モデルの「学習データの由来」が気になる人はいるかもしれないけど、それは推論時のデータ漏洩とは別の話。「このモデルは何を学んで賢くなったのか」と「私が入力したデータがどこに行くのか」は、分けて考える必要がある。

#Qwenの状況

Qwenは比較的オープンな姿勢を取っている：

主要モデルは Apache 2.0ライセンス で公開
モデルの重みをダウンロードして 完全にローカルで実行可能
自社サーバーで動かせば、Alibabaにデータは送信されない

DeepSeekのクラウドサービスとは異なり、Qwenをローカルで使う分には技術的なリスクは低いと思う。

ただ、「中国企業が作ったモデル」という事実に対する心理的な抵抗感は、組織によってはあるかもしれない。これは技術の問題じゃなくて、ガバナンスや社内政治の問題。「技術的には問題ないんですけど…」と説明しても、「でもなぁ…」ってなる上司、いるでしょ？

#日本企業としての現実的な選択

正直なところ、以下のような判断になるんじゃないかなと思う：

中国製モデルNG → ELYZA、Llama、Gemma、Mistral、Phi
性能重視で中国製OK（ローカル運用） → Qwen3（日本語最強クラス）
API利用でも中国製OK → 個人利用ならありかも（企業利用はおすすめしない）

私個人としては、ローカル運用前提でQwenを試してみたい気持ちはある。でも、仕事で使うとなると「ELYZAの方が説明しやすいよなぁ」とも思う。

#自社サーバー vs クラウドGPU環境

ローカルLLMを動かす場合、「完全自社管理」と「クラウドGPUを借りる」の2つの選択肢がある。

#自社サーバー（オンプレミス）

メリット：

データが完全に自社内に留まる
長期的にはコスト効率が高い可能性
監査・コンプライアンス対応が明確

デメリット：

初期投資が大きい（H100は1台数百万円）
運用・保守の専門知識が必要
電力・冷却設備のコスト

向いているケース：

金融機関、医療機関、政府機関など厳格なデータ所在地要件がある
長期的に大量のトークン処理が見込まれる

正直、個人や小規模チームには現実的じゃない選択肢。「H100買うか〜」とはならない。

#クラウドGPU環境（Cloudflare Workers AI等）

Cloudflare Workers AIのデータ取り扱い

Cloudflare does not use your Customer Content to train any AI models made available on Workers AI.

— Cloudflare Workers AI Privacy

公式ポリシー：

顧客データはモデル訓練に使用されない
顧客データは他の顧客と共有されない
Cloudflareはモデルを自社開発していない（第三者のオープンソースモデルをホスト）

つまり、「顧客データがモデル訓練に使われる」心配がそもそも構造的にない。Cloudflareは場所を貸しているだけで、モデル自体は作っていないから。

私の経験： Cloudflare Workers AIでGemma 3（12B）を試した時、セットアップの簡単さに感動した。Wranglerでデプロイして、数行のコードでLLMが呼べる。「ローカルLLMってもっと大変だと思ってた」という先入観が崩れた瞬間だった。

ただ、「これってローカルLLMと呼んでいいのか？」という疑問はある。Cloudflareのインフラ上で動いているわけだから、「セミローカル」ぐらいの位置づけかもしれない。

残るリスク：

Cloudflare自体のセキュリティ（これは他のクラウドサービスと同等）
モデルの学習データに含まれていた可能性のある情報（推論時のデータ漏洩とは別問題）

#個人情報を扱うサービスに適した選択

最後に、個人情報を扱う場合の選択肢を整理する。

#推奨度順の選択肢

優先度	選択肢	理由
1	自社サーバー + 信頼できるモデル	データが外部に出ない
2	AWS Bedrock / Azure OpenAI / Vertex AI	大手クラウドのセキュリティ基盤、モデル提供者のアクセス制限
3	Cloudflare Workers AI	データ訓練利用なし、ただしエンタープライズ向け機能は限定的かも
4	OpenAI / Anthropic API（ZDR付き）	ゼロデータ保持オプションで保護

#避けた方がいい選択肢

DeepSeekのクラウドサービス：GDPRコンプライアンス問題、データ所在地が中国
WebやアプリのChatGPT/Claude：チャット画面でやりとりするやつは、デフォルトで訓練に使用される可能性あり（API利用とは別物）

後者は意外と見落としがち。「ChatGPTで顧客データを分析しちゃった」みたいな事故、本当に気をつけた方がいい。

#まとめ

長くなったので、最後にざっくりまとめる。

観点	推奨
最高のプライバシー	自社サーバー + オープンソースモデル
バランス型	AWS Bedrock / Azure OpenAI / Vertex AI
手軽さ	Cloudflare Workers AI
日本語性能（中国製OK）	Qwen3系
日本語性能（日本製限定）	ELYZA
推論特化	Phi-4、DeepSeek-R1（ローカル運用）
避けるべき	DeepSeekのクラウドAPI（個人情報を扱う場合）

ローカルLLMは「APIの代替」ではなく、 データガバナンスとコスト最適化のための選択肢 として捉えるのが良さそう。

自分たちの要件（プライバシー、コンプライアンス、性能、予算、心理的な抵抗感）を明確にした上で、最適な組み合わせを選んでいくしかないかなと思う。

#おわりに

記事を書き終えて思ったのは、「LLM選定、沼だな」ということ。

技術的な比較だけでも大変なのに、データポリシー、ライセンス、国の問題、組織内の政治…考えることが多すぎる。

でも、こうやって整理してみると、自分の中で判断軸が少しクリアになった気がする。

もし間違いや古い情報があれば、教えてもらえると嬉しいです。この分野、変化が早すぎて追いつくのが大変…。

ローカルLLMについて詳しく調べてみた

#はじめに

#そもそも「ローカルLLM」って何？

#ローカルLLMが必要になる場面

#1. データプライバシーが最優先の場合

#2. コンプライアンス要件がある場合

#3. 大量のトークンを処理する場合

#4. カスタマイズが必要な場合

#主要APIプロバイダーのデータ取り扱いポリシー

#OpenAI API

#Anthropic Claude API

#Google Vertex AI

#AWS Bedrock

#Azure OpenAI

#ローカルLLMの主要モデル一覧

#国別・特徴別の早見表

#各モデルの詳細

Llama 4（Meta / アメリカ）

Gemma 3（Google / アメリカ）

Phi-4（Microsoft / アメリカ）

Mistral Large 3（Mistral AI / フランス）

Qwen3（Alibaba / 中国）

DeepSeek-R1（DeepSeek / 中国）

#SLM（Small Language Model）とは

SLMの特徴

代表的なSLMモデル

なぜSLMが注目されているのか

ELYZA（ELYZA / 日本）

#日本語に強いローカルLLM詳細調査

#ELYZA 詳細

ライセンスについて

Cloudflare Workers AIで使えるか？

必要スペック

#PLaMo（Preferred Networks / 日本）

ライセンス（PLaMo Community License）

主なモデル

Cloudflare Workers AIで使えるか？

#CyberAgent（サイバーエージェント / 日本）

主なモデル

#Stockmark（ストックマーク / 日本）

#LLM-jp（国立情報学研究所 / 日本）

#RakutenAI（楽天 / 日本）

#日本語モデルまとめ

#ローカルPCで動かす場合の必要スペック

#モデルサイズ別のVRAM目安

#量子化（Quantization）について

#GPU別の目安

#Mac（Apple Silicon）の場合

#私の環境での体感

#ランニングコスト比較

#コスト比較表（月額目安）

#損益分岐点の目安

#クラウドGPUの価格動向（2025年）

#隠れコストに注意

#中国製LLMに関する懸念と現実的な評価

#DeepSeekの具体的な懸念事項

#「ローカルで動かす」ことの意味

#Qwenの状況

#日本企業としての現実的な選択

#自社サーバー vs クラウドGPU環境

#自社サーバー（オンプレミス）

#クラウドGPU環境（Cloudflare Workers AI等）

Cloudflare Workers AIのデータ取り扱い

#個人情報を扱うサービスに適した選択

#推奨度順の選択肢

#避けた方がいい選択肢

#まとめ

#おわりに

#出典（公式ドキュメント）

#データプライバシー・クラウドサービス

#グローバルモデル

#日本語モデル

#SLM・コスト関連

#セキュリティ関連