ローカルLLMについて詳しく調べてみた
- 日本語
- LLM
- AI
- Cloudflare
- AWS
- GCP
- セキュリティ
#はじめに
私のローカルLLM経験は「Cloudflare Workers AIでGemma 3を動かしてみた」程度の浅い知識しかない。
普段はClaude Codeでコーディングしたり、claude.aiやGeminiで相談したり。Google AI Proプランに加入しているので、NotebookLMとかGoogle関連のサービスでGeminiをちょっと触るぐらい。メインはClaude Codeでの開発なので、ローカルLLMは正直あまり縁がなかった。
そんな私がなんでこの記事を書いているかというと、仕事でLLMの選定を考える機会があって、「ローカルLLMって実際どうなの?」「中国製モデル使って大丈夫なの?」みたいな疑問が湧いてきたから。
調べてみたら意外と情報が散らばっていて、公式ドキュメントを横断的にまとめた記事があまりなかった。なので、自分の勉強も兼ねて整理してみた。
同じように迷っている人の参考になれば嬉しい。
#そもそも「ローカルLLM」って何?
ChatGPTやClaudeを使ったことがある人は多いと思う。あれは「クラウドAPI型」のLLM。入力したテキストはOpenAIやAnthropicのサーバーに送られて、そこで処理されて結果が返ってくる仕組みだ。
一方、 ローカルLLM (セルフホストLLM、オンプレミスLLMとも呼ばれる)は、 自分の管理下にあるサーバーやPCでLLMを動かす 方式。データが外部に出ることなく、完全に自分のコントロール下で推論処理を行う。
具体的には以下のような形態がある:
| 形態 | 説明 |
|---|---|
| 自社サーバー | 自社のデータセンターやオフィス内のサーバーでLLMを稼働 |
| クラウドGPU | AWS、GCP、Cloudflareなどのクラウド上のGPUを借りてLLMを稼働 |
| ローカルPC | 開発者の手元のPCでLLMを稼働(主に開発・テスト用途) |
私が試したCloudflare Workers AI(Gemma 3の12B)は「クラウドGPU」に該当する。Cloudflareがホストしているモデルを、自分のWorkerから呼び出す形式だ。セットアップが楽だったので、「ローカルLLM入門」としては悪くなかったと思う。
#ローカルLLMが必要になる場面
「で、結局いつ使うの?」という話。
#1. データプライバシーが最優先の場合
金融、医療、法務、政府機関など、機密データを外部サーバーに送信できない業種では、ローカルLLMが現実的な選択肢になる。
自社サーバーでモデルを動かせば、機密情報が外部プロバイダーのサーバーに送信されることを避けられる。
まあ、私のような個人開発者には縁遠い話ではある。でも「将来的にB2B SaaSを作りたい」みたいな野望がある人は、頭の片隅に入れておいて損はないかも。
#2. コンプライアンス要件がある場合
SOC 2、GDPR、HIPAAなどのコンプライアンス要件を持つ顧客を抱える場合、外部APIへのデータ送信が許可されないケースがある。
この辺のアルファベット略語、正直まだ全部は理解できていない。「なんかヤバそうな規制があるらしい」ぐらいの認識。詳しい人、教えてください。
#3. 大量のトークンを処理する場合
APIの従量課金が積み重なると、自社運用の方がコスト効率が良くなる損益分岐点が存在する。一般的に1日あたり200万トークン以上を処理する場合、セルフホストの検討価値があるかもしれない。
ただ、この「200万トークン」という数字はあくまで目安。実際の損益分岐点は使用するモデルやハードウェア構成によって大きく変わるので、ちゃんと自分で計算した方がいい。
私の場合、Claude APIの月額がだいたい数千円程度なので、まだまだAPIで十分。H100を買う金はない。というか置く場所もない。
#4. カスタマイズが必要な場合
自社データでのファインチューニングや、特定のプロンプト設定、コンテキストウィンドウの自由な調整など、APIでは制限される柔軟性が必要な場合に有効。
「このモデル、もうちょっと〇〇に詳しくなってほしいんだよなぁ」みたいな欲求がある人向け。
#主要APIプロバイダーのデータ取り扱いポリシー
「ローカルLLMが必要か」を判断する前に、まずは各社APIのデータポリシーを正確に理解しておこう。
ここは公式ドキュメントから引用しているので、信頼性は高いはず。 というか、ここで嘘を書いたら記事の意味がないので、かなり慎重に確認した。
#OpenAI API
| 項目 | 内容 |
|---|---|
| モデル訓練への使用 | API経由のデータは訓練に使用されない(オプトインしない限り) |
| データ保持期間 | 不正利用監視のため最大30日間保持 |
| ゼロデータ保持 | 審査承認を得た顧客のみ利用可能 |
As of March 1, 2023, data sent to the OpenAI API is not used to train or improve OpenAI models (unless you explicitly opt in).
注意点:WebやアプリでChatGPTを使う場合(いわゆる「チャット画面でやりとりするやつ」)は、デフォルトでモデル訓練に使用される可能性がある。APIとは別物なので混同しないように。
これ、意外と知らない人多いんじゃないかな。「ChatGPTに機密情報入れちゃった…」という事故、割と聞く。
#Anthropic Claude API
| 項目 | 内容 |
|---|---|
| モデル訓練への使用 | 商用契約(API、Enterprise等)では訓練に使用されない |
| データ保持期間 | 2025年9月以降、7日間に短縮(従来は30日) |
| ゼロデータ保持 | DPA追加契約で利用可能 |
Commercial Terms prohibit it entirely. API data is never used for model training.
注意点:WebやアプリでClaude(claude.ai)を使う場合、2025年の規約更新でオプトイン形式でデータ提供できるようになった。Free、Pro、Maxプランのユーザーが対象。API利用には影響しない。
私はClaude APIを愛用しているので、このポリシーは安心材料。7日間保持に短縮されたのも良い傾向だと思う。
#Google Vertex AI
| 項目 | 内容 |
|---|---|
| モデル訓練への使用 | 顧客データは基盤モデルの訓練に使用されない |
| データ保持 | リージョン指定でデータ所在地を制御可能 |
| セキュリティ | CMEK、VPC Service Controls対応 |
As outlined in Service Specific Terms, Google won’t use your data to train or fine-tune any AI/ML models without your prior permission.
Google、企業向けはしっかりしてる印象。個人向けのGeminiとは別物という認識で良さそう。
#AWS Bedrock
| 項目 | 内容 |
|---|---|
| モデル訓練への使用 | 顧客データは訓練に使用されない |
| モデルプロバイダーのアクセス | AnthropicやMetaなどのモデル提供者は顧客データにアクセス不可 |
| コンプライアンス | GDPR、HIPAA対応 |
Amazon Bedrock doesn’t use your prompts and completions to train any AWS models and doesn’t distribute them to third parties.
モデル提供者(Anthropic、Meta等)がAWSの顧客データにアクセスできない構造になっているのは、セキュリティ面で安心材料かなと思う。「Bedrockでclaudeを使ったら、Anthropicにデータが行くの?」という疑問に対する答えは「No」らしい。
#Azure OpenAI
| 項目 | 内容 |
|---|---|
| モデル訓練への使用 | 顧客データは訓練に使用されない |
| データ保持期間 | 最大30日間(不正利用監視目的) |
| ゼロデータ保持 | EA/MCA契約顧客のみ利用可能 |
| 注意点 | ファインチューニング時にデータが一時的に地理的に移動する可能性あり(2025年3月更新) |
Any prompts and completions you send to Azure OpenAI are not used to train or improve Microsoft’s or OpenAI’s foundational AI models.
2025年3月の更新で「ファインチューニング時にデータが地理的に移動する可能性」が追加されたのは、ちょっと気になるポイント。データレジデンシー要件がある企業は要確認。
#ローカルLLMの主要モデル一覧
ここからが本題。ローカルで動かせるLLMモデルを、公式情報を元に整理した。
正直、モデルの数が多すぎて全部は追いきれない。 なので、2026年1月時点で主要と思われるものに絞った。
#国別・特徴別の早見表
| モデル | 開発元 | 国 | パラメータ | ライセンス | 日本語 | 推論特化 | マルチモーダル |
|---|---|---|---|---|---|---|---|
| Llama 4 | Meta | 🇺🇸 | 17B〜400B+ | Llama License | △ | - | ✓ |
| Gemma 3 | 🇺🇸 | 270M〜27B | Gemma ToU | △ | - | ✓ | |
| Phi-4 | Microsoft | 🇺🇸 | 3.8B〜14B | MIT | △ | ✓ | ✓ |
| Mistral Large 3 | Mistral AI | 🇫🇷 | 41B active / 675B total | Apache 2.0 | △ | - | ✓ |
| Qwen3 | Alibaba | 🇨🇳 | 0.6B〜235B | Apache 2.0 | ◎ | ✓ | ✓ |
| DeepSeek-R1 | DeepSeek | 🇨🇳 | 1.5B〜671B | MIT | ○ | ✓ | - |
| ELYZA | ELYZA | 🇯🇵 | 7B〜70B | 商用可 | ◎ | ✓ | - |
※ 日本語対応の評価は公式情報とベンチマーク結果を参考にした主観的な評価
こうして見ると、日本語に強いモデルは中国製が目立つんだよなぁ…。この表を作りながら「うーん」と唸ってしまった。後で詳しく書く。
#各モデルの詳細
Llama 4(Meta / アメリカ)
Metaが開発するオープンウェイトモデル。2025年4月にLlama 4がリリースされた。
公式情報:
- Llama 4 Scout: 17Bアクティブパラメータ、16エキスパート構成。単一H100 GPUで動作可能
- Llama 4 Maverick: 17Bアクティブ / 400Bトータルパラメータ、128エキスパート構成
- Llama 4 Behemoth: 教師モデルとして開発中、MATH-500やGPQA DiamondでGPT-4.5やClaude Sonnet 3.7を上回る
Llama 4 Scout and Llama 4 Maverick as the first open-weight natively multimodal models with unprecedented context length support and the first built using a mixture-of-experts (MoE) architecture.
特徴:
- ネイティブマルチモーダル(テキスト + 画像入力)
- MoE(Mixture of Experts)アーキテクチャで効率的
- 200言語サポート(Maverick)
日本語について: 200言語サポートとはいえ、アジア言語特化ではないので、日本語性能はQwen系に劣る可能性が高いかなぁという印象。「200言語対応!」と言われても、日本語がその200言語の中でどれぐらい優先されているかは別問題だし。
Gemma 3(Google / アメリカ)
Googleが開発するオープンモデル。Gemini 2.0の技術をベースにしている。
公式情報:
- パラメータサイズ: 270M、1B、4B、12B、27B
- コンテキスト長: 4B以上は128Kトークン(前世代の16倍)
- 対応言語: 140言語以上
- マルチモーダル: 4B以上は画像+テキスト入力対応
Gemma 3 supports over 140 languages.
特徴:
- 27Bでも単一H100またはTPUで動作
- 量子化オプションでメモリ削減可能(27B: 46.4GB → 21GB)
- 関数呼び出し機能搭載
ライセンス: Gemma Terms of Useに基づく。商用利用可能だが、使用制限条項を下流ユーザーにも適用する必要がある。Apache 2.0ほど自由ではない点に注意。
私の経験: 私がCloudflare Workers AIで試したのがこのGemma 3の12Bモデル。Workers AIのダッシュボードからポチポチするだけでセットアップできて、「あ、思ったより簡単じゃん」と感動した記憶がある。
ただ、日本語で使おうとしたら微妙に不自然な返答が返ってきて、「やっぱ日本語は弱いのかな…」と思った。英語で使う分には悪くなかったけど。
Phi-4(Microsoft / アメリカ)
Microsoftが開発する小型高性能モデル。「Small Language Model」という位置づけ。読み方は「ファイ」(ギリシャ文字のφ)。
公式情報:
- Phi-4: 14Bパラメータ、複雑な推論(特に数学)に特化
- Phi-4-mini: 3.8Bパラメータ、128Kコンテキスト、200K語彙
- Phi-4-multimodal: 5.6Bパラメータ、テキスト+音声+画像入力
- Phi-4-reasoning: 14Bで、DeepSeek-R1 distilled 70Bを上回り、フルDeepSeek-R1に迫る推論性能
Phi-4-reasoning, with only 14B parameters, performs well across a wide range of reasoning tasks, outperforming significantly larger open-weight models such as DeepSeek-R1 distilled 70B model.
特徴:
- MITライセンス(完全オープン)
- 小型なのに推論性能が高い
- 合成データを活用した効率的な学習
向いている用途: 数学、コーディング、論理的推論が必要なタスク。小型なのでエッジデバイスやコスト重視の環境に適しているかも。
14Bで70Bモデルを上回るとか、パラメータ数のインフレに歯止めをかける希望の光を感じる。「デカけりゃ正義」じゃないんだな。
Mistral Large 3(Mistral AI / フランス)
フランスのMistral AIが開発。ヨーロッパ発のオープンモデルとして存在感がある。
公式情報:
- パラメータ: 41Bアクティブ / 675Bトータル(MoE)
- コンテキスト長: 256Kトークン
- ライセンス: Apache 2.0
Mistral Large 3 is a state-of-the-art, open-weight large language model released by French AI startup Mistral AI in December 2025. It is fully open-sourced under the Apache 2.0 license.
特徴:
- ヨーロッパ言語に強い
- 完全Apache 2.0ライセンス
- コード特化モデル(Codestral)も提供
日本語について: 80言語以上サポートとはいえ、ヨーロッパ言語が主軸。日本語は「使えなくはないけど、最適ではない」という感じかなぁ。フランス語やドイツ語で使いたい人には良さそう。
Qwen3(Alibaba / 中国)
Alibabaが開発。日本語を含むアジア言語に強い。
公式情報:
- Dense: 0.6B、1.7B、4B、8B、14B、32B
- MoE: 30B-A3B(3Bアクティブ)、235B-A22B(22Bアクティブ)
- 対応言語: 119言語
- ライセンス: Apache 2.0
Qwen3 models support 119 languages and dialects.
特徴:
- 日本語、中国語、韓国語などアジア言語に強い
- Reasoning Model(思考の連鎖)対応
- 完全Apache 2.0ライセンス
日本語性能: JMMLUなど日本語ベンチマークでの評価が含まれており、公式に多言語対応を謳っている。日本語で使うならQwen系は有力な選択肢。
正直な感想: 性能だけ見たら「Qwen一択じゃん」って思っちゃうんだけど、そう単純にいかないのが後述する「心理的な壁」問題。悩ましい。
DeepSeek-R1(DeepSeek / 中国)
DeepSeekが開発。強化学習のみで推論能力を獲得した点が特徴的。
公式情報:
- DeepSeek-R1: OpenAI o1と同等の数学、コード、推論性能
- 蒸留モデル: 1.5B、7B、8B、14B、32B、70B(Qwen2.5/Llama3ベース)
- ライセンス: MIT License
DeepSeek-R1 achieves performance comparable to OpenAI-o1 across math, code, and reasoning tasks.
特徴:
- 強化学習のみで推論能力を獲得(SFTなし)
- 自己検証、リフレクション、長いCoT生成
- MITライセンスで商用利用可
注意点(後述のセキュリティ懸念参照): モデル自体はMITライセンスだが、DeepSeekのクラウドサービスを使う場合はデータが中国に送信される。ローカルで動かす分には問題ないはず。
技術的にはすごく面白いモデルなんだけど、色々と物議を醸しているのも事実。詳しくは後で書く。
#SLM(Small Language Model)とは
ここで一旦、**SLM(Small Language Model)**という概念について触れておきたい。
上のモデル一覧でPhi-4を「小型高性能モデル」と紹介したけど、これはSLMに分類される。SLMとは、一般的に1億〜50億パラメータ程度の比較的小さなモデルを指す。
Small language models (SLMs) can have anywhere from 100 million parameters to around 5 billion, whereas LLMs can have billions or even trillions of parameters.
SLMの特徴
| 項目 | SLM | LLM |
|---|---|---|
| パラメータ数 | 1億〜50億 | 数十億〜数兆 |
| 必要リソース | 一般的なPC/スマホでも動作可能 | 高性能GPU/クラウドが必要 |
| レイテンシ | 低い(応答が速い) | 比較的高い |
| コスト | 低い | 高い |
| 得意分野 | 特定タスク、エッジデバイス | 汎用的な複雑タスク |
代表的なSLMモデル
| モデル | 開発元 | パラメータ | 特徴 |
|---|---|---|---|
| Phi-4-mini | Microsoft | 3.8B | 推論特化、MITライセンス |
| Gemma 3 | 270M〜4B | マルチモーダル対応 | |
| Llama 4 Scout | Meta | 17B active | MoEで効率的、スマホでも動作可能 |
| Qwen3 | Alibaba | 0.6B〜4B | 多言語対応 |
The Phi 4 mini model stands out as a state-of-the-art SLM, trained on 5 trillion tokens using innovative training methods.
なぜSLMが注目されているのか
「デカければ正義」だったLLMの世界で、SLMが注目されている理由は主に3つ:
- エッジデバイスでの実行: スマホ、IoTデバイス、組み込みシステムで動かせる
- コスト効率: 推論コストが大幅に低い
- レイテンシ: リアルタイム応答が必要なアプリに適している
私のようにローカルPCで軽く試したい人にとっても、SLMは現実的な選択肢。RTX 4060(8GB VRAM)でも十分動かせるモデルがある。
ただし、SLMは「万能」ではない。複雑な推論や長文生成ではLLMに劣る傾向がある。用途に応じて使い分けるのが正解だと思う。
ELYZA(ELYZA / 日本)
東京大学松尾研究室発のスタートアップが開発。日本語に特化。
公式情報:
- ELYZA-japanese-Llama-2: 7B、13B、70Bパラメータ
- ELYZA-Shortcut-1.0-Qwen-32B: Qwen2.5-32Bベースの最新モデル
- ELYZA-Thinking-1.0: Reasoning Model(CoT対応)
- ライセンス: 商用利用可能
日本語による対話・タスクの実行においてグローバルプレイヤーが提供する海外製LLMに匹敵する性能を実現しています。
— ELYZA公式
特徴:
- 日本語に完全特化
- GPT-4oに匹敵するスコア(JMMLU、Japanese MT-Bench等)
- 日本企業なので心理的障壁が低い
向いている用途: 日本語でのビジネス利用、日本企業向けサービス。
個人的な感想: 「日本企業が作った日本語特化モデル」というだけで、なんか安心感がある。性能がQwenと比べてどうかは正直わからないけど、「中国製は避けたい」という要件がある場合の救世主的存在かもしれない。松尾研発というブランドも信頼感ある。
#日本語に強いローカルLLM詳細調査
日本語でローカルLLMを使いたい場合、どのモデルを選ぶべきか。ここでは日本製モデルを中心に、ライセンスや実用性を詳しく調べてみた。
#ELYZA 詳細
ライセンスについて
ELYZAのモデルはベースモデルのライセンスを継承している点に注意が必要。
| モデル | ベース | ライセンス | 商用利用 |
|---|---|---|---|
| ELYZA-japanese-Llama-2-7B/13B | Llama 2 | Llama 2 Community License | ✓(条件付き) |
| Llama-3-ELYZA-JP-8B | Llama 3 | Meta Llama 3 Community License | ✓(条件付き) |
| ELYZA-Shortcut-1.0-Qwen-32B | Qwen2.5 | 要確認 | 要確認 |
Llama 2 is licensed under the LLAMA 2 Community License, Copyright (c) Meta Platforms, Inc.
Meta Llama Community Licenseは商用利用可能だが、月間アクティブユーザー7億人以上の場合はMetaからの特別許可が必要という条件がある。まあ、ほとんどの企業には関係ない話だと思うけど。
Cloudflare Workers AIで使えるか?
結論:使えない。
調べてみたところ、Cloudflare Workers AIにELYZAモデルは含まれていない。日本語テキスト生成用のモデルとしては、Gemma 3(140言語対応)やQwen3(119言語対応)などの多言語モデルを使うことになる。
日本語専用モデルとしてはPLaMo Embedding 1B(Preferred Networks製)があるが、これはテキスト埋め込み用であってテキスト生成には使えない。
必要スペック
Llama-3-ELYZA-JP-8Bの場合:
- 推奨VRAM: 16GB以上(FP16の場合)
- 量子化(Q4): 8GB程度で動作可能
- 推奨GPU: RTX 4060以上、または M1/M2 Mac(16GB以上)
#PLaMo(Preferred Networks / 日本)
Preferred Networks(PFN)が開発する国産LLM。金融特化モデルや翻訳特化モデルなど、用途別のラインナップが充実している。
ライセンス(PLaMo Community License)
ユーザー又はその関係会社の直近事業年度の収入又は売上が10億円を超えないことが条件
つまり:
- 年商10億円未満: 無料で商用利用可能
- 年商10億円以上: PFNから商用ライセンスを別途取得する必要あり
これ、スタートアップや中小企業にはかなり良心的なライセンスだと思う。大企業は別途契約してねという形。
主なモデル
| モデル | 用途 | 商用利用 |
|---|---|---|
| PLaMo 2 8B | 汎用 | ✓(条件付き) |
| PLaMo Prime | 商用フラッグシップ | 有料 |
| PLaMo Lite | エッジデバイス向け | 有料 |
| PLaMo翻訳 | 翻訳特化 | ✓(条件付き) |
| 金融特化PLaMo | 金融業界向け | 有料 |
Cloudflare Workers AIで使えるか?
PLaMo Embedding 1Bのみ利用可能。ただしこれはテキスト埋め込み用なので、チャットや文章生成には使えない。
#CyberAgent(サイバーエージェント / 日本)
サイバーエージェントが開発する日本語LLM。OpenCALMシリーズやCyberAgentLMなど、オープンソースで積極的に公開している。
主なモデル
| モデル | パラメータ | ライセンス | 特徴 |
|---|---|---|---|
| CyberAgentLM3-22B-Chat | 220億(22B) | Apache 2.0 | 商用利用可、日本語特化 |
| DeepSeek-R1-Distill-Qwen-14B-Japanese | 140億 | MIT | 日本語リーズニングモデル |
| OpenCALMシリーズ | 各種 | Apache 2.0 | 商用利用可 |
CyberAgentLM3-22B-Chatは、スクラッチで開発され、商用利用可能なApache License 2.0で提供されています。
DeepSeek-R1-Distill-Qwen-14B-Japaneseは、中国DeepSeek社のリーズニングモデルをサイバーエージェントが日本語チューニングしたもの。ローカルで利用できる日本語リーズニングモデルとしては定番になっているらしい。
— Hugging Face: cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese
#Stockmark(ストックマーク / 日本)
ビジネス情報や特許情報を含む大規模な日本語データで学習されたモデル。
| モデル | パラメータ | ライセンス |
|---|---|---|
| Stockmark-13B | 130億 | MIT |
正直、ベンチマークでの評価はあまり高くないという話も聞く。「結論を急ぎすぎる」傾向があるらしい。用途によっては合わないかもしれない。
#LLM-jp(国立情報学研究所 / 日本)
国立情報学研究所(NII)が中心となって開発している、アカデミア発のオープンな日本語LLM。
| モデル | パラメータ | 特徴 |
|---|---|---|
| LLM-jp-3 172B | 1720億 | 最大規模の日本語モデル |
| LLM-jp-13B | 130億 | 研究開発向け |
研究目的での利用が主眼だが、商用利用の可否はモデルごとに確認が必要。
#RakutenAI(楽天 / 日本)
楽天グループが2024年3月に公開した国産LLM。
| モデル | パラメータ | ライセンス |
|---|---|---|
| RakutenAI-7B-Instruct | 70億 | Apache 2.0 |
Apache 2.0ライセンスなので商用利用も自由。楽天という大企業が出しているという安心感はあるかも。
#日本語モデルまとめ
| モデル | 開発元 | ライセンス | 年商10億円未満 | 年商10億円以上 |
|---|---|---|---|---|
| ELYZA(Llama系) | ELYZA | Meta Llama License | ✓ | ✓ |
| PLaMo 2 8B | PFN | PLaMo Community | ✓ | 要契約 |
| CyberAgentLM3 | CyberAgent | Apache 2.0 | ✓ | ✓ |
| Stockmark-13B | Stockmark | MIT | ✓ | ✓ |
| RakutenAI-7B | 楽天 | Apache 2.0 | ✓ | ✓ |
私の感想: 「中国製は避けたい、でも日本語性能は欲しい」という場合、ELYZAかCyberAgentLMが現実的な選択肢になりそう。ライセンス的にはApache 2.0のCyberAgentLMが一番シンプルかな。
#ローカルPCで動かす場合の必要スペック
「自分のPCでLLM動かしたい」という人向けに、必要スペックをまとめてみた。
#モデルサイズ別のVRAM目安
| モデルサイズ | FP16(フル精度) | Q4量子化 | 推奨GPU |
|---|---|---|---|
| 7B | 約17GB | 約4GB | RTX 4060 (8GB) 以上 |
| 8B | 約18GB | 約5GB | RTX 4060 (8GB) 以上 |
| 13B〜14B | 約24GB | 約9GB | RTX 4070 (12GB) 以上 |
| 32B | 約60GB | 約18GB | RTX 4090 (24GB) |
| 70B | 約140GB | 約40GB | 複数GPU or クラウド |
RTX 4090は「工夫すれば30Bクラスまで動かせる、個人が買える最強の実験室」です。
— note記事
#量子化(Quantization)について
「Q4」とか「4bit量子化」というのは、モデルの精度を落としてメモリ使用量を減らす技術。ざっくり言うと:
- FP16(フル精度): 高品質だけどメモリ食う
- Q8(8bit): ほぼ品質変わらず、メモリ半減
- Q4(4bit): 品質やや低下、メモリ1/4程度
日常的な用途(チャット、文章生成など)ならQ4でも十分実用的。複雑な推論タスクでは品質低下が気になるかも。
#GPU別の目安
| GPU | VRAM | 動かせるモデル目安 |
|---|---|---|
| RTX 4060 | 8GB | 7B〜8B(Q4) |
| RTX 4070 | 12GB | 14B(Q4)、7B(FP16) |
| RTX 4080 | 16GB | 14B(Q8)、32B(Q4の一部) |
| RTX 4090 | 24GB | 32B(Q4)、14B(FP16) |
| RTX 5090 | 32GB | 32B(Q8)、70B(Q4の一部) |
#Mac(Apple Silicon)の場合
Macは「ユニファイドメモリ」という仕組みで、CPUとGPUがメモリを共有している。これがLLMには有利に働くことがある。
| Mac | メモリ | 動かせるモデル目安 |
|---|---|---|
| M1/M2 (16GB) | 16GB | 7B〜8B |
| M3 Pro (36GB) | 36GB | 14B〜32B(Q4) |
| M3 Max (64GB) | 64GB | 32B〜70B(Q4) |
| M3 Ultra (192GB) | 192GB | 70B以上も可能 |
Mac環境では、M1・M2・M3チップ搭載機種が特に優秀な性能を発揮し、統合メモリアーキテクチャによる効率的なモデル実行が可能です。
— Zenn記事
ただし、推論速度はNVIDIA GPUに劣る傾向がある。メモリ容量で勝負するか、速度で勝負するかはトレードオフ。
#私の環境での体感
私はRTX 4070 Ti SUPER(16GB VRAM)を使っている。Gemma 3の12BをQ4量子化で動かす分には問題なかった。ただ、ローカルで常用するかというと…正直、Claude Codeの方が楽なのでそっちを使っちゃう。
#ランニングコスト比較
「で、結局いくらかかるの?」という話。
#コスト比較表(月額目安)
| 環境 | 初期費用 | 月額ランニングコスト | 向いている人 |
|---|---|---|---|
| ローカルPC(RTX 4090) | 約30〜40万円 | 電気代 約3,000〜5,000円 | 個人開発者、実験用途 |
| クラウドGPU(H100) | なし | 約$2,000〜8,000/月 | 中規模チーム、本番運用 |
| Cloudflare Workers AI | なし | 従量課金(低コスト) | プロトタイプ、軽量用途 |
| API(Claude/GPT) | なし | 使用量次第(数千円〜) | ほとんどの人 |
#損益分岐点の目安
A private LLM starts to pay off when you process over 2 million tokens a day.
1日200万トークン以上 処理するなら、セルフホストの検討価値あり。それ以下ならAPIで十分というのが一般的な見解らしい。
私の場合、Claude Codeで1日に使うトークンはせいぜい数万〜数十万程度。APIで全然足りる。200万トークン/日って相当な量だと思う。
#クラウドGPUの価格動向(2025年)
2025年に入ってから、クラウドGPUの価格が大幅に下がっているらしい。
AWS H100 instances dropped from approximately $7/hour to $3.90/hour in June 2025.
AWSのH100が約44%値下げ。競争が激化しているおかげで、ユーザーには嬉しい傾向。
#隠れコストに注意
セルフホストの場合、GPU代以外にも以下のコストがかかる:
- 電気代: 高性能GPUは消費電力が大きい(RTX 4090で450W、H100で700W)
- 冷却: 発熱対策、エアコン代
- 運用人件費: トラブル対応、アップデート作業
- セキュリティ: 監査、コンプライアンス対応
Self-hosting brings extra costs for 24/7 on-call staff, under-used GPUs, security audits, and higher electricity use. Add a 15% buffer for these overheads.
15%のバッファを見込んでおけ、とのこと。
#中国製LLMに関する懸念と現実的な評価
さて、ここからが本記事で一番書きたかったパート。
正直に書く。性能面では中国製モデル(特にQwen、DeepSeek)が日本語で強いのは事実。でも、日本企業で採用する際に心理的な障壁があるのも事実だと思う。
「心理的な障壁」って曖昧な言い方だけど、要は「なんとなく不安」「上に説明しづらい」「何かあった時に責任取れない」みたいな感情のこと。技術的な話だけじゃ片付かない、組織の意思決定における現実がある。
#DeepSeekの具体的な懸念事項
DeepSeekについては、複数のセキュリティ研究者から懸念が報告されている。ここは感情論ではなく、実際の報告に基づいた話。
| 懸念事項 | 報告内容 |
|---|---|
| データ保存先 | すべてのデータは中国本土のサーバーに保存 |
| 訓練への使用 | プロンプトの訓練利用オプトアウト不可 |
| キーストローク収集 | 入力パターンの収集が報告されている |
| セキュリティ脆弱性 | 弱い暗号化(3DES)、SQLインジェクション脆弱性が指摘 |
| 規制当局の対応 | イタリア、韓国でアプリ削除・利用禁止措置 |
DeepSeek retains data “as long as necessary” for business purposes, with analysts noting no automatic deletion schedule. All data is stored on servers in mainland China.
The US Navy banned the use of DeepSeek due to “potential security and ethical concerns associated with the model’s origin and usage.”
米海軍が使用禁止って、結構インパクトある話だよなぁ…。
#「ローカルで動かす」ことの意味
ここで重要な区別がある。これ、私も最初は混乱していた。
クラウドAPI経由で使う場合:
- データは提供元のサーバーに送信される
- 中国企業のAPIを使う = データが中国に行く
モデルをダウンロードしてローカルで動かす場合:
- データは自社サーバー内で完結
- 推論時のデータ漏洩リスクはない(モデルの重みをダウンロードして動かすだけなので)
つまり、QwenやDeepSeekのオープンソースモデルを 自社サーバーで動かす場合 、推論時のデータが中国に送信されることはない。
モデルの「学習データの由来」が気になる人はいるかもしれないけど、それは推論時のデータ漏洩とは別の話。「このモデルは何を学んで賢くなったのか」と「私が入力したデータがどこに行くのか」は、分けて考える必要がある。
#Qwenの状況
Qwenは比較的オープンな姿勢を取っている:
- 主要モデルは Apache 2.0ライセンス で公開
- モデルの重みをダウンロードして 完全にローカルで実行可能
- 自社サーバーで動かせば、Alibabaにデータは送信されない
DeepSeekのクラウドサービスとは異なり、Qwenをローカルで使う分には技術的なリスクは低いと思う。
ただ、「中国企業が作ったモデル」という事実に対する心理的な抵抗感は、組織によってはあるかもしれない。これは技術の問題じゃなくて、ガバナンスや社内政治の問題。「技術的には問題ないんですけど…」と説明しても、「でもなぁ…」ってなる上司、いるでしょ?
#日本企業としての現実的な選択
正直なところ、以下のような判断になるんじゃないかなと思う:
- 中国製モデルNG → ELYZA、Llama、Gemma、Mistral、Phi
- 性能重視で中国製OK(ローカル運用) → Qwen3(日本語最強クラス)
- API利用でも中国製OK → 個人利用ならありかも(企業利用はおすすめしない)
私個人としては、ローカル運用前提でQwenを試してみたい気持ちはある。でも、仕事で使うとなると「ELYZAの方が説明しやすいよなぁ」とも思う。
#自社サーバー vs クラウドGPU環境
ローカルLLMを動かす場合、「完全自社管理」と「クラウドGPUを借りる」の2つの選択肢がある。
#自社サーバー(オンプレミス)
メリット:
- データが完全に自社内に留まる
- 長期的にはコスト効率が高い可能性
- 監査・コンプライアンス対応が明確
デメリット:
- 初期投資が大きい(H100は1台数百万円)
- 運用・保守の専門知識が必要
- 電力・冷却設備のコスト
向いているケース:
- 金融機関、医療機関、政府機関など厳格なデータ所在地要件がある
- 長期的に大量のトークン処理が見込まれる
正直、個人や小規模チームには現実的じゃない選択肢。「H100買うか〜」とはならない。
#クラウドGPU環境(Cloudflare Workers AI等)
Cloudflare Workers AIのデータ取り扱い
Cloudflare does not use your Customer Content to train any AI models made available on Workers AI.
公式ポリシー:
- 顧客データはモデル訓練に使用されない
- 顧客データは他の顧客と共有されない
- Cloudflareはモデルを自社開発していない(第三者のオープンソースモデルをホスト)
つまり、「顧客データがモデル訓練に使われる」心配がそもそも構造的にない。Cloudflareは場所を貸しているだけで、モデル自体は作っていないから。
私の経験: Cloudflare Workers AIでGemma 3(12B)を試した時、セットアップの簡単さに感動した。Wranglerでデプロイして、数行のコードでLLMが呼べる。「ローカルLLMってもっと大変だと思ってた」という先入観が崩れた瞬間だった。
ただ、「これってローカルLLMと呼んでいいのか?」という疑問はある。Cloudflareのインフラ上で動いているわけだから、「セミローカル」ぐらいの位置づけかもしれない。
残るリスク:
- Cloudflare自体のセキュリティ(これは他のクラウドサービスと同等)
- モデルの学習データに含まれていた可能性のある情報(推論時のデータ漏洩とは別問題)
#個人情報を扱うサービスに適した選択
最後に、個人情報を扱う場合の選択肢を整理する。
#推奨度順の選択肢
| 優先度 | 選択肢 | 理由 |
|---|---|---|
| 1 | 自社サーバー + 信頼できるモデル | データが外部に出ない |
| 2 | AWS Bedrock / Azure OpenAI / Vertex AI | 大手クラウドのセキュリティ基盤、モデル提供者のアクセス制限 |
| 3 | Cloudflare Workers AI | データ訓練利用なし、ただしエンタープライズ向け機能は限定的かも |
| 4 | OpenAI / Anthropic API(ZDR付き) | ゼロデータ保持オプションで保護 |
#避けた方がいい選択肢
- DeepSeekのクラウドサービス:GDPRコンプライアンス問題、データ所在地が中国
- WebやアプリのChatGPT/Claude:チャット画面でやりとりするやつは、デフォルトで訓練に使用される可能性あり(API利用とは別物)
後者は意外と見落としがち。「ChatGPTで顧客データを分析しちゃった」みたいな事故、本当に気をつけた方がいい。
#まとめ
長くなったので、最後にざっくりまとめる。
| 観点 | 推奨 |
|---|---|
| 最高のプライバシー | 自社サーバー + オープンソースモデル |
| バランス型 | AWS Bedrock / Azure OpenAI / Vertex AI |
| 手軽さ | Cloudflare Workers AI |
| 日本語性能(中国製OK) | Qwen3系 |
| 日本語性能(日本製限定) | ELYZA |
| 推論特化 | Phi-4、DeepSeek-R1(ローカル運用) |
| 避けるべき | DeepSeekのクラウドAPI(個人情報を扱う場合) |
ローカルLLMは「APIの代替」ではなく、 データガバナンスとコスト最適化のための選択肢 として捉えるのが良さそう。
自分たちの要件(プライバシー、コンプライアンス、性能、予算、心理的な抵抗感)を明確にした上で、最適な組み合わせを選んでいくしかないかなと思う。
#おわりに
記事を書き終えて思ったのは、「LLM選定、沼だな」ということ。
技術的な比較だけでも大変なのに、データポリシー、ライセンス、国の問題、組織内の政治…考えることが多すぎる。
でも、こうやって整理してみると、自分の中で判断軸が少しクリアになった気がする。
もし間違いや古い情報があれば、教えてもらえると嬉しいです。この分野、変化が早すぎて追いつくのが大変…。
#出典(公式ドキュメント)
#データプライバシー・クラウドサービス
- Cloudflare Workers AI Privacy
- OpenAI Data Controls
- Anthropic Privacy Center
- Google Vertex AI Zero Data Retention
- AWS Bedrock Data Protection
- Azure OpenAI Data Privacy
#グローバルモデル
- Meta AI Llama 4
- Google AI Gemma
- Microsoft Phi-4
- Microsoft Tech Community: Phi-4
- Mistral AI Docs
- Qwen Blog
- DeepSeek GitHub
#日本語モデル
- ELYZA公式
- Hugging Face: ELYZA
- PLaMo Community License
- サイバーエージェント公式 - CyberAgentLM3
- Hugging Face: cyberagent
- Hugging Face: Stockmark-13B
- Hugging Face: llm-jp
- Hugging Face: Rakuten/RakutenAI-7B-instruct
#SLM・コスト関連
- IBM: What Are Small Language Models?
- Hugging Face Blog: Small Language Models
- LLM Total Cost of Ownership
- BentoML GPU Procurement Guide