MacBookで動くし、ぶっ壊れ性能。いま最強のローカルLLM｢Qwen3.5｣を解説しちゃう

2026.03.14 21:00
28,150

かみやまたくみ

MacBookで動くし、ぶっ壊れ性能。いま最強のローカルLLM｢Qwen3.5｣を解説しちゃう — HuggingFaceやLM Studioで無料でダウンロードできるローカルLLM｢Qwen3.5-9B｣ Photo: かみやまたくみ

とりあえずこれでいいやつ（令和最新版）。

2026年2月末〜3月上旬にかけてアリババがリリースしたオープンウェイトの大規模言語モデル（ローカルLLM）｢Qwen3.5｣シリーズが話題です。

実際触ってみたのですが、従来の同クラスのモデルから性能が大幅に向上しており、日本語での回答も読みやすい。ライセンスはApache 2.0で商用利用も可、何より無料でダウンロードできると、破格のAI。

ローカルLLMはChatGPTのようなメインストリームとは性質が異なるオルタナ的AIで、自分のPCでセットアップする必要があるものの、ダウンロードは無料。コスト面やプライバシー面でアドバンテージがあります。始めてみたい・いいモデルを探しているという人はQwen3.5を知っておいて損はありません。

Qwen3.5シリーズには複数のモデルがあるのですが、この記事では｢2025〜2026年において標準的なAI性能をもつノートPCで動かしやすいもの｣を主に扱います。

具体的には、M4〜M5 MacBook Airなどを使っているのであれば次世代小型ローカルLLMといってよい性能の｢Qwen3.5-9B｣がおすすめ、それより前のマシンを使っているのであればその弟分的な｢Qwen3.5-4B｣から始めるのがいい、という感じです。

＜目次＞

Qwen3.5シリーズ、何がすごい？

-- ベンチマークスコアが高く、評価も高い

｢メインAI｣として使えるレベルのローカルLLM

-- 実際に評判の通りの性能

-- MCPを活かせる。エージェントタスクもいける

- Qwen3.5-4Bでできること

-- できること自体は9Bと同じで、より動かしやすい

- 弱点は｢ハルシネーション率の高さ｣と｢処理に時間がかかりがち｣

Qwen3.5シリーズの動かし方

- Qwen3.5-4BにThinkingさせる方法

Qwen3.5シリーズ、何がすごい？

qwen3.5_small_size_score — Qwen3.5-9B/4Bの主要なベンチマークの成績

Qwen3.5シリーズが注目を集めたのは、公開されたベンチマークテストの結果が天元突破していたから。単純に性能がスゴそうだったのです。

細かく書くと長いのでざっとまとめてしまいますが、特に結果がいいのが｢Qwen3.5-9B｣。〜BというのはAIのサイズ（基本的には大きいと性能が高い）を示しているのですが、10B以下（MacBook Airなどで動かせるカテゴリ）で見ると現状トップです。

上掲のグラフは公式が出したものですが、比較対象がバグっています。Qwen3.5-4B以外はすべて、より大型のモデルや商用モデルになっており、かつそれらに比肩する性能であることが示されています。

LLM評価サイト｢Artificial Analysis｣も同様の評価で、非常に高い総合スコアを与えています。9Bでgpt-oss-120bに並んでるのはやばすぎ、AIミニスパコンで動かすようなモデルです。

aa_ii_qwen3_5_small — LLM評価サイト｢Artificial Analysis｣が公開している総合評価ランキング。Qwen3.5シリーズはより大型のモデルを超える評価を与えられている

｢Qwen3.5-4B｣はそんな9Bに近いベンチマークスコアを叩き出しています。5B以下のモデルとしては最高鋒で、現行の7Bクラスに近い性能を有します。

Artificial Analysisはこちらにも高い評価を出していて、有力なローカルLLMのひとつである｢gpt-oss-20b｣越えとなっています。

｢メインAI｣として使えるレベルのローカルLLM

といっても、上述の評価は英語での利用を前提としたもの。問題は日本語でも使いやすいのか？です。そんなわけで両モデルをざっとLM Studioで動かしてみたのですが、｢日本語で使っても普通に何もかも優れている｣という印象でした。

Qwen3.5-9Bの場合、体感で性能的に近いのはgpt-5-nano（OpenAIの商用超軽量モデル）やgpt-oss-20b（OpenAIのローカルLLM）です。Qwen3.5-4Bもそれより1段強劣る、くらいの感じ。ともにサイズに対して非常にパフォーマンスが高く、ぶっ壊れ性能だと思いました。

さすがにChatGPTやCodexで使えるフロンティアモデルには劣りますし、後述するように弱点もあるのですが、実用レベルの性能がある上に｢データを外に出さない（AIに学習などもされない）｣といったローカルLLMならではの強みも有します。有名メーカーのAIの代替ではなく、積極的にこちらを選ぶ理由があるレベルに達していると感じました。

そこそこの性能のノートPC（MacBook Air/ProやWindowsのAI PC）があれば動かせるのが本当に大きいです。Qwen3.5シリーズの登場が意味するのは、より廉価に、そしてより自由にAIを使う方法がひとつ増えた、ということです。

Qwen3.5-9Bでできること

以下、実際にどんな風に使えるのか、どの程度の性能なのかをざっと見ていきましょう。

細かく書くと長くなってしまうので、回答サンプルなどはGoogleドキュメントで別途公開します。ご興味ある方はそちらをご覧ください。

だいたいのタスクを日本語でこなせる

Qwen3.5-9Bは基礎性能が高く、翻訳・要約などの日常的なタスクはほぼ問題なくこなせます。サイエンスなどの高度な文脈も理解し、適切に処理できます。多言語に対応しており、日本語も問題なく扱えます。プロンプト・コンテキストは日本語でOKです。

画像認識に対応

マルチモーダルに対応しており、画像を認識できます。グラフを解析して言語化したりできますね。

長い会話や長文処理も可能

qwen-4 — MacBook Pro (M4, メモリ16GB＝標準構成のMacBook Airとほぼ同性能）でコンテキスト長を3万2000ほどに設定できる。高い推論性能を長い会話や長文PDFの処理を、超ハイスペックマシンでなくても活かせる

コンテキスト長（入力できるプロンプト・出力できる回答などの総量を示す値）を最大26万ほどに設定できるのも強力です。

コンテキスト長は小さいことにデメリットがあり、十分な値を確保できないと｢1-2回質問したら、新しいチャットを立て直さないといけない｣といった感じになってしまいます。｢長く会話を続ける｣｢長大な文書を処理させる｣ために相応の値に設定する必要があるパラメータで、基本的には大きいほうがいいです。

ところが、従来の高性能モデルはサイズが大きく、一般的なノートPCでは十分なコンテキスト長を確保するのが難しかった。Qwen3.5-9Bはこの問題を解決しています。M4〜M5 MacBook Airなどでもコンテキスト長を3万〜4万程度──普通に質問と回答を繰り返せる値に設定できるのです。

MCPを活かせる。エージェントタスクもいける

qwen-7 — ローカルMCPでストレージ内のデータベース（SQLite）に保存したウェブ資料をQwen3.5-9Bに検索させているところ

Qwen3.5-9BはAIエージェントとして訓練されているため、ローカルLLMに詳しい人が使い倒せるモデルでもあります。

具体的には、MCPなどのtool類（ざっくり言えば、AI用の外部拡張機能）を何度も利用しなければならない、複雑なタスクもそつなくこなします。自分に合ったMCPを用意できる人であれば、ChatGPTを代替させられると思います。

利用感は｢軽くなったgpt-oss-20b｣がかなり近いと思いました。自作コードから呼び出すモデルとしてもかなりいいはずです。

Qwen3.5-4Bでできること

qwen-8 — Qwen3.5-4Bは9Bより軽量で、多くの場面で十分な性能をもつ。詳しくは後述しますが、LM Studioで試す際はunsloth版をダウンロードするのをおすすめします

Qwen3.5-4Bは動作に必要なスペック要件が抑えられており、M3以前のMacBook Airなど型落ち気味のマシンで使えるのが最大の特徴です。機能的にはQwen3.5-9Bと同様で、画像認識に対応し、AIエージェントとしても十分に機能します。性能は9Bのほうが上ですが、4Bも十分に日本語で、日常的に運用できるレベルです。

必要十分なタスクであれば9B版よりも4Bを使った方が早く完了します。回答速度を重視するのであれば、4Bがむしろいい。スマートフォンやエッジデバイスで活用することを考えるなら、Qwen3.5-4Bはかなりアツいモデルでしょう。4Bは9Bの下位互換というわけではなく、使い分けの関係にあり、どちらも優れた選択肢なのです。

Qwen3.5-4Bについても回答サンプルなどをGoogleドキュメントにアップしてあります。ご興味がある方は併せてご覧ください。

弱点は｢ハルシネーション率の高さ｣と｢処理に時間がかかりがち｣

高性能なQwen3.5シリーズですが、さすがに完全無欠ではなく、弱点が2つ、指摘されています。ひとつ目はハルシネーションがかなり出やすいこと、もうひとつは思考量が多く処理時間が長くなりやすいことです。ただ、どちらも運用で回避可能で、個人的には致命的ではないと思いました。

ハルシネーションについてはそのままで、回答に誤りを含みやすいとAritificial Analysisが報告しています。自分が利用した範囲だと、プロンプトにコンテキスト（参考資料など）を入れておけばだいたい適切に推論できました。モデルの知識ベースでの生成は避けたほうがいいかもしれません。

aa_qwen3_5_output_tokens — Artificial Intelligenceのベンチマークを完了するまでに消費したトークン数。少ない方が効率的だが、Qwen3.5シリーズは他メーカーのモデルに比べてかなり多くなっている

｢思考量が多いと処理が長くなる｣というのは、少し説明が必要になります。昨今のLLMは｢回答する前に与えられた問題を熟考する｣（reasoning/thinkingなどとも呼ばれます）という挙動になっていて、Qwen3.5シリーズもそのような｢推論モデル｣です。回答前に思考が入るため、そうしないモデルよりも処理時間がかかることになるのですが、Qwen3.5シリーズはその思考自体も長い傾向にあると報告されているのです。

qwen-1-2 — Qwen3.5-9Bが12分以上の長考をしたところ。タスクは英文和訳です

自分も実用してみてそういった傾向ははっきりと感じました。9Bで顕著で、最大で約12分の長考を確認しています。そこまで難しいタスクでもなかったので、どうしてそうなるのか感。

しかし、この問題は4Bを併用することでかなり解消できます。そもそも軽いので、思考量が多くなっても、イライラするほど長々待たされる感じではないのです。ハイスペックなマシンであれば、9Bでもあまり気にならないでしょう。

Qwen3.5シリーズの動かし方

最後に、自分でも試してみたいという方向けに、LM Studioを使って動作させる手順をざっと紹介しておきます。LM Studioの細部についてはこちらで紹介しているので、不明点があればそちらをご覧ください。

1. LM Studioをインストール・起動
2. モデル検索タブで｢Qwen3.5-9B｣｢Qwen3.5-4B｣で検索
3. 9BはQwen独自アイコンのものを、4Bの場合は公開者が｢unsloth｣となっているものをダウンロード
4. ダウンロード後、チャット画面に移動し、ウィンドウ上部のモデルローダーをクリック。落としたモデルを選択
5. 設定画面が開きますが、最初は何もいじらずに｢モデルを読み込む｣を選ぶ
6. 新しいチャットを作成し、適当なプロンプトを入れて反応があればOKです
7. 起動を確認したら、モデルローダー右にある｢↑｣をクリックして一度モデルをアンロード。その後、改めてモデルを読み込み、今度は設定を調整します。Mシリーズを搭載したMacの場合はGPUオフロードを最大まで上げ、設定画面に表示されている｢Estimated Memory Usage｣が総メモリ量の最大2/3くらいになるまでコンテキスト長を増やします。