見出し画像

ローカルAIかわいいよと言う話

これは生成AIアドベントカレンダーの12/3のために書く記事です。

ローカルAIとは?

ローカルAIとは、手元、もしくは自分が管理するコンピュータで動作するAIのこと。反対語はクラウドAIとか。クラウドAIにあたるのは、ChatGPT、Claude、Geminiなどで、ローカルAIに当たるのは、gpt-oss、Gemma、Qwenなどです。LLM以外にも、画像生成のFlux.2やQwen-Image、動画生成のWan2.2やHunyuanVideoもローカルAIと呼べます。

この記事ではローカルAIがなぜ可愛いと思えるのかについて語ります。

ローカルAIを使うメリット

ChatGPTやClaudeと異なり、ローカルAIには以下のようなメリットがあります。

・無制限に使える
 クラウドAIの場合、APIの利用制限というものがあります。
 これは特に仕事で自動化して使おうとするとAPIの利用制限が非常に厳しい場合があり、機材さえ手元にあれば無限に使えるローカルAIの魅力が高くなります。ローカルAIならAPI利用制限を気にせず大胆な運用ができます。特に「レートリミット」つまり、一分間あたりの呼び出し制限や一日あたりの呼び出し制限に引っかかるとニッチもさっちも行かなくなるので、無制限に使えるという点は魅力です。その分発想も広がります。

・性能が安定している
 
クラウドAIの場合、登場直後は高性能なことが多いのですが、突然性能が劣化したり、極端に回数制限がかかったりして「こっちはお金を払ってるのに」とイライラすることが少なくありません。特に、お客さん向けのサービスを展開している時にこれは致命的で、怒り狂うお客さんを「サム・アルトマンの気まぐれで…」とかなんとか言って宥めなければなりません。まあ顧客と契約する時に「クラウドが死んだ場合は責任は取れません」と書いておくべきでしょう。しかしそれとて気休めにすぎません。GPT-3.5が突然終了した時の某社の混乱を見ても、クラウドAIに過度に依存するのは危険だなと思います。
 ローカルAIの場合、手元に機械があるのでサービスの提供の責任は自分で取ることができます。また、性能が突然劣化することはあり得ません。この「常に同じクオリティで回答が得られる」ことがとても大切です。

・秘匿性が高い
 
AIを実際の業務に適用しようとすると、「その情報をクラウドに渡すのはまかりならん」というケースが非常に多いです。LLM出現以前まで、クラウド上にあるデータというのは、それを盗んでなんらかの価値に換金するには余程のルートが必要でした。しかし今や、データはそれだけで価値を生む存在です。OpenAIが編集前の動画をYouTubeから買い取ろうとするなど、とにかく「人間が生み出したデータでさえあれば何かしら価値があるかもしれない」という時代に突入しています。そういう時代に、いくら利用規約に「学習用のデータとして使用しません」と書かれていても、いつその紳士協定が破られる日が来ないとも限りません。また、価値のあるデータが「どこにあるか」が明確である限りは、常に攻撃の手に晒されます。クラウドAI事業者に悪意がなかったとしても、「データが宝石」の現代では、いつクラウドがハッキングされるかわかりません。
 ローカルAIは、LANから切り離して仕舞えば自律的に動作するため、秘匿性という点でこれほど信用できるものもありません。誰にも知られない場所で、誰にも知られず自社のデータを静かに分析することができるのです。

・ネット接続を必要としない
 
離島や砂漠、洋上、宇宙、深海など、人類の活動範囲は都市に限りません。ネット接続が前提のクラウドAIは、ここが決定的に弱く、そうした活動的分野ではほぼ当てにすることはできません。また、都市の中にあっても、例えば銀行の事務センターのように、PC持ち込みは原則禁止、ネット接続禁止、PC持ち出し時はHDDやSSDを物理的に破壊、という聖域があります。医療施設も患者のセンシティブな個人情報を扱うので同様です。また、インドのように、一時間に一回の停電が起き続けるという国もあります。クラウドAIに考えさせていても、突然思考が中断されるようなことが頻繁に起きるのです。
 こうした場所では、必然的にローカルAIしか使えないということになります。
 実際、軍事用のローカルLLMをgpt-oss-20bベースで訓練したというニュースを最近目にしました。https://www.edgerunnerai.com/

 戦場ではネット接続があるとは常に期待できませんからね。

 ・結局安い
 
LLMなどは一部クラウドの方が安く感じることも少なくありませんが、長い目で見れば安いと思います。元々ローカルAIをやるためには、それに対応したハードウェアが必要になるわけですが、そのハードウェアの価格も年々安くなっていってます。

実務に使えるローカルAI

では実際にどんなローカルAIが実務に使えるのか紹介したいと思います。

・gpt-oss-20b ほぼ全てのテキスト処理に活用できる

 OpenAIが頒布するgpt-oss-20bは、20B(2000億パラメータ)というコンパクトサイズながら、最大128K(約13万トークン)のコンテキスト長に対応しています。コンテキスト長が13万トークンということは、別の言い方をすると、新書一冊分(約10万トークン)のプロンプトを余裕で読めるということです。例えば新書の内容を丸ごと読ませてから「この本に書いてあることは何?」と聞かれてもちゃんと答えることができるわけです。
 業務で使う場合は社内文章やマニュアルを読ませて「この場合はどうしたらいいの?」と聞くと対応法を教えてくれたり、根拠となる社内文書を示したりすることができ、大変有用です。
 もっと大きいgpt-oss-120bも配布されていますが、通常のテキスト処理では20bで十分ですし、20bで良ければ必要なハードウェアスペックも低くてすみます。
 筆者が実務で使用しているgpt-oss20bの活用例は以下の通りです。

 ・マインドマップの自動生成
 ・文章の翻訳
 ・文章の要約
 ・文章の意味的なチャンク分け
 ・非構造的な文章からJSON形式で構造的なデータへの変換
 ・動画の要約(Whisperで文字起こしした後の要約)

画像
Whisperで動画を文字起こしし、gpt-oss-20bで要約したものからマインドマップを自動生成

 そもそもgpt-oss-20bはちょうど一年前に登場したo3-miniと同等の能力を持っているという触れ込みです。一年前にo3-miniが登場した時はあまりの能力の高さに発表の翌日にハッカソンを開催するくらい興奮したので、それがローカルで動いているとなると、もう可愛いよとしか言いようがない分けです。

・Whisper 文字起こし用音声認識

 WhisperもOpenAIが頒布するローカルAIです。
 世の中にはもっと性能がいい音声認識AIもあるのですが、とにかくローカルで動くという一点において素晴らしいと思います。whisper-large-v3-turboが出てからかれこれ一年更新がないのですが、これでそこまで困ったことがありません。
 確かに、ただ音声認識しただけの状態だと、誤字脱字も多いし間違いも少なくないのですが、音声認識結果をgpt-oss-20bに食わせて整形させると、かなり自然な文章になり、尚且つ、gpt-oss-20bに補助情報として誰がどんな状況で話しているかという情報を加えたり、固有名詞の言い間違いの可能性を示唆したりすると、ほぼ正確な内容で要約してくれます。
 筆者の用途としては文字起こしと要約で十分で、文字起こしの精度は上を見たらキリがないので、それよりは社内にある膨大な音声データ(例えば筆者の情報番組だけでも述べ500時間以上)を一旦は文字化できることで相当活用できる情報が増えました。

画像
「デイリーAIニュース」をWhisperで文字起こしてgpt-oss-20bで要約し、3Dマップ表示

・Qwen-Image-Edit-2509 , Flux.2[dev],Z-Image-Turbo 画像生成

 画像生成に関しては、Qwen-Image-Edit-2509がNanoBananaくらいの性能と言われています。Flux.2[dev]はNanoBanana Pro相当かなと思います。
 Flux.2[dev]はライセンス上、個人の目的か研究、実験用にしか使えませんが、自分のイマジネーションを広げるという点で非常に強力なツールです。
 Z-Image-Turboはその名の通り速い。
 最近作ったツールで、脚本から自動的にストーリーボードを起こすというものがあるのですが、これにQwen-Image-Edit-2509などを活用しています。ミソは、一度AIが吐き出したストーリーボードを見て「ここがイマイチだな」とか、「ここを変えてほしい」という点を追加のプロンプトや画像で指示すると、ちゃんと追従して変えてくれることです。

画像
筆者が開発中のStory Forge(非公開)

 これまで人間のアーティストに脚本を渡して「ストーリーボード描いて」と依頼しても、それが上がってくるまでには数週間から数ヶ月待つ必要がありました。もちろんそのようにして上がってくるものは、AIには思いつかないような素晴らしいものもあるのですが、まだ脚本が途中段階にある時、絵としてみたらどうなるんだろうという純粋な興味を満たすのに便利です。 
 実際、筆者も製作中の映画の脚本を入れたところ、「後半の画面が暗すぎるから、場面を変えよう」とか「このキャラクターは見た目を変えた方がわかりやすいな」とかというアイデアをもらい、脚本の変更に反映することができました。
 Flux.2[dev]はNanoBanana Proのようにインフォグラフィックスさえ書くことができます。

画像
適当に書いた文章を元に作られたインフォグラフィックス
画像
「存在とは何か」というNoteのエントリーをつっこんで書いたインフォグラフィックス

 残念ながらFlux.2[dev]は日本語をそのまま使えないので英語になってしまいますが、それでもすごい記述能力だと思いますし、ちょっとビックリしました。
 これだけのツールがローカルで動くとすれば、あとは使い方の工夫次第、と思えてきませんか?

・Wan2.2,FramePack 動画生成

 動画生成はWan2.2が非常に強力で、現状はローカルならこれ一択だと思います。より具体的には、何らかの方法で一枚目の絵を描いたあと、Qwen-Image-Edit-2509で一枚目の絵を加工して、その途中をWan2.2で繋いだり、Kohya-ssさんの開発したmusubi-tunerでクライアントが版権を持つ動画を学習させたりといったことに使います。
 musubi-tunerの活用についてはとりにくさんの記事が毎回参考になるのですが、動画生成は、「動画生成」という言葉を超えた何か別物に進化しそうでヤバい、というのが率直な感想です。
 というのも、FramePackの1フレーム推論などでは、「ファインチューニング」という言葉の意味そのものが実は勘違いだったのではないか、ということが簡単に起きます。
 例えば、線画の三面図しか学習させていなかったのに(しかも10組くらい)、それがそのまま写真にもカラーの絵にも適用できてしまったりなどです。

画像
FramePackの1フレーム推論

 これは、実はチューニングされてるのはAIではなく人間の方というか、まあそれは言い過ぎですが、AIは「もともと知っている操作」に人間が「これは90度回転」とか「180度回転」とか名前をつけて共通項を見つけているのに近いのではないかと思っています。人間同士どころか動物同士でもこのように意思疎通をしているので、動画生成AIのファインチューニングをするという行為そのものが、動画生成AIとのある種の「意思疎通」をする試みと言ってもいいのではないかなと思いました。
 こういうことも、クラウド上のAIだけを使っているとなかなか想像することはできません。

ローカルAIのためのハードウェア選び

こういう感じで、「ローカルAIはいいぞ」と語ると、次に必ず聞かれるのは、「では実際にローカルAIを使うためのハードウェアは何を買えばいいのか?」ということです。幸い、様々な事情で筆者は色々な環境を試せる立場にありますので、正直ベースで書きたいと思います。

ローカルLLMや音声認識(文字起こし)をやるなら…

もしもローカルでLLMをやりたい、という場合は、選択肢はかなり広いと言えます。というのも、実はMacもローカルLLMの推論に向いているからです。特にgpt-ossのように4ビット浮動小数点数を使う場合は、150万円のM3 Ultraが400万円するA100より高速だったりします。

個人的には、ローカルLLMやWhisperの実行にはMacStudioが向いてると思っています。スループットが高いからです。ただし、どこまで行ってもMacなので、多少の制約はあります。

gpt-oss-20bなら、16GBクラスのGeForce RTX 5060でも動くといえば動くのですが、VRAMが少ないのでコンテキスト長を伸ばすことができません。賢さを期待するならコンテキスト長は長めにとった方がいいです。特にgpt-ossはReasoningモデルなので、thinkingタグでコンテキストを消費します。それが賢さの源泉なのですが、それを活かすためには最低でも24GB、できれば32GBのVRAMは欲しいところです。Macの場合、ユニファイドメモリと言って、VRAMとシステムRAMの区別がないのでシステムRAMが64GBあれば結構gpt-oss-20bも動いてくれます。

静止画/動画をやるなら…

静止画/動画までやりたいとなると、選択肢はNVIDIA系に絞られます。もちろんIntelのARCやAMDも頑張ってはいるのですが、どうしても対応が「少し後回し」になってしまいます。これはこれまでNVIDIA製チップが無双していたからです。みんながNVIDIA製チップを使っているので、NVIDIA製チップが最優先にならざるを得ず、結果、みんながNVIDIA製チップを買うことになります。これを「プラットフォームのボース・アインシュタイン凝縮」と呼びます。

LLMの場合、計算が限られるのでAppleSliliconでも十分な性能が出ましたが、静止画/動画はまだまだNVIDIAの独擅場です。

幸い、この分野はホビイストが多いので、頑張れば5060 16GBでも画像生成はできます。動画生成もできます。しかし、「頑張らないと」できません。
ここをどう評価するかが難しいのですが、趣味でやるにしても、「もっといいGPUがあれば」と辛い思いをするくらいなら、ローン組んでいいマシンを買った方がいいと思います。個人的には。

結局何を買えばいいのよ

予算別、用途別にまとめてみます。

Ascent GX10 コスパ最強! NVIDIA Sparkチップ搭載で50万円台で128GB

今一番コストパフォーマンスが高いのは、Ascent GX10だと思います。
NVIDIAの最新世代Blackwellで、しかも128GBのユニファイドメモリを搭載しています。バスのスピード(メモリ転送速度)は安い分遅いのですが、それでも128GBもの広大な空間をCUDAで使えるという魅力は補ってあまりあるものがあります。しかも価格は60万円を切ります。

ローカルLLMを運用するなら非常に魅力的な選択肢になり得ます。特にgpt-ossに強いです。gpt-ossはこのマシンのために設計されたようなものだからです。

同じBlackwell世代で、VRAMが32GBしかない5090の新品価格とほぼ同等ですが、Ascent GX10はマシン丸ごとですからね。5090をマシン込みで買うと、80万円近くします。

AscentGX10を買うまえに注意しなければならないのは、AscentGX10は、「できること」は非常に多いです。特にファインチューニングなど、それまでデータセンターにあるようなGPUを持ってる人じゃないとできなかったようなことができます。

しかし、逆に画像生成、動画生成をガンガンやるような用途になると、現状はスピード面では不利になります。というのも、AscentGX10はチップが新すぎるため、ドライバがCUDA13.0しか対応しておらず、PyTorchはCUDA12.9までしかまだ対応していないからです。ですから現状、動画/画像系を動かすとエミュレーションレイヤーで動いているため、せっかくのスペックが活かされません。ここは対応を少し待つ必要があります。

しかし、やや遅いとはいえFlux.2[dev]もちゃんと動きました。これは驚異的です。Flux.2[dev]は、4ビット量子化版でも40GBのVRAMを必要とするからです。

それでも、「寝てる間にキューを回して翌朝確認すればいいや」とか、「会社に行ってる間にガンガン描いてくれればいいや」という使い方ならAscentGX10で充分です。僕としては、スピードそのものよりも、「できないことがない(天井がほぼない)」ことが嬉しいですね。特に、MXFP4へのネイティブ対応は、A100にはない機能なので、率直に言って羨ましいです。
AscentGX10は会社にもありますが、小さいところが可愛くて愛せます。この小さいボディに自分の過去の文章や動画や発言が全部入ってしまうと考えると、愛さずにはいられない、一番愛くるしいコンピュータです。

ちなみにNVIDIA純正のDGX Sparkというのも売られていますが、中身は全く一緒で90万円します。30万円は金ピカのボディ代ですね。


GeForce RTX 5090 せっかくだから、俺は5090を選ぶぜという場合

せっかくだから、俺は5090を選ぶぜ、という選択もあり寄りのありではあります。32GBのメモリというのは、128GBと比べると物足りないですが、そのかわり1.8TB/sという爆速のDDR7メモリを積んでいます。それに対し、GX10は0.3TB/sなので、バス速度としては1/6になってしまいます。

あと、消費電力。これ単体が575W使うので、電源はいいやつじゃないと詰みます。

Flux.2[dev]はFP8版が動きます。システムRAMが結構必要(64GB以上推奨)になりますが。

なので、画像生成モデルをグルグル回すという用途なら、5090は悪くありません。ただ、100万円近い出費となると、少し中途半端かなという気がします。というのも、100万円出せるなら、その上、150万円のRTX PRO 6000があるからです。

俺はプロだからRTX PRO 6000で行くぜという場合

RTX PRO 6000は、最新世代Blackwellでありながら、96GBもの広大なVRAMを持つ、間違いなく最強、ラスボスクラスのGPUです。これが150万というのはチートに近い安さ。

この「上」はもうH100(約600万円)とかB100(約1100万円)しかなくなります。

H100は4倍の価格なのに一世代前のHopper世代なので、Blackwell世代でこのレンジで買うならRTX PRO 6000一択。買うしかない!このビッグウェーブで。

例えば、今、作画専用サーバーを作るなら、H100x8よりもRTX PRO 6000x8で作る方が断然コスパが良い。H100x8=4800万円、RTX PRO 6000x8=1200万円。ね?作画サーバーの場合、横のGPUと連携する必要がないのでNVLINKとかNVSwitchとかいらないし

ちなみに各世代のGPUを比較するとこんな感じ。

画像
各GPU世代とメモリ帯域幅

コスト効率が断然RTX PRO 6000が高いことがわかるとおもう表

画像

そうすると、H100とB100の価格差の割に帯域幅あんまり変わんないなとか思うと思います。

それで、この表をどう読み解くかというと

・ハイエンドでも、単体のGPUに載っているのは96GBくらいがマックス(例外あり)
・つまり、96GBあれば大抵のモデルは動く
・帯域幅が2倍でも世代が進んだ方が計算そのものは高速化される

と考えると、ハイエンド利用なら、LLM/VLMのファインチューニングが目的でない限り、RTX PRO 6000が断然お得と思えるわけです。

AMDのRadeonは?

ようやくAMDが勝負できるようになってきたのは喜ばしいこと。特に32GB版で25万円というのは、5090の半額以下。処理速度も申し分ない。AMDの猛追と言える。LLMの性能評価は高め。システム全体で35万円でこのスペックが手に入るなら安い。

が、画像や動画の生成に関しては残念ながらまだまだチャレンジ枠であり万人向けではない。全部のモデルが無改造で動くというよりは「頑張って動かす」という感じ。それでも動くだけ凄いのだが。ソフトが熟れてきたら選択肢としては充分にありうるので常に動向をうかがいたい存在。もうちょっとかな。頑張ってほしい。

Macは?

MacはLLMやWhisperなら充分以上に実用的な速度で動きます。特にMacStudio(M3-Ultra)なら、大抵のGPUよりLLMの処理が高速です。最近、Appleから純正の画像生成や動画生成モデルも出てきました。なので、画像生成や動画生成が全くできないというわけではありません。

が、やはりFlux.2[dev]やQwen-Image-Edit-2509とかでキャッキャウフフしてるコミュニティを遠くからじっと眺めるだけで、一抹の寂しさを感じることを考えると、一点豪華主義でMacを選択するというのはまずあり得ません。

個人的にバランスがいいなと思ったのは、MacBookProで128GBくらいのメモリを積んでおくことです。gpt-oss-20bは余裕で動きます。航空機内やフェリーでろくに通信手段がない時にAI支援でプログラミングしたかったらこれしかありません。

どこぞの無職GOROManのように、MacStudio 512GBを持ち歩くのは変態だけです。たとえ同じ用途でもAscent GX10の方がずっと小さくて軽くてスマートです。

ただ、個人的な話になりますがちょうど一年前くらいにMacBookPro(M4-128GB)を買った時に、半年くらいは嬉しくて持ち歩いていたのですが、冷静に考えると、カバンに100万円のPCが入った状態で飲み屋で酔っ払うのは愚行としか言いようがなく、それでPCが壊れたりカバンを置き忘れたりしたら自分の中で何かを呪い続けることになるので今は「いざという時」だけ持ち歩くようにしてます。海外出張とかね。

普段持ち歩くのはiPad ProかPomeraかASUSのZenbook。
僕がWindowsを持ち歩くのは意外と思われるでしょうが、安心してください。使っているのはブラウザとターミナルだけです。

ローカルAIで使うソフト

マシンは用意した。さあ、じゃあどうやって使うんだよ。
ここまでお付き合いいただいた皆様、お疲れ様でした。いよいよソフトの話です。幸い、今はローカルAIを初心者でも簡単に使えるソフトが揃っています。筆者が実際に普段使いしているソフトを一つ一つ紹介しましょう。

LMStudio ローカルLLMの定番

LMStudioにお世話になってる方は多いのではないでしょうか。ローカルにLLMをダウンロードしてきて使うまでの一連の作業が全てGUIでできるというスグレモノです。

画像
LMStudioの画面

大概の最新モデルがすぐダウンロードできるので重宝しています。しかも、設定変更もGUIでできるので楽ちんだし、最初からJavaScriptとRAGのMCPが入っていて、新しいLLMのプログラミング能力を簡易的に図る子ができます。

VLMにも対応したのでさらに使いやすくなりました。

画像

本来ならCLIツールを使いそうな筆者でも、ごく簡単なチェックやアイデアの確認にはLMStudioを重宝します。例えば「gpt-oss-20bってこういうことできるんだっけ?」という確認のためにターミナルを立ち上げるよりはLMStudioでやってしまった方が便利だと感じます。特にコンテキスト長やパラメータサイズをいじるような用途ではコマンドラインでは煩雑ですからね。

ComfyUI 画像生成、動画生成ならこれ一択

ComfyUIは、もはや画像生成/動画生成のデファクトスタンダードと呼んでいいユーザーインターフェースでありソフトウェアプラットフォームでもあります。新しいツールを新たに作るくらいなら、ComfyUIのカスタムノードを作った方がいいか検討する価値があります。

画像
ComfyUI

特に最近、Windowsユーザーを甘やかすようになって、Windows版だけモデルのダウンロードが楽ちんだったりと、けしからん便利さになっています。

特にワークフローを仲間で共有できるのが最強で、「こんなワークフロー作ったよ」と取引先や仲間内で交換したりすることで研究や作業が捗ります。

また、「これをやった後、この処理を経由して、これ」みたいなことが、プログラムを書かずにできるので、プログラミングに抵抗がある人でも比較的受け入れやすいようです。

ちなみにComfyUIのプラグインのセットアップとかもClaude Codeがやってくれたりします。モデルのダウンロードとか面倒だもんね

ただ、筆者はビジュアル言語の研究もしていたのでこの路線の欠点もあることがわかっていて、この環境では頭を使えば使うほど画面がパニックになっていくということです。これはビジュアル言語が本質的に持つ欠点なのでどうにもならないのですが、もっと上手い方法はないんでしょうか。

Pinokio 初心者でも安心(!?)最新AIが試せるオールインワンAI環境

Pinikioは色々なAIをインストールしたり利用したりということがGUIで完結する、初心者に優しい環境です。特に、Windowsユーザーには重宝されます。

中学生むけに寄付したマシンにPinokioを入れていたのですが、半年ほど前にドメインが失効したらしく突然動かなくなってしまい、急遽、長岡まで新幹線で行く羽目になりました。それ以外は普通にいいツールです。Mazzoさん(第一回AIアートグランプリ優勝者)はこれを愛用しています。

ComfyUIがちょっとマニアックなのと比べるとPinokioは圧倒的にユーザーフレンドリーで、単機能で、色々なAIがあるんだなーとカタログ的に見ても楽しいです。Windows向きかな。

Claude Code + tmux

「散々ローカルAIが可愛いという話をしてきたのに結局クラウドかい!」と怒られるかもしれませんが、ローカルAIを愛でるためにこの組み合わせは必須。

tmuxはバーチャルターミナルで、Linux上にバーチャルなターミナルを開いてくれます。仮に移動中に通信が切断されたとしても、tmux上のセッションは切れることがないので、再接続してtmuxに入れば、さっきまでやっていた作業の続きに入れるわけです。

これを自分のアクセス可能な全部のマシンに入れてあります。Claude code Maxも3つ契約しています。CodexがいいとかGeminiがいいとかあるけど、俺はClaude codeが好きなんだ。

Claude Codeが便利なのは、例えば新しいAIのモデルがtwitterタイムラインに流れてきた時「面白そうだな。でも自分で試すのしんどいな」と思ったら、A100とかRTX PRO 6000とかが繋がってるターミナルに入って新しいディレクトリを切り、URLをコピペして「これ動かしてよ」と言えば、動いてることです。これ、昔は東大生のインターンとかに頼んでいたんですよ。それがもう、ご自宅から、夜打ち朝駆け、24時間365日使える。上に、人間のインターンの控えめに言って10倍は仕事が早い。

多少の環境の問題があっても自力で解決してくれます。できないのはGPUを買ってくることだけ。

コツは「uvで環境作ってこのgithubを動かして」みたいに指示すること。
そうしないと環境がぐちゃぐちゃになります。「docker環境作ってその中でやって」も効果的。そうするとsudoパスワードを教えなくても(危険)、sudoが必要そうなことも全部dockerでやってくれるのでディスクが汚れません。

ローカルAIはとにかく動かすのが面倒くさかったのですが、Claude codeちゃんを雇ったことでもうローカルAIは怖くない。だって勝手に動かしてくれるんだもん。ついでに「webui作って」と言えば作ってくれます。

僕がFlux.2[dev]を試すために作らせたwebui

画像
便利すぎる

さらに、tailscaleというツールと連動しておくと、複数の場所にあるマシンを全て同一LANにあるかのようにVPNが繋いでくれます。これが驚異的に便利。

会社のマシンと自宅のマシン、そしてさくらインターネットのデータセンターにあるマシンが全部VPNで繋がるので、「さくらのマシンでGPU4基積んでるやつにこのコード試してもらってよ」とか、「その仕事は重たいからMacStudio 512GBに投げてよ」と、まるでAIが会社を作ってるかのように連携しながら動かすことができます。マシンごとに名前をつけたくなりますね(ついてるけど)

出来上がった成果は、VPN内のブラウザからいつでも確認可能。
便利すぎる。

まとめ

今日のまとめです

・ローカルAIやるなら何はなくともGX10
・買えたら欲しいよRTX PRO 6000
・画像だけなら5090
・LLMだけならMacでもいいよ
・サンタさんB200ください
・結局Claude codeちゃんかわいいよ(おい)

いやあローカルAIって本当にいいものですね。
それでは

ピックアップされています

shi3z note

  • 729本
買うたび 抽選 ※条件・上限あり \note クリエイター感謝祭ポイントバックキャンペーン/最大全額もどってくる! 12.1 月〜1.14 水 まで
さすらいのプログラマー 知能と生命の研究者
ローカルAIかわいいよと言う話|shi3z
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1