ComfyUI workflow事始め
Stable Diffusionという画像生成AIをローカル環境で動かすにあたって、いくつか方法がある。操作としてはAutomatic1111 web ui(/forge/reforge) と ComfyUIが割りと有名どころだ。もちろんマシンスペックもある程度必要でできればGPUとしてRTX3000番台でメモリは多いほうが良い。8Gだとぎりぎりなので12Gはあったほうが良いようだ。もちろん多い分には良いのだが値段が跳ね上がる。RTX1650/4Gなどだと一応動くものの生成にものすごく時間がかかることになる。それ以下だとそもそも動かない。そんな時はWebでのサービスを利用するとよい。少なくともRTX3060を買うよりは安く済むし、画像生成も早い
インストールはgit cloneほにゃららで入れてちょこちょこいじればできあがりだが、それとて敷居が低いわけではない。
ここでは StabilityMatrix というものを使って手軽にインストールをすることにする。
Stable Matrixのリンクを踏むと下のほうにWindowsやらなにやらとリンクがならんでいるのでWindows10/11をぽちっと押してダウンロードしてみよう。StabilityMatrix-win-x64.zipというファイルがダウンロードできるので、zipを解凍してフォルダに入ったexeファイル1個を取り出す。そして、何も考えずにダブルクリックすると不明な発行元と怒られるが、詳細を押して実行をするとStabilityMatrixが起動する。フォルダはできればSSD、容量は大きなほうが良い。最低のおためしでも256~512Mはあるとよいし多い分にはさらにいろいろなことができる。
デフォルトではC:\User配下に入れようとするがC:\ドライブはファイルが少ないほうがよいので、今回は、usbインタフェースの512MのM2 SSDに入れることにする。時々スクリーンショットがでてくるかもしれないがここでは、F:\ドライブになっている。そのあたりは適宜読み替えてほしい。データフォルダをF:\としてPortableモードにチェックを入れる。簡単に移せるようになるらしいがまだ試してはいない。
フォルダを選んだら「続ける」で先にすすむ。
こんな感じのデータを取っていいかと聞かれるので、そこはお好きなように。独自のUIをインストールするか聞かれるが使うこともないだろうということで「閉じる」を押して閉じてしまう。
いくつか残るがWebUI/Forge/reForgeとあるが安定しない時期もあるのと今回はComfyUIの説明なので、ComfyUIを選ぼう。
入れるUIを決めると、次に画像のデータのダウンロードの選択ができる。
あとから追加で入れることもできるのだがいろいろ試すのに便利なのですべていれてしまおう。1モデル当たり2Gから6G位のサイズだ。しばらくinstallが続くのでtea timeだ。
ComfyUIのinstallが終わっても裏で画像のModel(checkpointとも呼ぶ)のダウンロードが続いているので時々音がなるが、進んでいる証拠。"Launch"を押して始めようということで、ぽちっと開始する。
途中でとまるが、一番下のURLをctrlを押しながら開くかWebUIを開くで開く。後ほどオプションで自動起動にもできるが初回は手動だ。
ComfyUIはworkflowを変えることでイロイロなことができる。ただし、Automatic1111では何も考えなくて良かったことも考えないといけない。
世の中を見ると、気が触れたとしか思えないワークフローもあったりして
初心者がそれにあたった場合、とりあえず走らせて、足りないNodeがあったらManagerで追加する、checkpointも同じものを探してくる、VAEやらLoRAも同じくと。それでそろえられれば動くものの理解とは程遠い。
自分の備忘録も含めて、シンプルなところからいろいろ変更してみようと思う。
simpleなStable Diffusionのworkflow
単純なStable DiffusionでAI絵を生成するための最低限のworkflowから追加していってみる。Automatic1111で作った画像をドラッグアンドドロップしてもworkflowとしてできる。それを最小構成としてもいいのだが、それでも結構横長になるので、さらに削り落としてみた。すでに何か表示されていれば 右のメニューの"Queue Prompt"を押せば何か絵ができるかもしれないが下の"Load"ボタンでjsonファイルをアップロードもしくはドラッグアンドドロップして読み込もう。下にサンプルのjsonファイルを置いたのでダウンロードしてドラッグアンドドロップしてみよう。
jsonファイルをドラッグアンドドロップするとこのような形になる。Queue Promptを押すと、四角い箱の周りが緑になって、それが右から左へとすすんでいき、最後に絵ができあがる。何度か押してみるとそれぞれ違う絵が生成される。大まかな指定しかしていないので「女の子」がでてくるくらいの共通点しかない。もし警告がでるようだと、ここで指定しているモデルをダウンロードしていなかったということで ckpt_name の右の文字列をクリックすると使えるモデルがでてくるので、それを選択して"Queue Prompt"を押してみよう。
それぞれの四角い箱を「ノード」、線を「コネクション」と呼ぶ
左上から見ていこう。
Modelをダウンロードしますか?と聞かれてダウンロードしたものが ckpt_nameの所にでてくる。モデル名をクリックするとほかに使えるモデルがでてくる。stable diffusion公式のモデル以外にもいろいろな人がモデルを作っているのでダウンロードすれば違う絵柄を選ぶこともできる。
ただし、各モデル(以降checkpoint)ごとにライセンスで制約がある場合もあるのが個人で楽しむ分には問題ない。
その下のノードは、今のところ画像の大きさだと思ってくれれば問題ない。小さいと絵がつぶれるし大きくすると演算時間がかかるうえに、別の崩れ方をするのでほどほどに。
黄色い線をたどって右に行くとテキストが入るノードが2つある。
promptだの呪文だのと呼ばれるが、上のノードが生成したい絵を指定するためのprompt。下のノードは避けたい絵を指定する。確実にしたがってくれればうれしいのだが残念ながら完全ではないので、試行(ガチャとも呼ばれる)を繰り返す必要もあるだろう。ここでは1girl,kawaii,anime(一人の女の子、可愛い、アニメ)としか指定していないので指定がないところはAIが勝手に作ってくれる。ここのpromptの書き方を覚えれば自分の作りたい絵ができあがる。これも制約があったりなんだりで完璧なものはなかなかできないものの、ここが技の見せ所というわけだ。
さらに黄色い線をたどると KSamplerというノードがある。ここが画像の生成所でノイズを加えてプロンプトに合うようにノイズを除去することを繰り返す。seedという値もあるがそれが種になる数字だ。
そのあと、VAEという仕上げを行って、"Save in File"のノードで画像が保存される。ComufyUIだけを入れている場合は、
F:\Data\Packages\ComfyUI\output
にファイルがたまっていく。ほかのWeb UIを入れるとまとめて別の場所に保存してくれるので、UIを含めてイロイロ試してみるとよい。
次回はworkflowのカスタマイズだ。


コメント
1この記事の情報って嘘ですよね。間違っていると思いますよ。