見出し画像

【2026年版】AIイラストが理解る!StableDiffusion超入門

この記事は「2026年現在、最新の画像生成AIはどこまでできるようになったか、まだできないことは何か」を紹介し、画像生成AIの仕組みや自分のPCで動かす方法、知っておかないと大惨事になる注意点まで、誰でも今から「AIイラストの始め方」が理解できる大型コンテンツです。2023年の初版以来、定期的に内容をアップデートし続けており、今回も全て無料で読める全体公開noteとしています。【約4万5000字】

これから画像生成を始めたい方や、漫画やイラストの作画にAI技術を取り入れてみたい方、AIは好きになれないけど最新環境を把握しておきたい方が最初に読む記事として、必要知識をやさしく解説しています。StableDiffusionとは何か、どうやって動かすか、NanoBananaなどの有名モデルとはどう違うか、必要な機材やつまずきやすいポイントをしっかり網羅。あらかじめ知っておかないと必ず失敗する心得も盛り込んだ、AIイラスト入門書の決定版と言える内容です。

解説役は3年連続、更木(ざらき)ミナちゃん。よろしくお願いします!

画像
今年ももちろん18歳



<自己紹介:スタジオ真榊FANBOX>
スタジオ真榊(まさかき)は、StableDiffusionやNovelAI、NanoBanana等を使ったAIイラスト・漫画・動画制作の研究サークルです。20万字の「プロンプト大辞典」を始め、手描き技術との併用、ControlnetやLoRAといった拡張技術の解説などを毎週~隔週連載。通算150本超・平均1万~2万字の記事群にまとめています。【検証・執筆:賢木イオ

画像
AIイラスト関連の有料会員数では日本最大規模です!



2025年、画像生成はどこまで進歩した?

まずは画像生成AIを取り巻く最新状況から見ていきましょう。2025年は多くの人が「動画生成の年になるだろう」と予想していました。実際に、ChatGPTで有名なOpenAI社が「Sora2」をリリースしたり、中国発のローカル用動画生成モデル「Wan2.2」が出たり、X(旧Twitter)のAI「Grok」でも静止画を気軽に動画化できるようになったりと、動画生成の正確性、利便性が大きく向上した1年となりました。


しかし今振り返ってみると、2025年世界に最も大きなインパクトを与えた画像生成AIは、Googleが8月26日に公開した画像生成モデル「NanoBanana」だったのではないかと思います。特に11月にアップデートされた上位版「NanoBananaPro」の性能はすさまじく、簡単な指示で複雑なタスクを難なくこなせるようになりました。

NanoBananaがもたらした革新

以下がNanoBananaProで生成した画像の例です。

画像
1ページまるまる漫画生成
画像
キャラ画像から12個のスタンプを一発生成
画像
部屋の正面の風景を与えて、カメラアングルを任意に変更

これまでの画像生成AIは「1girl,smile,ponytail…」といった呪文のような文章(プロンプト)で指示するのが一般的でしたが、NanoBananaは日本語でやり取りするだけでOK。「このキャラクターで何か面白い4コマ漫画を作って」とか「この写真にこのキャラを合成して」などと気軽に依頼すれば、ユーザーの意図を汲み取ってくれますし、変更したい部分も日本語で頼むだけで修正してくれるようになりました。

年末からは”Qwen”シリーズが猛追

2025年末から26年初頭にかけては、中国Alibabaがリリースしたローカル向けモデル「QwenImage」シリーズが続々リリース。NanoBananaのような自然言語指示での高品質な画像編集が、ローカル環境でも楽しめるようになりました。

画像
画像編集特化モデル「QwenImageEdit2511」を使い、
左の画像を「背後から見下ろし」の画角に変更させたもの
画像
レイヤー分割特化モデル「QwenImageLayered」を使って
左上の絵を三つのレイヤーに「分割」した例


従来のStableDiffusionと何が変わったのか

従来型の画像生成AIは、「ラーメンが食べられない」とか、「指が6本になる」といった不正確な生成結果がつきものでしたし、呪文のような難しいプロンプトを覚えなければ使えない印象がありました。どうして、NanoBananaやQwenImageシリーズは自然言語指示で高品質な画像生成ができるのでしょうか?

SDとの違いを分かりやすさ優先で説明してみます。まず、StableDiffusion(以下、SD)のような従来型の画像生成AIモデルは、ユーザーの言葉を画像に変換する際、CLIPと呼ばれる「単語と画像のペアが載っている巨大な辞書」を使っていますSDは「1girl」と言われれば女の子、「apple」と言われれば赤くて丸い果物の画像(正確には画像そのものではなく"ベクトル")を辞書から探し出しますが、この辞書にあるのは画像の見た目と名前だけで、「リンゴはどうやって食べるものか」とか、「手を放すとリンゴがどうなるか」といった常識は一切持っていません。

こうした常識のことを、AIの世界では「世界知」(World Knowledge)と呼びます。NanoBananaが人間の指示を汲み取れるのは、この世界知を持っているから。例えばこのように、ミナちゃんの画像を与えてトマトを持たせることができますし…

画像

トマトから手を放すとどうなるかも推論することができます。

画像
「surprised」とか「looking down」「crashed tomato」と
呪文で指示しなくても、自然に指示を理解できる

NanoBananaはSDのような「辞書」ではなく、「Gemini 3」という高性能LLM(大規模言語モデル)を画像生成の司令塔として搭載しているので、LLMとチャットするときと同じようにこちらの意図を読み取って画像を生成することができます。SDがやっているように、ユーザーが入力した文章を直接画像に変換するのではなく、求められている内容をいったん「思考」する段階があるのが最大の特徴。そのため、物理法則や歴史、人間の感情の機微などを理解している(かのように画像生成できる)わけですね。

SDは「ramen」や「eating」というタグ付きの画像は学習していますが、「ラーメンはどうやって食べるものか」という世界知を持っていません。画像とテキストのペアから学習した「ベクトル」を頼りに「ramen」+「eating」を推論するしかないため、黎明期は麺を手づかみして食べてしまう現象がよく起きました。現在主流のSDXLではさすがに「eating ramen」や「holding chopsticks」といったタグを並べることでラーメンを食べる様子を生成できるようになりましたが、これはそれらしくピクセルを並べているだけで、いまも「ラーメンがどういうものか」という世界知を獲得したわけではないのです。

画像
▲SDXLで生成した「1girl,eating ramen,holding chopsticks」

StableDiffusionはもう時代遅れ?

NanoBananaやQwenImageシリーズのように、「世界知」を持つ最新モデルが続々登場する中、次第に取り残されつつあるStableDiffusion。「それじゃあ、わざわざ高いPCを買い揃えなくても、GeminiやChatGPTに画像生成を頼めばいいんじゃない?」と思うところですが、実際に触ってみると実はそうでもありません。NanoBananaのようなクラウド型のモデルには「①カスタマイズ性」「②表現の自由度」「③ツールとしての永続性」がないため、一貫性を保った自由な表現を行うことがまだまだ難しいのです。

①カスタマイズ性
さきほどから生成しているミナちゃんの画風やキャラクターデザインを、NanoBananaはゼロから生み出すことができません。例えば、以下のような文章で一生懸命NanoBananaにミナちゃんの容姿を伝えても…

画像

生成されるのはこのような画像になってしまいます。細かな画風を言語指示だけで表現することは難しいのですね。本物のミナちゃんの画像を読み込ませて画風を真似てもらうこともできますが、やはり「どこか違う」感じになってしまいます。

画像
注文が複雑になるほど、絵柄が「NanoBanana風」になってしまう


一方SDでは、後述する「LoRA」という仕組みを使って、画風やキャラ容姿など幅広い概念を追加学習させることができます。例えば、左の画像から「1girl」の描き方を学習させれば、ミナちゃんを常にその画風で描くことが可能。こうしたカスタマイズ性の高さが、ローカルモデルならではの強みと言えます。

画像
左の1枚絵からちびキャラ画風を抽出・学習して、キャラクターデザインに適用

こうしたモデル固有の絵柄は、「マスピ顔(masterpiece顔)」と呼ばれます。もちろんStableDiffusionにも「マスピ顔」はあるのですが、さきほど紹介したLoRAを使ったり、プロンプトを工夫したり、さまざまなモデルを「マージ(混合)」することで、自分だけの「マスピ顔」を作ることができる強みがあります。
>>「マスピ顔(masterpiece顔)はなぜできる?」参照

②表現の自由度
NanoBananaProやChatGPTといったクラウド型のモデルはコンプライアンスの塊ですので、成人向けの表現はご法度です。水着くらいなら通りますが、「下着」になるとたいていは規約違反扱いでエラーが出ますし、それより先の表現は即座にブロックされます。成人向け画像以外でも、例えば拳銃を構えたポーズや爆発シーンが生成できないなど、思わぬ「検閲」によって生成がうまくいかないことがよくあります。

「検閲」とは少し違いますが、NanoBananaのような最新モデルに「指を6本にして」と頼んでも、どうしてもうまく生成してくれないことがあります。なまじ高性能な世界知(常識)を持っているために、その強固な常識に縛られてしまうわけですね。NanoBananaは創作の強力なパートナーになってもくれますが、あくまでツールとして使いたい場合には、逆に世界知が邪魔になってしまうこともあるのです。

画像
無知ゆえの自由?

③ツールとしての永続性
NanoBananaなどのクラウド型モデルは、運営企業がサブスクリプション料金や使用料金の対価として提供しているので、ある日突然モデルチェンジやサービス終了、値上げ、規約変更といった環境変化を迫られる可能性があります。また、生成には企業側のリソースを消費しているため、アクセス過多によってサーバーが落ちてしまうこともありますし、一度に生成できる枚数にも制限があります。
この点、ローカルで動作するSDのようなモデルを使う場合、一度環境を導入してしまえば、1日何千枚と生成しても電気代以外は掛かりません。それまで使えていた環境が突然企業側の都合で使えなくなることもなく、いつでも安定した作業環境を保つことができます。


誤解を恐れず言えば、NanoBananaのようなモデルは「企業にお金を払って生成させてもらう最新AI」、SDのようなローカル向けモデルは「自分のPCで好きなだけ生成できるカスタム可能AI」と言えるでしょう。NanoBananaはGemini上で無料で使うこともできますので、始めはNanoBananaで画像生成がどんなものか味わってみて、自分のやりたいことと照らし合わせて必要を感じたら、ローカル生成にチャレンジしてみるのがよいでしょう。

「いらすとや」需要のように、ポスターや個人サイト、資料にちょっとした彩りを添えたい程度の用途なら、NanoBananaProだけでも十分な成果を得ることができます。それでは飽き足らず、より自由な表現にトライしたい場合、ローカル生成が選択肢に入ってくる…というのが、2026年のAIイラストをめぐる現状と言えます。

画像
いらすとや「AIと仲良くなる人間のイラスト」
https://www.irasutoya.com/2018/03/ai.htmlより)



画像生成AIの仕組みをざっくり解説

2026年におけるローカルモデルの位置づけが分かってきたところで、「SDはどうやって画像生成を行っているか」について簡単に理解しておきたいと思います。

さきほどは「画像とテキストがペアになった辞書を使って画像生成している」と雑に説明しましたが、AIは何万・何億という画像そのものを「記憶」しているわけではありません。では、一体どうやって人間の指示通りに画像を生成できるのでしょうか。

まず覚えてほしいのは、次の三つのキーワードです。

・「データセット」…画像生成AIが学習するために使う画像と、何が描かれているか説明するテキストの組み合わせ(教師データ)の集まりのこと。画像とテキストを「ペア」で学習することが重要。
「学習済みモデル」…データセットを学習したAIのこと。"checkpoint"や単に"モデル"と呼ばれることが多い。「Civitai」などのサイトで、さまざまなローカル用モデルが共有されている。
「プロンプト」…AIに生成させたい内容を指示するためのテキスト入力のこと。SDやNovelAIでは、「1girl,smile,looking at viewer…」のようにタグをカンマで区切って並べる「danbooru式」の記述法を使うが、日常会話のような指示(自然言語)で生成できるよう学習させたモデルもある。

この記事で紹介するStableDiffusionも、学習済みモデルの一つです。text-to-image(略してtxt2img=文章から画像)と言って、無数の画像とテキストのペアでできている「データセット」から学習することで、「プロンプト指示」に応じた新しい画像を出力することができます。AIは画像を無から生成するのではなく、人間が入力したテキストを画像に「直接変換」できるシステムだと考えると近いかもしれません。

画像
左のプロンプトを学習済みモデルが"変換"して、右のイラストが生成される。
※NanoBananaのような「思考」の過程はなし

生成のカギは「ノイズ除去」

どうしてこんなことができるのかというと、学習済みモデルは「ノイズで不鮮明になった画像から、ノイズを除去してきれいにする訓練」を積んでいるからです。

例えば「これはリンゴ(apple)だよ」と言われて、ノイズ混じりの赤い画像を見せられ、ノイズを取り除いてきれいなリンゴの画像にする訓練を想像してみてください。気の毒なAIは、こうした訓練を何億枚もの画像と、それを説明したテキストのペアでひたすら繰り返させられます。するとAIは最終的に、全く無意味な完全なノイズ(砂嵐画像)からでも、「これはリンゴだよ」「これは犬だよ」と指示されるだけで、赤くて丸い果物や毛に覆われた四足獣を浮かび上がらせることができるようになるわけです。

画像
完全なノイズ画像から「腰に手を当てたミナちゃん」を見出すAIくんの図。
与えられたノイズパターンが変わると、そのたびに全く違う画像ができます


画像生成は「コラージュ」なのか?

よくある誤解として、「画像生成AIは学習したイラストを覚えていて、それらを切り貼りしているのではないか?」というものがあります。確かに現象だけ見るとそのように感じられるのですが、これは「学習」という言葉のイメージが実態とかけ離れているために起きた誤解。モデル内部で行われているのは、人間がデッサンでやるような「学習と再現」ではなく、数学の問題を解くような「ベクトル計算」なのです。

さきほどの例なら、AIは学習したデータセットの中からミナちゃんの画像を「パクって」コラージュしているのではなく、テキストとのペアから学んだ「1girl」や「ponytail」といったタグの特徴・傾向を一つ一つ計算することによって、データセットに存在しないさまざまなミナちゃんの絵を生成(推論)できるわけです。よく考えてみれば、教師データであるイラストそのものがもし何億枚、何十億枚とモデルの中に圧縮保存されていたら、モデルの重さが数GB程度で済むはずがありませんね。

ところで、「1girl(女の子)」という概念を学ぶときに、もしこの初音ミクの画像1枚でしか学んでいないモデルがあったとしたらどうでしょうか。

画像
1girl=これ

女の子を描いてもらおうとすると、そのモデルは常に「笑顔で片手を上げた水色ツインテールの女の子」を描いてしまいますよね。その上、左上にいつも謎の黄色い三本線が浮かぶのが「1girl」だと思い込んでしまうでしょう。

StableDiffusionのように世界知を持たない従来型モデルにとっては、データセットが世界のすべてです。もしデータセットにあるバナナの画像がほとんど「房」の画像ばかりだったとしたら、どう指示しても「1本だけのバナナ」を画像生成できなくなってしまいます。

AIはどんなに万能に見えても「学習内容を基に、入力に応じて"もっともらしい回答"を素早く算出する仕組み」にすぎません。画像生成AIも、テキトーに話を合わせて知ってるフリをするChatGPTと本質的には同じなのです。つまり、AIは膨大な学習と計算によって、人間の指示した意味を理解しているかのように振る舞えているだけなので、データセットに偏りがあると、思ったような解答を導き出せなくなってしまうことをまず理解する必要があります。


実際の生成の様子

実際の生成はどんなふうに進むのか見てみましょう。画像生成は「ステップ」と呼ばれる段階を踏んで行われます。無意味なノイズから「存在しない元画像」を推測する過程を1ステップ、2ステップと繰り返すことで、より鮮明・高画質なイラストができあがっていくわけです。

「青空の下、トマトを持った女の子と犬が草原にいる絵を出して」と頼んだらどうなるでしょうか。AIくんは最初、まったく無意味なノイズ画像を渡されて「これはトマトを持った女の子と青空の画像だよ、ノイズを取り除いてごらん」と言われます。健気なAIくんはこれまで教師データから学んだ傾向に従って、なんとなくそれらしい感じにノイズを取り除き、ピクセルの並びができていきます。

その画像が再度AIに渡されて、ノイズを同じように取り除くと、だんだん空や人間、犬らしきものが鮮明になっていきます。何度もこの工程(ステップ)が繰り返される中で、犬と女の子、トマトの配置が決まっていきます。

画像

ノイズが除去され終わると、それ以上ステップを進めてもあまり変化がみられなくなります。特に低ステップ段階では、女の子や犬のすがたがどんどん変貌していることが分かると思います。リュックの茶色が後ろ髪に変貌したり、白い犬としてできてきたものが白いシャツになったりしていますね。

このように、画像生成AIは「トマトを持つ女の子」や「犬」、「草原」といったイラストを、記憶した教師データの中から「思い出して」切り貼りしているのではなく、各ステップでノイズ除去が繰り返されるたび、伝言ゲームのように指示通りの画像に近づけているわけです。

ただし、AIは「読み込ませた画像のコラージュ」に近い行為をすることもできます。それは、いま説明した「text-to-image」ではなく、「image-to-image(img2img)」「リファレンス(画像参照)」と呼ばれる別の仕組み。記事後段で説明しますので、ここではいったん存在だけ紹介しておきます。


どこで、どうやって生成するのか

最初に説明した通り、画像生成を楽しむ方法は大きく分けて、自分のPC内に環境構築して行う「ローカル生成」と、主に企業が提供するオンラインサービスを利用する「クラウド生成」に分かれます。StableDiffusionや中国の「Qwen」シリーズ、動画生成AI「Wan2.2」などは前者。NanoBananaやNovelAI、midjourney、にじジャーニー、Grokなどが後者です。

ローカル生成の場合、自分で必要なスペックのPCを買いそろえ、環境も自分で構築する必要がありますが、一度環境構築してしまえば料金を気にせず、自由度の高い生成を好きなだけ楽しむことができます。クラウド生成では、スマートフォンからでも最新の高級モデルを使った高性能な生成を行えますが、基本的にサブスク制か従量制の有料課金制。生成内容や出力できる回数にさまざまな制限があります。

最近は、さまざまなモデルを使える生成AIプラットフォームサイトも充実してきました。Sousaku.AIFreepikといったサイトでは、NanoBananaやSeedream、Flux、Runway、Veo3などなど、さまざまな画像・動画生成モデルを利用することができます。

画像
クレジット制でさまざまなモデルを利用することができる、スペイン発の
AIプラットフォーム「Freepik」。高額プランではクレジット無制限での生成も可能

この記事で主に紹介するのはStableDiffusionを使った「ローカル生成」の始め方ですが、それについて説明する前に、ざっと「クラウド生成」の画像生成モデルにどんなものがあるかについて触れておきましょう。

世界王者「NanoBanana(Pro)」

Googleが2025年に公開した最新画像生成AIモデル。「画像編集」を得意としており、日本語で自然に指示することで、入力した画像に任意の変更を加えられる。背景を描き加えたり、キャンバス外に存在しない「続き」を描いたり、ポーズを変更したり、漫画にしてもらったりと多種多様な生成が可能。写真やイラストのフィギュア化や漫画化がSNSで大流行し、広く認知された。

LLMの「Gemini」に指示して画像生成してもらうほか、Freepik、Sousaku.AIなどの画像生成プラットフォームや、Photoshop上などで幅広く利用できる。「Pro」の性能は圧倒的で、基本的に料金はお高め(Geminiでは会員ランクに応じた制限あり)。性的表現や暴力表現など規約違反の生成はできず、水着程度でもNGになりがち。

<マルチモーダルモデルについて>
Googleの「Gemini」やOpenAIの「ChatGPT」は、問いかけに応じてテキストを生成するLLM(大規模言語モデル)ですが、テキストだけでなく画像の生成も行うことができます。このように、複数のモデルが連動してテキストや画像、音声などを同時処理できるモデルのことを「マルチモーダルモデル」といいます。SDXLは画像生成のみができる専門家なので「シングルモーダルモデル」。最近は音声と動画を同時生成できるモデルが登場するなど、どんどんAIのマルチモーダル化が進んでいます。


オタクの聖杯「NovelAI」

2022年10月、StableDiffusionより先に日本で画像生成ブームを巻き起こした英国Anlatan社の画像生成AIサービス。版権キャラ再現やR-18生成が自由にでき、AIイラスト文化の方向性とアングラ性を初期に決定づけたと言っても過言ではない。マウスで塗りつぶした画像の一部を描き直す「インペイント機能」の性能が良好で、他にも入力画像のテイストを模倣する「リファレンス機能」、複数キャラクターの描き分けが正確にできる「キャラクタープロンプト機能」など、ユーザーニーズをとらえた独自機能を次々に打ち出して画像生成シーンを先取りしてきた。

画像
その名の通り、実は小説の生成もできる

StableDiffusionと同様、「1girl,smile,nude…」のような「Danbooru式」と呼ばれるカンマ区切りの英単語タグで生成内容を指示する。記事執筆現在、最新のモデルはNAI Diffusion4.5。料金は月額10ドル、15ドル、25ドルの3プランで、最上位プランではクレジットを消費せず無限生成が可能。アニメ調のムフフイラストをメインに考えているなら、SDやNanoBananaより先にこちらを触ることをお勧めします。

中華の意地「Seedream」

TikTokで知られる中国ByteDance発の画像生成モデルで、名実ともにNanoBananaの競合モデルという位置づけ。NanoBananaProの登場で一気に突き放された感があるが、最新バージョン「Seedream4.5」を公開して追い上げを図っている。総合力ではNanoBananaに劣るが、人物の一貫性保持や取り回しの軽さなどでアドバンテージがある印象。

Geminiに依頼するときと同様、日本語や英語の自然文で指示可能。ByteDance公式のプラットフォームのほか、「Freepik」などのクラウド生成プラットフォームでも利用できる。

ゴミ溜め生まれエロ育ち「Grok」

イーロン・マスク氏率いるX社がリリースしたマルチモーダルモデル。Xに投稿された有象無象の情報で学習しており、X連携型のLLMとして利用できるほか、静止画や動画の生成もできる。基本的に無料で使える上、R-18規制も甘く、エロ小説など成人向けのテキスト生成を依頼してもバンバン通ってしまう。

画像生成はさすがにそこまできわどいものは出せず、NanoBananaのような高度な画像編集もできないが、よりによって他人の投稿画像を勝手に編集できる無断i2iボタンが実装されたために、個人の写真やイラストが勝手にマイクロビキニ姿に改変される事例が多発。当然、世界中で社会問題化した。

一方、静止画の動画化機能は割とよい感じ(▼動画参照)で、オリジナル金髪ツインテキャラ「Ani」と話せるコンパニオン機能も話題になった。イーロンはXを「なんでもできるスーパーアプリ」にしたいようで、今後何を打ち出してくるか先が読めない問題児。


アーティスティックな「にじジャーニー」

米国発のリアル調モデル「Midjourney」をベースに、日本人の好むアニメ調イラストを生成できるよう開発された画像生成AIツール。Midjourneyと同じくDiscord上で生成する珍しいタイプとしてスタートし、その後ブラウザ用やスマホ用アプリもリリースされた。R-18生成は不可で、有名キャラの生成を指示してもエラーが出ることが多い。

画像
プロンプトにより非常に広範な画風の再現が可能。2枚のうち自分の好きな方の絵を
選択していくと、好みの画風で生成できるようになる「パーソナライズ機能」などがある。

最大の強みは、キャンバス全体を美しく構築する美術力の高さで、イラストのアニメ動画化に特化した「Niji Video」も人気。最近は他モデル・サービスに押されがちな印象だが、今年1月に最新モデル「V7」をリリースし、追い上げを図っている。


環境導入より、まずは生成体験から

これらの画像生成サービスは、どれか一つだけを使ってももちろん良いのですが、それぞれの強みを理解してSDと組み合わせることで、より自分の意図したイラストを生成できるようになります。サービスによって生成内容の規制や商用利用の可・不可などが異なるため、よく規約を読んで利用しましょう。

ちなみに、GoogleのサービスでヤンチャしているとGoogleアカウントごとBANされてGmailも使えなくなり、紐づけられたサービスが軒並み使えなくなるなどの悲劇がありえますので、あまり無茶はしないように。

画像
危険行為

個人的には、可愛い女の子がドン!推しのスケベ絵がドン!というイメージの「AIイラスト」を始めたい場合、いきなり高価なグラフィックボードを購入してPC環境を整備する前に、まずはNovelAIに一度触ってみることをお勧めします。1girl,smile…のようなdanbooru式のプロンプトは初めてだと戸惑うかもしれませんが、こちらの「画像生成プロンプト大辞典」が参考になると思います。

一方、ポスターや資料に使うちょっとしたイラストや図、YouTubeなどのサムネ画像などを生成したい場合は、現在はNanoBananaPro一択。イラストや漫画などのクリエイター、もしくはデザイナー等として活動されていて、作業の一部をAIで時短したい場合も、まずはNanoBananaProを触ってみるのがいいでしょう。

NanoBananaもNovelAIもせいぜい月数千円程度で体験できるので、5万円~数十万円するグラフィックボードを購入する前に、まずはあれこれ試して、やれそうなこと、やりたいことのイメージを固めるのがオススメです。


StableDiffusion超入門

さて、ここからはいよいよ本題。StableDiffusionをローカル環境で使うための基礎知識を徹底解説していきます。「Pythonって何?」「CheckpointとかwebUIとかVAEって何のこと?」という方向けに、最低限必要な知識だけを分かりやすくまとめました。

画像
0点

StableDiffusionWebUIとは

StableDiffusion系の画像生成AIモデル(checkpointと呼ばれます)はそれ単体では動かせないので、ゲームソフトをハードに差して遊ぶように、ゲーム機となるアプリケーションを用意する必要があります。

PCに詳しい人は「コマンドプロンプト画面」という黒い画面だけで動かすこともできるのですが、一般人にはハードルが高すぎますよね。そこで、誰でもStableDiffusionモデルを簡単に扱えるよう、ブラウザ画面で動作するユーザーインターフェースが作られました。それが「StableDiffusionWebUI」です。

画像
A1111版SDwebUIの基本画面(公式Githubより引用)

最初期はAUTOMATIC1111氏という人物が開発した「A1111版SDwebUI」が流行しましたが、その後開発が中断。その後、その快速版である「Forge」が登場し、さらにそのフォーク(分岐・後継)版である「reForge」「Forge Classic」「Forge Neo」、より上級者向けで動画生成なども可能な「ComfyUI」などなど、多様なWebUIが群雄割拠しています。

画像
ComfyUIの生成画面。様々な機能を持つ「ノード」と呼ばれるウィンドウ同士を
コードで繋げた「ワークフロー」を使って生成する上級者向けUI


Checkpoint(学習済みAIモデル)とは

ただ、webUIはあくまで「ガワ」であって、肝心のAIは含まれていません。SDを始めとしたAIモデル(Checkpoint)をWebUI上で読み込むことで、初めて画像生成ができるようになるわけです。

CheckpointとwebUIの関係は、ゲームソフトとハードの関係によく似ています。可愛いモデル、リアルなモデル、Hなモデル、無数の種類があるCheckpointの中から好きなものを選び、webUIというハードに差して遊ぶイメージです。

画像
WebUIとCheckpointが揃って初めて遊べる

どのハードでもたいていのソフトを遊ぶことができ、ソフトが同じなら基本的にほとんど同じ画像が生成できますが、ハードによって生成速度や入力画面や使い勝手、使える便利機能の種類などが違います。あまり人気がないwebUIはだんだんアップデートされなくなり、やがて放棄されてしまうのも、ゲームハードの興亡と似ていますね。

WebUI、結局どれがいい?

WebUIのインストール方法はいろいろな方法がありますが、「StabilityMatrix」というアプリケーションを使うと、Forge系やComfyUIなどの主要UIを一括でインストール・アップデートでき、使用するモデルも共有できてとても便利。こちらの記事に詳しくまとめてありますので、ローカル環境はこちらのアプリで済ませてしまいましょう。

初めてStableDiffusionを触るにあたって、どのWebUIを選ぶべきかは「プレステ5とSwitchどちらを買うべきか」と同じような問いです。つまり好みと用途によるわけですが、初めての方には「Forge系」がオススメです。Forge系にも「Forge」「reForge」「ForgeClassic」などいろいろなWebUIがあって混乱するのですが、違いをざっくり説明すると次のような感じ。

・天才エンジニア・イリヤスフィール氏が「本家A1111と見た目は同じ快速版」という位置づけでリリースしたのが初代「Forge」。その後、同氏が多忙となり「実験的機能を試行するためのプラットフォーム」に方針転換したため、ユーザーはアプデ拒否かお引越しを余儀なくされた。
・「いつものForge」を求めるユーザー向けに生まれたのが、後継webUIの「reForge」。初心者にも分かりやすくスタンダードな取り回しが特徴で、現在も初心者から上級者まで幅広いユーザーに愛顧されている。
・ところがそのreForgeも2025年4月に開発終了が告知。後継指名されたのが、「不要なソフトウェアを一切排除した、最も軽量なWebUI」を目指す「Forge Classic」。起動速度も生成時間も快速化した一方、使えなくなった拡張機能がいくつかある点に注意が必要。

というわけで、初心者ならStabilityMatrixを使って「reForge」か「Forge Classic」を導入するところから始めるのがよいでしょう。ちなみに、reForgeは今年7月に「いったんの更新再開」が告知されましたが、webUIを巡る環境は常に流動的。reForgeとForge Classicについてはこちらの記事に詳しいので、迷っている方はご参考まで。


StableDiffusionに必要なマシンスペック

ここで、ローカル環境で画像・動画生成を行うために必要なマシンスペックについても触れておきます。自分のPC内で画像生成するには、豊富なVRAM容量を備えたNVIDIA製グラフィックボード(約5万円~)を用意する必要があります。

画像
数年前は20万円で買えたRTX4090。いまは70万円

「グラフィックボードって何?VRAMって何?」という方向けに簡単な解説から。

・グラフィックボード 映像をパソコン画面に出力するためのパーツ、通称グラボ。画像処理に特化して計算を行う半導体チップ「GPU」を搭載している。CPUやマザーボードには(やや貧弱な)GPUが標準搭載されていることが多く、グラボがなくてもゲームや動画再生はできるが、画像生成のような負荷の強い画像処理を行うには必須。マザーボードの規格やPCケースによってはデカすぎてささらないこともあるので、商品名や品番を控えてお店の人に聞こう。

・VRAM GPUに搭載されるビデオメモリ(の容量)。画面に表示する内容を一時的に保存するためのパーツで、大きいほど映像遅延がなくなる。グラボによってVRAM容量は異なり、画像生成においては何GBかがとても重要。VRAM容量が大きいほど「高解像度の画像を素早く生成できる」「同時並行で複数枚生成できる」「動画生成やLoRA学習など重い処理に耐えられる」といったメリットがある。ローカル画像生成を始めるなら、最低12GB、できれば16GBあるとしばらくは戦える。

画像生成ユーザーの間で「入門用のグラフィックボード」と言えば、スタジオ真榊でも使い倒したコスパ最強「RTX3060(VRAM12GB)」が思い浮かびます。RTX3060にはVRAM8GBモデルもあるのですが、もし購入するのであれば前述の理由で12GBモデル一択。高価なグラフィックボードほど1枚の画像生成に掛かる時間が短縮され、高解像度なイラストの複数同時生成も可能になりますが、GPUの性能が低いと、しばしば「CUDA out of memoryエラー」(GPUのメモリ不足)を起こして生成失敗してしまいます。

画像
NanoBananaProが上の文章で作ってくれた挿絵。
まだ情報量の制御がイマイチ


2025年末、世界を襲った価格高騰

さて、この記事を書いている2026年2月現在、パソコン本体やPCパーツの価格が世界中で暴騰を続けています。高性能なグラフィックボードやCPUといったもともと高額なパーツだけでなく、比較的安価だったメモリやSSDといったパーツまでもが軒並み高価格になり、ゲーミングPCの在庫切れも目立ちはじめました。

背景にあるのは、Googleを始めとした巨大テック企業によるAI需要の高まりです。我々コンシューマー向けに利益率が低い製品を作り続けるより、高利益率が見込めるビッグテックのAIデータセンター向けに製品を供給するのが合理的な経営判断ですから、供給不足を背景に、値段がどんどん高騰しているわけですね。

RTX3060の12GBモデルは、約1年前の24年12月に4万円前後で推移していたお買い得グラボでしたが、レガシーモデルであるにも関わらず、現在の市場価格は6万円超まで上昇しています。

画像
もはや高嶺の花状態

現在は5000番台のシリーズが発売されていますが、こちらも軒並み価格が上昇し続けており、何を選ぶかは非常に悩み深いところ。「どうせ買うなら今すぐ!」ではありますが、「もはや手遅れ」「買い時ではない」との見方も強いので、数か月~年単位で価格高騰・高止まりが続くことも覚悟しておいた方がよいでしょう。

RTX50 Superは出るのか?

現在流通しているNVIDIAの最新モデルはBlackwell世代と呼ばれる「RTX5070 / 5070Ti / 5080 / 5090」。その次世代として年末年始にも「RTX 50 Super」シリーズが投入されると予想されていましたが、今回の価格高騰を受け、計画が大きく変更されるとの憶測が飛んでいます。特に「RTX 5070 Ti Super」「RTX 5080 Super」はVRAM24GB搭載モデルと予想されており、画像生成AIユーザー垂涎のモデルだったのですが、もはやリリースは望み薄なようです。

さまざまな状況を勘案すると、現在はとても「買い時」とは言いづらい環境であることは確か。私から言えるのは毎年同じ、「本気で遊ぶなら16GB以上、どうしても無理なら12GB、それも無理ならNovelAIにしておこう!」ということくらいです。画像生成AIとグラボについては、「ちもろぐ」さんのこちらの記事に大変詳しくまとまっており、あらゆるモデルの実力が網羅されているので、購入を検討されている方はこちらをぜひ参考にされてください。


グラボ以外のCPUやメモリは?

では、CPUやストレージ容量についてはどうでしょうか。まずCPUについてですが、WebUIにおける画像生成は基本的にはGPU依存なので、よほど古いCPUを積んでいなければ大丈夫と言われています。多少生成速度には差が出るようですが、GPUほど明確な差は出ません。

むしろ、画像生成や追加学習中にいろいろな作業をする場合は、メインメモリをできるだけ増設しておくことをおすすめします。特に、静止画ではなく動画生成の場合はメモリが重要になるため、最低32GB、できれば64GB以上あると安心です。ただ…もはやもう手遅れな気も…

ファイルを保存するストレージ容量については、あればあっただけ良い!2TB欲しい!という感じ。checkpointは一つあたり4~8GBほどありますし、ControlnetやLoRAなど拡張機能に必要なファイルもかなりストレージを圧迫します。さらに、外出中にも高解像度の画像をバカスカ生成していくとなると、最低でも100GB~200GBは開けておきたいところです。

おすすめなのは、HDDでなくSSDを増設して画像生成関連専用のドライブにしてしまうこと。スタジオ真榊では23年7月にこちらの中華SSD(2TB)を12,980円で購入し、新しくしたRTX4080搭載PCでも使っています。ファイル転送や読み込みは早いし容量はたっぷり余裕があるし、マザーボードに直接差すだけで簡単だし、大変買って良かったのですが、記事執筆現在は1TBモデルが19,256円に高騰しており、恐怖を覚えるばかりです。

参考までに、スタジオ真榊で使っているRTX4080搭載PC(総額43万円)の構成を載せておきます。今のところ、何をするにもほぼ不満を感じませんが、もっと上を体験してしまうと、もはやこれには戻れなくなるのだろうなとも感じています。

画像
【参考】フォロワーさんから譲っていただいた
中古のRTX4080が10万円、上記構成が33万円で総額43万円だった

画像生成の基礎知識

さて、PC環境が整い、無事SDWebUIをインストールできたら、さっそく画像を生成していくことになります。こちらがSDWebUIの操作画面です。(写真はForgeClassicですが、A1111やforge系のwebUIはどれもほぼ同じ見た目です)

画像
基本画面

日本語化した上、拡張機能も多数導入していますので、インストールしたての画面とは異なることをご了承ください。ちなみに、画面のテーマカラーは「設定▶ユーザーインターフェース▶Gradio theme」で変更できます。目が疲れるので、おじさんには白よりもダークテーマが楽です…。Noteもまぶしい!目が死ぬ!!

初めてだと何がなんだかわからないと思いますので、こちらに画像の説明文を作りました。拡大してご覧ください。画像内の大きな数字①~⑥は、下記の項目ごとの数字に対応しています。

画像

①学習済みモデル(Checkpoint)

SDwebUIはAIではなくただのインターフェースですので、画像生成を行うには大量の画像とテキストのペアから学習した「学習済みモデル」(=Checkpoint)を読み込ませる必要があります。ユーザーは単に「モデル」と呼ぶことが多いですが、LoRAやControlnetといった学習済みモデルも「モデル」なので、区別したいときはCheckpointと呼びます。

実は多くのユーザーはStability AI社が無料配布しているStableDiffusionモデルそのものは使っておらず、そこから派生した、さまざまな特徴を持つモデルを使って生成しています。こちらは自作したモデルを共有できるプラットフォーム「Civitai」のスクリーンショットです。

画像
モデルによって得意な画風は異なる

実写のようなフォトリアルな画像に特化したものや、アニメ調のイラストが得意なモデル、緻密で美しい風景の再現が得意なモデルなどが流通していることがわかります。全く同じプロンプト指示でも、どんなモデル(Checkpoint)を使うかによって、生成されるイラストは大きく変わるわけですね。

こちらは、手元にあるCheckpointに同じプロンプトで生成させたミナちゃんのイラスト。系統樹が近いモデルは近いポーズが出るのが分かると思います。一番上の「decompmix」や中段の「iostriousXL」は、私の好きな画風を学習させた自作モデルです。

画像
色んな「マスピ顔」がある

生成に使用したプロンプトは以下のようなものです。「カメラに笑顔で手を振るミナちゃんの上半身」を生成するよう指示しています。

1girl,smile,looking at viewer, upper body,waving, tareme,solo,headphones around neck,white headphones, high ponytail, black hair, cardigan, open cardigan, oversized cardigan,dark blue sailor collar, blue eyes, neckerchief, white pupils, long sleeves, school uniform, grey cardigan,light green neckerchief,mint scrunchie, hair scrunchie,white shirts, upper teeth only, blue pleated skirt,open clothes, red-framed eyewear, semi-rimless eyewear, under-rim eyewear, medium hair, sidelocks,hair between eyes,sleeves past wrist,gradient hair, mint hair,ahoge,eyelashes, white background, simple background,masterpiece,best quality,amazing quality

比較生成に使用したプロンプト。末尾は品質を上げる目的の「クォリティタグ」

何億というデータセットを準備して学習モデルをゼロから作るのは個人には困難ですが、既存のモデルやLoRAを好きな配合で融合(マージ)させて好みのものに調整することは比較的簡単ですので、個人が作ったさまざまなマージモデルがCivitaiなどで日々無数に共有されています。学習モデルによって異なるライセンス表記があり、「マージモデルの公開禁止」「生成画像の商用利用禁止」などのルールが定められているので、必ずチェックした上で使用する癖をつけましょう。

ちなみに、基盤モデルであるStableDiffusionそのものにもさまざまなバージョンやバリエーションがあります。初期型で広く普及した「SD1.5系」、あまり普及しなかった後継「SD2.X系」、高性能で必要スペックのバランスも取れた「SDXL系」、さらに高性能な新顔「SD3.X系」などがあります。現在の主流は圧倒的にSDXL系モデルで、LoRAや拡張機能が最も充実しています。

画像
Civitaiのベースモデル別一覧

「Animagine」「Pony」「illustrious」「NoobAI」といったモデルの名前を聞いたことがある人もいるかもしれません。これらはすべて、SDXLをベースに作られたアニメ系人気モデルの名前です。それらをベースに、モデル同士を混ぜたり、追加学習させたりして、個人がさらにさまざまなオリジナルモデルを日々作っているわけですね。ちなみに私がいま使っているモデルは、「SDXLの派生モデルであるillustriousXLのマージモデルであるWAI Illustrious SDXLに、自作LoRAをいくつもマージしたモデル」ということになります。

②VAE(ブイエーイー)

「Variational Autoencoder」の略。何をしているかを説明するにはまず、拡散モデルの画像生成AIには「テキストエンコーダ」「U-NET」「VAE」の三つのモジュールがあり、潜在空間上でノイズ除去が・・・というややこしい説明が必要なのですが、細かいことはもうええでしょう!

下の図のように、「人間がプロンプトを指示」▶「テキストエンコーダ(例の"辞書")が翻訳」▶「U-NETが不思議空間でAIにしか見えない0と1のお絵描きをする」▶「VAEが人間にも分かる『絵』に翻訳してくれる」という画像生成プロセスのうち、最後の翻訳部分を担当する役割だと理解すれば十分です。

画像

じゃあVAEによって何が変わるかというと、主に学習モデルが生成した画像の色合いが変化します。こちらの画像は、全く同じ生成設定でVAEだけを変更したものです。

画像
「全部一緒じゃないですか!」
「違う。よく見ろ」

一番左はグレーがかった仕上がりになるVAEですが、御覧の通り他はほとんど差がありませんので、そんなに気にしなくてもいいかもしれません。

現在主流のSDXL系モデルを生成する際は、SDXL専用のVAEを使う必要がありますが、モデルに「同梱」されている場合が多いです。VAEの設定を「Automatic」や「none」にして普通に生成できたら、VAEが同梱されているモデルです。
学習モデルやLoRAなどに比べるとあまりたくさんのVAEが流通しているわけではありませんし、モデルに同梱されたVAEを使えば基本的に問題ないので、「ちょっと色が褪せて見えるな?」と思ったら別のVAEを使ってみる、程度の認識でOKです。

画像
来年は分かるといいね


③プロンプトとネガティブプロンプト

どんな画像を生成するかAIに指示するプロンプトとネガティブプロンプトは、text to image生成における最も重要な要素。各モデルが読めるプロンプトの「書式」は、そのモデルがどんな形式のテキストで学習されたかによって異なり、現在は「danbooru式」「自然言語式」が主流です。

①danbooru式
SDXLの大半のモデルやNovelAIは、「1girl,ponytail,serafuku…」といった英単語をカンマで区切って並べる「danbooru式」のプロンプトで指示する。これは、英語圏のwebイラストデータベース「danbooru」で使われている詳細なイラスト用タグを利用したもの。キャラの容姿やシチュエーション、ミーム、R-18関連など幅広い要素を説明できる上、(smile:1.5)のように強弱を調整できるので、慣れると自然言語より扱いやすいことも。
②自然言語式
日本語や英語で「黒髪ポニーテールの女の子がこっちを見ているイラスト。服装はセーラー服に赤眼鏡で…」と通常の書き下し文で指示するもの。NanoBananaやにじジャーニー他、GrokなどのLLMを介した画像生成などもこれ。danbooru語より敷居が低い代わりに、細かなニュアンスを伝えるのが逆に難しくなる場面もある。

SDXLではタグをカンマ「,」で区切って、盛り込みたい要素を箇条書きで並べていくのが基本です。「被写体は何人でどんな構図か、どんな見た目の誰がどこで何をしているか、どんな画風か」を指定するのがコツ。スペルを間違えても理解してくれることがありますが、「white hair ribbon」と指示したらキャラの髪が白くなってしまう("white hair"+ribbonと誤解された)、ということもたまにあるので、上手な意思疎通をするにはコツが要ります。

画像
white hair ribbon」という単語の影響で白髪になってしまった例。
「black hair」の指示と両立しようとして、ブラックジャック状態に

「何を生成するか」を指示するプロンプトに対し、「何を生成しないか」を入力する欄であるネガティブプロンプトも同じくらい重要です。求めていない被写体を「白黒にはしないで」「男は描くな」などと指示するだけでなく、「低品質な画像はダメ」と指示すると高品質になるので、この2つがうまく釣り合うことで意図通りのイラストが生成できるようになります。

詳しいプロンプトの書き方については、こちらの記事にまとめてあります。いま読んでいただいている「超入門」の次に読むと、画像生成がスムーズにできるようになると思います。

ローカル生成におけるプロンプト・ネガティブプロンプトについては約20万字の「プロンプト超辞典」に詳しくまとめていますので、慣れてきたらこちらをご参照ください。(リンク先はサンプルです)

初期のAIイラストは「"呪文"をぽちぽちして作るもの」というイメージがありましたが、現在はモデルや生成環境の多様化が進み、プロンプトは当初ほど大きな存在ではなくなってきています。モデルをカスタムして使うことが普通になり、「プロンプトが他人にバレると同じ画像を作られてしまう」ということもなくなりましたし、NanoBananaのように普通の日本語で通じるモデルも増えつつあります。

それでもやはり、プロンプト知識があるのとないのでは生成できるイラストのレベルが段違いになるもの。「このプロンプトを入れるとうちのモデルはこう反応するんだな」という経験が積み重なるほどに、画像生成はスムーズになっていくはずです。

画像
問題。こういう目を生成したいとき、danbooruタグでどう伝えたでしょうか?
答え:「=_=」


④ステップとスケール

プロンプトの次に決めなければならないのが、ステップスケールです。画像生成独特のパラメータですので、よく理解しておく必要があります。

画像

・ステップ(サンプリングステップ数)
AI がノイズを取り除く作業の反復回数のこと。「トマトを持つ少女と犬」のイラストで実験したとおり、ステップ1だと、まだ意味のないノイズからさほど離れることができず、ぼんやりした概念のようなものが生成される。ステップ数が多いほど絵のクオリティが上がる反面、生成に時間がかかり、ある程度以上で頭打ちになる。モデルにもよりますが、「テスト生成は12以上、本番生成なら20以上推奨」が目安。私は28くらいにすることが多いです。
スケール(CFGスケール)
「プロンプトの忠実度」に近い概念。低スケールだと柔らかい絵画風になり、高スケールにするほどディティールが細かく描写され、AIがより厳密にプロンプト(ユーザーの指示)を再現しようとする。学習モデルごとにおすすめのスケール値が案内されていることが多い。

ステップもスケールも、モデルごとにちょうど良い値があるので、一度決めたら基本的にはいじらないのが普通です。

こちらは、スケールだけを1から15まで変化させたもの。モデルによってスケール値による影響はさまざまですが、低すぎるとぼやっとし、高すぎるとキツめの色使いになりがち。プロンプト指示が複雑な場合、スケールを上げると取りこぼしが減る傾向にあります。

画像

ちなみに、こういう比較実験画像は「XYZプロット」というスクリプト機能で簡単に作ることができます。初めてのモデルで生成するとき、最適な設定を探るのに非常に役立ちますので、早めに習得しておきましょう。


⑤サンプリングアルゴリズム

AIがノイズ処理する(不思議空間で絵を描く)際の計算方法を「サンプラー(サンプリングアルゴリズム)」と言います。Euler a, Euler, LMS, Heun, DPM2, DPM2…とさまざまな種類があり、同じ学習モデル・SEEDでもサンプラーを変えるだけで計算結果、つまり出力される絵の雰囲気がかなり変わります。
スケールと同様、学習モデル配布時におすすめのサンプラーが案内されていることが多く、最近のSDXLモデルはだいたい「Euler a」を使うことが推奨されています。("オイラーの公式"のオイラーです。aはAncestral=先祖代々)

XYZ Plotを使って、サンプラーの比較実験を行ってみます。

画像

このように、同じプロンプト・設定でもサンプラーによって違う雰囲気になるので、たまには推奨サンプラー以外も試してみるとよいでしょう。ただ、せっかく「好みのサンプラーを見つけた!」と思ったのに、複雑なプロンプトで試すとあまりイメージ通りじゃなかった…ということもよくあるのでご注意を。

画像
サンプラーは画風を司っているのではなく、
あくまで計算方法にすぎないことを覚えておきましょう


⑥SEED値

text-to-image生成では、完全なノイズ画像からノイズ除去を進めることでプロンプト通りの画像を作り出すわけですが、最初に与える「完全なノイズ画像」には無数のパターンがあり、それによって最終的な計算結果が全く変わってしまいます。そのパターンを決めるのが「SEED値」です。画像生成AIにおいては、生成画像ごとに割り当てられている「固有の背番号」のようなものと考えてみてください。

全く同じプロンプト指示をしても、このSEED値が異なるとスタート時に違うノイズパターンが与えられるため、最終的には全く違うイラストが生成されます。一方、同じSEED値を指示すると、全く同じ画像が生成できますし、プロンプトが多少変わっても、似たような構図にすることができます。

ランダムにSEED値を決めてほしい場合は「-1」と入力します。生成するたびに同じイラストが作られてしまうと困るので、特に事情がなければ基本的に「-1」にしておけばOK。欄の横のサイコロ「🎲」ボタンを押すと自動入力されます。

画像

ところで、SEED値を「1111」に指定して4枚同時生成を指示すると、どうなるでしょうか。こういうとき、4枚とも全く同じ画像が出てしまったら困るので、webUIは自動でSeed値を「1」ずつずらしてくれます。賢い!

※Seed値が隣り合っていると似たものができる…
というわけでもなく、完全ランダム


「おおむね好みのイラストができたけど、ちょっとだけ間違っている」とか、「ちょっとだけクォリティをアップしたい」ときに、seed値は役に立ちます。隣の「♻️」ボタンを押すと、たったいま生成した画像のseed値が欄に自動入力されますが、その横の「その他」にチェックを入れると、同じSEED値で「ちょっとだけ変える」バリエーション生成が行えます。

上の4枚では、「1112」がイメージに一番近いので、SEED値「1112」のバリエーション生成を行ってみます。バリエーション強度を薄めにすると、このように「ほとんど同じだけどちょっと違う」画像が作れます。

バリエーション強度を強めると、
もっと大きく変化させることも可能

すごく雰囲気はいいのに、指が6本になってしまったとか、ちょっとだけ表情が物足りないといったときに、バリエーション機能は非常に役立ちます。詳しい使い方や実際のワークフローでの応用の仕方はこちらの記事で解説しています。

⑦キャンバスサイズ

これから生成する画像の横幅と高さ、つまりキャンバスサイズも生成内容に大きな影響をもたらします。例えば、「セーラー服にスニーカーとスカートとルーズソックスを履いたミナちゃんが立っている」と生成指示したときに、キャンバスサイズが非常に横長だったらどうなるでしょうか。

このように、AIはなんとか指示された内容とキャンバスサイズを両立させようとして、無理な体勢を描いてしまったり、キャラクターを複数に分裂させてしまったりしますね。このように、自然なイラストづくりにはキャンバスサイズの調整も重要な要素になるわけです。

また、SDXLモデルは基本的に1辺あたり1024px程度のデータセットで学習しているため、これを大きく超えるサイズで生成指示すると画面全体が崩壊してしまいます。だいたい短辺が1024px、長辺が1408px程度が適正で、これより大きいサイズで生成するとさまざまな不具合が現れ始めます。

2048x2048pxで生成した例。ピクセルがどう並ぶか正確に計算できず、
人体構造が崩壊したり、至る所で「繰り返し描画」が起きたりする

これを避けるためには、いったん適正サイズで生成した画像を、より大きい解像度に「アップスケール」する必要があります。hires.fixなどさまざまな手法があるので、具体的な方法はこちらの特集記事をご覧ください。


WebUIのインストール後にやるべきこと

ここまでで、環境構築に必要な知識はひととおり解説できました。StabilityMatrixでwebUIをインストールしたら、まずは日本語化や保存先の設定など、使いやすい環境にカスタムするところから始めましょう。インストール前後にやっておくべきことは基本的にこちらの記事に書いてありますので、参考にしてください。

そのほか、知っておくと生成が捗る設定やテクニックについては、こちらの記事にまとめてあります。生成した画像を綺麗に管理できるデータベース化の方法や、外出先から自宅の母艦PCを操作して生成するやり方など、覚えておくと役立つ小ワザをたくさん紹介しています。



実際にイラストを生成してみよう

基礎知識を覚えたら、あとは実行するだけです。さっそく自分の好みのモデルをダウンロードして、実際に画像生成を試してみましょう。

CivitaiでモデルをDLするには

各種checkpointやVAE、LoRAといったモデルは、さきほど触れた「Civitai」や「HuggingFace」といった海外プラットフォームで共有されています。まずはCivitaiでcheckpointを探してみます。

https://civitai.com/よりスクリーンショット引用

「Civitai」は実写・イラスト問わず、無修正の成人向け画像がバンバン出てくる海外サイトですので、アクセスする際は周囲にご注意ください。右上の目のボタンから、成人向けコンテンツをぼかしたり、フィルタリングしたりできます。

Checkpointの探し方は、まず画面左上の「Models」をクリック。右上にある「Filters」から、「Checkpoint」やモデル系統を選ぶと一覧表示されます。アニメ調イラストの現在の主流は、SDXLの「illustrious」系。下の図のようにチェックを入れると、今年「Highest Rated(高評価)」だった順に該当モデルが並びます。

LoRAやControlnet、アップスケーラーなどを
探すときもここから選びます

illustrious+checkpointを選ぶと、「WAI-illustrious-SDXL」「Hassaku XL (Illustrious)」といった人気モデルが並びました。サムネイルカードを頼りに、自分の好みのモデルを探してみましょう。

Civitaiの検索結果

カードの左上には、「Checkpoint」や「LoRA」といったモデルの種類に続いて、そのモデルの系統が書かれています。例えば「IL」がillustrious系、「XL」はSDXL系、「SD1」は旧型のSD1.X系、F1は大型次世代モデルの「FLUX.1」系です。

ここでは、illustrious系で広く支持されている「WAI-illustrious-SDXL」をDLしてみます。記事執筆時点の最新バージョンはv16。リンク先にアクセスすると、このような画面が表示されます。

重要なのは、右側に表示されるこちらのカード。ベースモデルがillustrious系のマージモデルであることなどが書かれていますが、重要なのは最下部のライセンス表記です。

この世に流通しているモデルには、CheckpointであろうとLoRAであろうと、利用規定や禁止事項を定めた「ライセンス」が必ず存在します。右側のアイコンをクリックすると、「このモデルを使ってできること・できないこと」が簡易表示されます。WAI IllustriousSDXLの場合、有償の画像生成サービスで使用できるようにしたり、モデルそのもの(WAIのマージモデルを含む)を販売したりすることが禁じられていますが、生成画像の販売やマージモデルの共有などは許可されていることが分かります。

ただ、これはあくまで簡易的な表示。左側の「License:illustrious License」のリンク先に正式なライセンス文章が掲載されていますので、DL前に必ず!読むようにしましょう。

念のため、別のモデルも見てみます。こちらはAnimagineXL3.1のライセンス表記。WAIと異なり、マージモデルを共有する際に異なるパーミッション(利用許諾)にすることが禁じられています。

ライセンス欄にはベースモデルであるSDXLのライセンスである「CreativeML Open RAIL++-M」「Addendum(このAnimagineモデル独自の追加分)」が書かれており、リンク先で全文(英文)を読むことができます。

Stable Diffusionなど、多くの画像生成AIモデルはCreativeML OpenRAIL-Mライセンスか、その拡張版ライセンスで公開されています。例えば、SDXL1.0のライセンスは「CreativeML Open RAIL++-M」ですが、"-M"はライセンスの適用範囲がモデル(Model)に限定されているという意味。"+"(プラス)がついていると、もとのライセンスに追加の条件、制限、または拡張が加えられているバージョンであることを示しています。

こうしたライセンス表記を読まずにモデルを使用してしまうと、知らないうちに権利侵害をしてしまい、ある日突然トラブルに巻き込まれる恐れがあります。特に、モデルを商用利用する場合はライセンスをよく読んで、リスクがあることを十分理解した上で使わなくてはなりません。忘れがちですが、LoRAやControlnetといった拡張機能にも一つ一つこうしたライセンスがあり、条件によって莫大な使用料を求めるようなものも中にはありますので、くれぐれもご注意ください。

即死条件があるゲーム

SDXLやillustriousXLのライセンスや操作法などについては、こちらの記事でより詳しく解説しています。モデルをDLする際はライセンスをよく確認した上で、自己責任でご利用ください。


さっそく生成してみよう

ライセンスとパーミッションを確認したら、さっそくモデルを使って画像生成してみましょう。ここではWAI IllustriousXLのv16.0をダウンロードするところからやってみます。

まず、CivitaiのモデルページからダウンロードしてきたwaiIllustriousSDXL_v160.safetensors(※6.46GBあります)を、webUIの「models\Stable-diffusion」フォルダに保存します。このフォルダが、checkpointを保存するためのフォルダで、同じ階層にLoRA用やControlnet用のフォルダもずらっと並んでいるはずです。StabilityMatrixでインストールした場合は「Data\models\Stable-diffusion」に置いたモデルを全てのwebUIで共有できます。

紺色の「↓」ボタンからDLできます

webUIを起動していたら、左上のカドにCheckpointを読み込む欄があります。DLしたモデルがまだ表示されていなかったら、横の青い更新ボタンを押すと、左上のプルダウンメニューに表示されるはず。隣の欄の「SD VAE」はVAEを選ぶところ。CivitaiでSDXL用のVAEをDLしてきてもよいですが、たいして生成結果は変わりませんので「Automatic」を選びましょう。

「Prompt」と薄く書かれているのがプロンプト欄。ここには「1girl,upper body,smile,sitting,chair,sky, classroom,black hair,sailor uniform,general」と入力することにしました。すぐ下にNegative Promptと薄く書かれているのがネガティブプロンプト欄。こちらは空欄で構いません。

上の段がポジティブプロンプト欄、下の段がネガティブプロンプト欄

プロンプトの最後の「general」は、WAIモデルにおける「全年齢」の意味。WAIはNSFW生成が得意なモデルなので、こうしておかないと成人向け表現が出やすくなります。NSFWは「職場向きではないコンテンツ」を示すnot safe for workの頭文字。「nsfw」をプロンプトに入れるとHな画像になりますし、逆にネガティブプロンプトに入れれば「全年齢の画像を生成しなさいね」と強調することができます。

キャンバスサイズは基本の1024×1024pxとします。SDXLモデルは各辺1024px前後のサイズで学習しているので、これより大きくなりすぎても小さくなりすぎても、ピクセルの並びを正確に計算できなくなり、画面が崩壊しやすくなります。

サンプラーは「Euler A」、ステップは28、スケールは5。Seed値は「1234」、CLIP Skip(※)は「2」とします。(※CLIP Skipは、webUIの「設定▶インターフェイス▶Quicksettings List」を開いてclipと打ち込むと、選択肢に「CLIP stop at lat layers」という項目が表示されるので、追加しておくのがおすすめ。再起動すると、右上に小さいスライダーが出る。基本は「2」。)

準備ができたら、右上の「生成」ボタンをクリック。右クリックして「停止するまで生成を続ける」を押すと、同じ設定で生成を繰り返すことができます。止めるときはもう一度右クリックして「この画像で生成を停止」。

生成中はボタンがこのように変化しますので、途中で止めたい場合は「中断」すればOKです。「スキップ」は複数回(バッチカウント)の連続生成中に、好みでない画像を生成しはじめたときに飛ばすためのボタンです。

先ほどの設定で生成すると、画面右側にこのような画像が表示されました。ここは「ライブプレビュー画面」と言って、生成がステップごとに鮮明になる様子が見られます。(そこそこVRAMに負担を掛けるので、煩わしい場合は設定画面からオフにもできます)

下部に生成に使用した各種設定や生成に要した時間が表示される

「セーラー服を着た黒髪の女の子が1人、笑顔で教室の椅子に座っており、空が映り込んでいる」というプロンプト通りのものが描かれていますね。VAEやステップ、Seed値などの設定値が全て同じなら、皆様の生成環境でもほぼ同じものが生成されたはずです。


より正確で高品質な画像にするには

WAI IllustriousXLv16.0のモデルページをよく見ると、さまざまな推奨設定が書かれていることに気づきます。さきほどのサンプラーやステップ、スケール等は配布者の推奨設定を守ったものです。

Chromeの機械翻訳のため、正確性に注意

肯定プロンプト・否定プロンプトと翻訳されているのは、イラストの品質を左右する「クォリティタグ」と「ネガティブプロンプト」と呼ばれるものです。

クォリティタグ:ポジティブプロンプトに書き加えることで品質をアップできるタグ。「masterpiece, best quality」(傑作、最高品質)などがよく知られている。
ネガティブプロンプト:生成したいものを記入する通常のプロンプト(ポジティブプロンプト)に対し、こちらは生成してほしくないものを記入する。「低画質なもの(low quality,bad quality等)は描かないで」と指示すると高画質になる。

仕様書が推奨するクォリティタグである「masterpiece,best quality,amazing quality」を「1girl」の前に入れ、ネガティブプロンプト欄には「bad quality,worst quality,worst detail,sketch,censor」を打ち込んでみます。これでもう一度、全く同じ設定で生成してみましょう。

今度はこちらの画像が生成されました。さきほどとアングルは同じですが、顔立ちが大きく変わり、光がより温かみのある表現になったように見えます。

「手の正確性は上がったけど、さっきよりAIっぽい顔立ちになったような…?」と感じる人もいるかもしれません。こうした「整っているけれど、AI絵の印象が強いハンコ絵的な顔立ち」になってしまう現象は、代表的なクォリティタグmasterpieceにちなんで、「マスピ顔」と呼ばれています。


マスピ顔(masterpiece顔)はなぜできる?

なぜこういう顔になるかというと、各モデルの学習者が、学習データセットにあるイラストにあらかじめ以下のような「レーティング(ランク付け)」を施して、タグとして学習させているからです。

AnimagineXL3.1のレーティング表記

学習に使うデータセットは無数の画像とテキストのペアでできています。こうしたアニメ調モデルなら、ウェブ上やDanbooruなどのデータベースに集められた無数のイラストと、絵の内容を説明するタグ(1boy,angry,crossed arms…など)のペアによって主に学習しているわけですが、そこには作品として完成した絵もあれば、未完成のスケッチもあり、劣化してガビガビになったjpegや、全く意味のない画像、こどもの描いた落書きなども雑多に混じっています。そのまま学習させると、AIはそうした幅広いクォリティの絵を区別なく生成してしまうわけですね。

そこで、学習させる画像の美観をスコア化し、その絵ごとにmasterpieceとかgreat quality、low qualityなどとクォリティを区別するタグをつけて覚えさせる手法が一般的になりました。これによって、モデルは品質という概念を獲得し、「masterpieceに描いてね」「low qualityにはしないでね」という指示を守れるようになります。どこからが「great」でどこからが「low quality」かはタグ付けした人物の主観やレーティングに使ったAIの判断によるわけですが、こうした品質によるタグがあると生成画像の品質管理も楽になるので、多くのモデルで取り入れられています。

しかし、有名モデルを使うユーザーみんなが全く同じクォリティタグやネガティブプロンプトを使うと、このように誰もが投稿する画風がそっくり似通ってしまい、「AIっぽさあふれる画風」として認知されてしまう問題があります。こうした現象は、俗に「マスピ顔」「マスピ現象」と呼ばれます。

WAI Illustrious SDXL v16の「マスピ顔」


マスピ顔を卒業するために

クォリティを上げるための取り組みだったはずなのに、逆に没個性的になってしまうのでは意味がありませんね。AI絵ではこのように、より良い結果をみんなが安直に目指した結果、全員で同じ「マスピ山」に登ってしまい、山頂についたらみんな似たような絵ばかり…という現象がよく起こります。

「masterpiece」タグとともに学習されたイラスト群は、大半がすみずみまで細かく描き込まれた商業作家レベルのイラストなのだと思われます。しかし、それらに共通する特徴量だけを模倣しても、単に描き込みが多くてリアル調で色合いの多彩な絵になるばかり。AIユーザーみながそうした絵を生成してしまうと、むしろ伝えたいことが散漫化して、意図のなさが際だってしまうわけです。

どこを見せたいのか伝わりづらい"masterpiece"

友達に家までの地図を渡すときは、最寄り駅からの曲がり角にあるものを強調して、途中は簡略化して描くのが普通です。ところが、これがAI絵になると、「全部びっちり描いたほうが偉い」「手は正確であるほど偉い」「服のすみずみまで超リアルに描き込んだ方が偉い」となりがち。自分はこの絵のどこを見てほしいのか、どんな気持ちになってほしいのかを考えて、情報を取捨選択する発想になりにくいのです。

同じモデルを使っていても、クォリティタグやネガティブプロンプトをあれこれ工夫することで、全く違う画像を生成することは可能です。より正確に、より高品質にと向かっていくよりは、より自分らしく個性的で、意図の伝わりやすい絵にするにはどうしたらいいかを考えてみるのが、まずは上達への道ということになります。


生成した画像は必ず取っておこう

さて、ここまでで少なくとも「好きなモデルをダウンロードして」「設定やプロンプトを考えて」「画像生成する」という画像生成の基本まではたどり着きました。

ちなみに、StableDiffusionで生成された画像ファイルには、生成時に設定したSeed値やプロンプト、生成サイズといったあらゆる情報がちゃんと保存されています。Forge系のwebUIなら、txt2imgのタブの2つ隣にある「PNG内の情報を表示」タブからpngを読み込めば、このように生成設定をすぐ確認することができます。

「転送」のボタンを使えば、呼び出した生成情報はいつでもtxt2imgなどのページに飛ばすことが可能。こうすることで、生成画像をちょっとだけ設定変更して、より意図通りにする…といったこともできるようになります。不要になったイラストも、あとでどんな役に立つかわからないので、できるかぎり削除せず大事にとっておきましょう。

pngを大事に取っておくべき理由はもう一つあります。AIイラストやそのユーザーに向けられている目は依然として厳しく、SNSなどに投稿していたら、「既存のイラストのパクリだ」と突然疑われてしまうことがあるかもしれません。そういったときも、そのイラストのpngに内包されているプロンプトやseed値といった各種情報、前後に生成したイラスト群がきちんと残っていれば、自分がそのイラストをどんな方法で作ろうとしていたかを示す何よりの証拠になります。


image-to-imageとは何か

さて、ここまで説明してきたのは、完全なノイズ画像からプロンプトを頼りにイラストを作る「text-to-image」(txt2img)のやり方でした。画像生成AIを使ったもう一つの生成法が「image-to-image」(img2img)です。もっと縮めて、「t2i」とか「i2i」と呼ばれることも多いです。

二つの違いはざっくり、このような感じ。

完全なノイズ画像からスタートするのではなく、自分で指定した画像をスタート地点にするので、色合いや形を「ある程度」継承させることができるのがimg2imgのポイントです。細部の書き込みを増やすクォリティーアップに使えるだけでなく、構図を維持しながら別のイラストに変えることもできますし、自分の手描きイラストをAIに「清書」してもらうこともできます。

実際にやってみましょう。まず、img2imgしたい画像を、「PNG内の情報を表示」タブで読み込ませます。

「img2imgに転送」ボタンを押すと、この画像と生成情報がすべてimg2imgのタブに転送されます。

画像サイズの指定も引き継がれますが、「Resize to」で縦横を数字で指定し直すこともできますし、「Resize by」で元画像の何倍、と指定することもできます。

ノイズ除去強度(Denoising)はノイズをどれほど加えて除去するか、つまり「どれくらいこの元画像を参照するか」を意味しています。最初に説明したように、SDはノイズを除去して画像を作り出すので、ノイズが少量だとあまり元画像を変更できず、ほとんどノイズだらけにすれば大きく絵を変えられる(やりすぎるとimg2imgの意味がなくなる)わけです。つまり、0に近くなるほど元画像に近く、ノイズを濃く掛けるほど新しい生成設定に近づくわけですね。

こちらは、さきほどWAI Illustrious XLで生成した画像を別のモデルでimg2imgした例です。ノイズ除去強度が0だと元画像のままで、最大の「1」に近づくにつれて別モデルの画風に近づいていくことが分かります。

全く同じプロンプトで生成しているので、描かれている内容はそのまま


img2imgアップスケール

先ほどはいきなり2048pxでミナちゃんを生成したので崩壊してしまいましたが、このimg2imgの仕組みをうまく使うと、元画像を崩壊させずに2048px以上の高解像度画像に「アップスケール」することができます。わざと低解像度(640x640px)で生成したこちらのイラストで試してみましょう。

キャンバスサイズが小さいと細部が低劣になる。
背景に小さく描かれた通行人もこんな感じになりがち

画像をimg2imgタブで読み込み、スケールを「3倍」にします。640pxから1920pxに拡大されるわけです。ノイズ除去強度を控えめの「0.35」にするのがポイント。

こちらが生成結果です。元画像に薄くノイズを掛けて除去し直したことで、人体崩壊を起こすことなく1920pxサイズにアップスケールできました。


もっとノイズ除去強度を上げるとより線がはっきりしてきれいになるのですが、もしノイズ除去強度を最大の「1」にしてしまうと、元画像をガイドにすることができなくなり、このように崩壊してしまいます。

「img2imgで大きくアップスケールする場合、ノイズ除去強度が高すぎると細部が崩壊するし、弱すぎると効果が薄くなる」というトレードオフの関係を理解することが大切です。アップスケールにはimg2img以外にも「hires fix」などさまざまな手法やコツがありますので、こちらの記事にまとめています。


プロンプトの一部変更

img2imgはアップスケールに使うばかりではなく、描画内容の変更にも活用することができます。今度はこちらの画像を読み込ませ、プロンプトの「smile」を「angry」に書き加えてみましょう。キャンバスサイズの拡大は行わず、元画像と同じ1408x1024pxとします。

元画像をプロンプトにしたがって「描き直す」わけですが、大きく構図を変化させない内容なら…

←元画像 / img2img結果→

ほぼ同じイラストで、表情だけを変更することができました。ただ、元画像に引っ張られるとあまり内容を変更できないので、ノイズ除去強度を0.75とかなり強力にしています。そのため、よく見ると指や髪なども変化してしまっていることが分かります。

こちらはノイズ除去強度別の比較図。強度を高めるほどに「angry」度が増し、よく見るとポーズも「angry」っぽいものに変容していくのが分かります。


「インペイント」で一部分だけi2i

表情だけを変えたいのに、指やポーズまで変わってしまうと困りますね。さきほどは画面全体をimg2imgしましたが、イラストの一部だけを描き直す「インペイント」という機能があります。これは、キャンバス上の気に入らない部分だけを再描画して「差し替え」する機能です。

このように、img2imgの二つとなりにある「Inpaint」タブで画像を読み込み、顔部分を「マスク」で塗りつぶして…

さきほどと同じく「angry」にプロンプト変更して生成します。するとこのように、今度は顔だけを変化させることができました。

塗りつぶしたところだけをimg2imgできる


インペイントはAIイラストの修正だけでなく、さまざまな表現にも活用することができます。こちらは、誰も座っていない私のいすの写真に、インペイントでキャラクターを座らせた例。

こちらはこのnoteのタイトル画像に使用した一枚ですが、生成画像の見切れている部分をこのように補って、タイトル枠に合った構図を実現しています。キャンバス外の存在しない続きを描くので、こうした手法は「アウトペイント」とも呼ばれます。

最終的に用意したいサイズのキャンバス上に、生成画像を配置。
足りない部分を「アウトペイント」で補う

インペイントは6本指になってしまった手の周辺のみの差し替えなど、AIイラストにつきものの破綻部分の修正にも欠かせない機能。詳しい使い方についてはこちらの記事をご参照ください。

ローカルではControlnetを使った「CNインペイント」という手法が高性能。NovelAIのインペイント機能は非常にシンプルで分かりやすく、精度も高いので有名です。わざわざSDを立ち上げなくても、NovelAIにアクセスするだけでぱっと使えるためとても重宝します。

NanoBananaでも「描き直し」はできる?

ちなみに、画像の一部変更はインペイントでなくても、NanoBananaProなどの画像編集モデルに自然言語指示で頼むことでもできるようになってきました。

ただ、さしものNanoBananaも画風の一貫性を完全に維持はしてくれません。手や足のポーズを変える程度なら違和感がありませんが、表情まで変えると、やっぱりどこか顔立ちが「別人」になってしまうのですね。

NanoBananaProで「女の子を怒った表情にして」と指示。
なんだか違うキャラの印象に


これが、時代遅れのSDXLがいまだ支持され続ける理由の一つです。逆に言えば、指が崩壊しているのを直してほしいとか、ちょっとだけポーズを変えたいとか、衣装の色を変更してほしいといった程度なら、SDXLでインペイントするよりNanoBananaに頼んだほうが効率的。モデルには明確に「向き不向き」があります。

色やポーズの変更なら、かなり自然な画像編集が可能



さて、txt2imgやimg2imgの仕組みややり方がひととおり理解できたところで、今度はローカル画像生成をより思い通りに操作できるようにする重要技術、「LoRA」「Controlnet」について触れておきます。

「LoRA」とは何なのか

モデル(Checkpoint)が学習していない概念を後付けで学習させることを「追加学習」と言います。追加学習にはさまざまなやり方がありますが、少ないデータセットで効率的にモデルをチューニングできる学習方法として知られているのが、「LoRA」です。

SDXLのcheckpointは一つ数GBですが、LoRAは一つ数~数十MB程度と軽く、Civitaiなどから気軽にDLしてこられます。グラボさえあれば十数分から数十分程度で自作できるため、日々全世界で無数のユーザーが思い思いのLoRAを作り、共有しています。

発音は「ロラ」派と「ローラ」派がいますが、Low-Rank Adaptationの略なので、どちらでも構わないようです。LoRAは追加学習のいち手法にすぎず、他にもLyCORIS(リコリス)やDoRA(ドラ、ドーラ)などの学習手法があります。使い方の基本についてはこちらの記事にまとめています。


LoRAというと、何となく「AIに絵を食われる」とか「キャラクターの容姿や画風をパクられる」といった悪いイメージがありますが、LoRAはあらゆる概念を学習させられるので、目のデザインだけを変えたり、複雑なポーズや構図を再現できるようにしたり、描き込みを増やしたり、逆にフラットな塗りに変えたり、白黒の線画にしたりと、データセットとアイデア次第でありとあらゆる効果のあるLoRAを作ることができます。

線画を太くするLoRA。LoRAには「適用度」があり、
マイナス適用すると逆に細くなる


LoRAは一般的に、15枚~数十枚程度の教師画像とテキストのペアを自分で用意することで学習できますが、その気になれば1枚の画像からでも画風などを抽出して学習することが可能です。特に有名なのが「コピー機LoRA法」で、こちらの画像のように1枚絵から瞳のデザインを学習させることもできます。

「CoppyLoRAwebUI」を使い、1枚の絵から瞳のデザインを学習させたLoRA


LoRAの学習・利用が違法になるとき

一方で、この技術により理論上はあらゆる画像生成が可能になるわけですから、有名人の写真を追加学習させたLoRAで不名誉なニセ写真を作ったり、特定イラストレーターの作品を追加学習させてなりすましたりといった行為もできてしまいます。こうした行為は、トラブルを呼び込むばかりか、場合によっては刑事事件化や損害賠償請求に発展する恐れもある危険な行為ですので、絶対に手を出さないようにしましょう。

日本の著作権法において、著作物や肖像のAI学習は多くの場合無許諾で可能ですが、「学習したモデルや生成画像で他人に何をしてもセーフ」ということではありません。特に自作LoRAのウェブ公開については、学習が違法になるラインはどこか、どんなリスクがあるかちゃんと自分で説明できるようになるまで、手を出さないことをお勧めします。(後述する文化庁資料『AIと著作権についての考え方』参照のこと)

文化庁「AIと著作権についての考え方」(概要)よりp5。この前後をきちんと理解し、
自分の言葉で説明できない場合、自作LoRAを公開するのはやめておきましょう。


Controlnetでできるようになったこと

23年2月に登場したcontrolnetも、LoRAと並んで非常に重要な拡張技術です。それまではプロンプトかimg2imgでしか生成画像のコントロールができなかったところに、線画や深度情報、ポーズなどを入力画像から抽出することでより直接的に画像生成をコントロールすることが可能になりました。

線画を保持できる「Canny」や深度情報を保持できる「Depth」、ポーズ情報を抜き出せる「OpenPose」、落書きで構図を指示できる「Scribble」、マスク部分を自然に再生成できる「Inpaint」などさまざまな種類があり、活用法も多岐にわたっています。

ある画像の線画だけを検知して、
他の部分を変更(=塗り直し)できる「Lineart」の例

創作でよく使うSDXL用Controlnetは、月須和・那々さんの「Anytest v3」「Anytest v4」の二つ。この二つは線画部分を守りつつ、ほかの部分をプロンプト指示によって自在に変化させられる画期的なもので、非常に便利です。V3は線画(タッチ)を守る力が強く、V4はより柔軟にスタイルチェンジできるのが特徴です。

Anytest v3 + フィギュア化LoRAで、参照画像の線画部分を守りつつ
PVC製フィギュア風の画像を生成した例


SDXL以外の新技術

SDXLは広く普及した自由度の高いローカル向け画像生成AIではありますが、ベースモデルとしてはかなり古くなっており、GoogleやAlibaba、ByteDance、OpenAIといった企業の最新モデルに比べると生成精度は見劣りします。

既に解説したとおり、最新技術では、1ページの漫画を一発生成したり、入力画像を透過レイヤーに分割したり、Photoshop上で画像生成や背景削除、「調和」機能を使ったり…といったことができるようになりました。

これまでの常識では考えられない精度で複雑な指示を達成できるようになった「世界知」モデル。漫画、LINEスタンプ、複数キャラ再現、インフォグラフィック作成など、あらゆる生成が可能に。
NanoBanana以降、米OpenAIのChatGPTや中国ByteDanceからも同様の画像参照・
編集モデルが登場しています。それぞれの実力や使い勝手を徹底比較しました。
「ローカル版NanoBanana」とでも言うべき、Alibabaの画像編集モデル。
LoRAが使えてNSFW用途も弾かれないが、まだ参加者が少なく発展途上な面も。
一枚絵を指定枚数の透過レイヤーに自動分割してくれる「QwenImageLayered」特集。
ただし、ローカルで動かすにはVRAM16GB必要で、かなり重め。
あれよあれよという間に、Photoshopの中に潜り込んでしまったNanoBanana。
ただし、生成クレジットを消費する有料制


こうした新技術は毎月のようにアップデートされており、中には「技術的には凄いけど、ぶっちゃけ創作には役にたたない」とか「わざわざ環境構築しなくても、NanoBananaProで似たようなことができる」というものもたくさんあります。新しい技術を無闇に持ち上げると、読者の貴重な時間がどんどん喪われてしまうので、記事では「実際に試したらこうだった」というフラットな体験的情報だけをまとめることを心掛けていますので、もしよければ読んでみてくださいね。

StableDiffusionとNanoBananaなど周辺技術に関する基礎知識はここまでで終わりです。最後に、これから画像生成AIを触るあなたが身を守れるよう、最も重要な「危機回避の心得」について触れて、この記事を終えたいと思います。



トラブルを避けるために

画像生成AIはさまざまな不可能を可能にする夢のようなツールですが、ひとたびAIの使い方やウェブ上での言動を間違えると、大炎上して活動が継続できなくなったり、最悪の場合は警察沙汰・訴訟沙汰に陥ったりする恐れがあります。

画像生成AIは即死ゲー

「何がマナーであるか」はおのおのが自分のために考えるべきことですので、この記事でマナー講師のように「AIユーザーのあるべき姿」を説いたりするつもりはありません。ここでは日本国内で画像生成AIが普及した2022年10月以降、画像生成AIをめぐってどのような問題・トラブルが起きてきたかを5つのパターンに分けて紹介することで、身を守るための一助にできればと思います。

1.著作権侵害(著作物の無断改変など)

画像生成AIユーザーにとって最大のタブーの一つが「他人が権利を持つ画像を無断改変すること」です。AIイラストをめぐっては、他人が苦労して描いたイラストをimg2imgして自作品と称したり、「こっちのほうがうまい」と愚弄したりする悪質行為が黎明期に繰り返し露見し、画像生成AIユーザー全体にとって大きなダメージとなってきました。

他人の画像の無断i2iは、マナー違反を超えて、犯罪や権利侵害となる恐れのある行為です。Google画像検索で出てきた画像をポンと放り込んでimg2img・・・のようなことを日常的にやっていると、あるとき突然権利者の代理人弁護士からお手紙が届くことになりかねません。img2imgしていいのは、主に「自分でt2iした画像」「自分で描いた絵」「自分で撮った写真(他人の権利物が映っていないもの)」「使用許可を取っている素材」と、それらを元に自分で加工した画像だけだと思っておくのが安全です。

2025年には、NanoBananaやGrokといった最新モデルに画像を見せて、「この画像をこう変えて」と頼むことで画像改変が簡単にできるようになりました。これはimg2imgとは仕組みの異なる「画像参照(リファレンス)」という技術ですが、他人の肖像やイラストを無断で水着などに改変するたぐいの
ハラスメント行為が多発し、大きな社会問題になっています。

<著作権侵害になるラインはどこから?>
では、画像生成AIを利用する際、どんな行為をしたら著作権侵害になるのでしょうか。これについては、文化庁が2024年3月にAI と著作権に関する考え方についてという資料にまとめており、AIユーザーは必読の内容となっています。本編は非常に長大な上、著作権法の知識がないと何を伝えたいのか分かりにくい玉虫色の言い回しもたくさん出てきますので、まずは要点のみをまとめた「概要版」を読みましょう。18pしかないので、絶対に絶対に読んでください。

https://www.bunka.go.jp/seisaku/chosakuken/aiandcopyright.html よりスクリーンショット


最低限覚えておきたいポイントは、まず「AIの利用行為が違法になるラインは、学習段階と生成段階で分けて考える」ということ。

まず学習段階では、著作物の無許諾学習が許される法的条件について理解しておかないと、LoRA学習のための画像収集行為が著作権侵害になりえます。ポイントは、その学習行為が「非享受目的の利用行為か(享受目的が併存していないか)」、「権利者の利益を不当に害しないか」、「あるクリエイターの作品に共通する創作的表現の全部又は一部を生成AIによって出力させることを目的とした追加的学習ではないか」――といった点。詳しくは専門家の解説に譲りますが、LoRAを自作したり、ウェブ上で公開したりする場合、これらの意味をちゃんと理解した上で臨む必要があります。

LoRA公開は、これらをぱっと説明できるようになってから!
STORIA法律事務所の解説が正確で詳しいです。

そして生成段階では、手書きだろうがimg2imgだろうがリファレンスだろうが、生成した画像が「他人の著作物に相当類似していて、それが偶然でなければアウト」というのが基本です。これを「類似性」「依拠性」と言います。他人の画像の無断i2iや無断リファレンスも、この類似性と依拠性の条件を両方満たすかどうかで違法かどうかが決まるわけです。

逆に言えば、たとえある著作物に依拠した(パクった)画像生成行為でも、i2i強度を高めて改変度合いをある程度以上強めていた場合、権利侵害と言えるか微妙な状態にはなります。それでも他人の著作物の無断改変はトラブルを巻き起こすものですから、i2iだろうとリファレンスだろうと、自衛のために手を出さないのがまずもって賢明でしょう。



2.既存の創作文化を軽視する言動

画像生成AIは絵心のない人でもハイクォリティなイラストを生成できる反面、苦労して絵の技術を研鑽してきた人々にとっては、「これまでの努力を無にするもの」と受け取められている技術です。ただでさえそうした背景がある上に、Web上では他人の作品のimg2imgや画風を模倣したLoRAを使った嫌がらせが相次ぎ、イラストレーターや漫画家、作家などクリエイターへの敬意に欠けた言動も繰り返されてきました。

クリエイターを軽んじる言動は、合法かどうかを問わずトラブルを招きます。最終的に法廷で勝てたとしても、訴えられた時点で人生が割とめちゃくちゃになりますので、AIイラストを楽しめる日常を守るためにも、おのおので「超えると危険なライン」を引いて、そのかなり手前で止まっておくことが大切だと感じています。

一方で、画像生成AIを利用した人物・企業に対し、SNS上で一方的に苛烈な言葉を浴びせる事案も枚挙にいとまがありません。2025年には、AI絵をアイコンに使用した神社がAIを嫌悪する男(38)に放火予告される事件が発生。男は逮捕され、最終的に罰金20万円の略式命令が下されました。

画像生成AIを使っただけで、または画像生成AIへの懸念を口にしただけで、誹謗中傷や攻撃のターゲットにしてよいという法はありません。個人的には、文化庁の示した「考え方」に沿って利用している限り、必要以上に萎縮する必要はないと考えています。

<コラム:AI絵を「描いた」と言うリスク>
 
AIイラストを投稿する人は当初、SNSで「AI絵師」と呼ばれ、気軽に自称する人も多くいました。ところが、次第に「描いていないのに絵師を名乗るな」と憤る人や、「AI絵師=AIイラストを自分で手描きしたとうそをつく人」の意味に使う人が増えていき、にわかに蔑称化。いまでは自称する人はほとんどいなくなり、悪口として使われているのを目にした人が「彼らは描いていないのに絵師を名乗っているのか」と怒る状態になっています。

 その後、呪文を唱えるイメージから「AI術師」などの言い換えが生まれましたが、プロンプトの重要性が薄れたこともあり、あまり定着しなかったようです。スタジオ真榊では単に、「画像生成AIユーザー」や「AIイラスト投稿者」を使うことが多いです。

 こうした言葉狩りのような現状は全くよくないことですが、初心者が悪気なく「AI絵師です」とか「AIを使って絵を描いています」とSNSに投稿しただけで襲いかかる人がたくさんいます。中にはAI絵の投稿を「手描き詐称」とみなして攻撃的な言葉とともに晒し上げる迷惑ユーザーも。これから画像生成AIを触る人が自衛するために、「AI絵師」を名乗ることのリスクはありのままにお伝えしておくべきと考え、コラムとして掲載しておきます。


3.無修正画像の投稿

これはちょっと違う方向からの注意事項。AIで生成した成人向け画像は、基本的に無修正で出力されることが多いです。これは、日本以外の多くの国では性器にモザイクを掛ける習慣がなく、エロ画像を生成するために学習させた画像セットが無修正のものであることに由来しています。

PCの中から出さずにこっそり楽しむぶんには良いのですが、Web投稿するときは画像編集ソフトなどを使って、必ず自分で修正しましょう。プラットフォームからのアカウントBANを避けるためにも、センシティブ表記をONにする、R-18タグをつけるといったSNSごとのNSFW投稿ルールも調べておくことをお勧めします。

モザイクはご自分で

さきほどDLしたWAI Illustrious SDXLのようにHイラストの描写が得意なモデルだと、全年齢イラストを作るつもりのプロンプトでも、nsfwなイラストが生成されてしまうことがあります。これは、ポジティブプロンプトに「general」、ネガティブプロンプトに「nsfw」や「nude」など、学習者が決めたワードを入れることで避けることができます。

ちなみに「censored」「bar censored」「mosaic censoring」などのタグを使えば、はじめから修正したような状態でAI生成することも技術的には可能ですが、完璧ではありません。モザイクの方法やサイズなどは、Pixivのガイドラインなどが参考になります。

https://www.pixiv.net/terms/?page=guideline よりスクリーンショット引用


4.本物と見紛う画像の公開(名誉毀損など)

画像生成AIを巡る権利侵害や犯罪と言えば著作権侵害(罪)ですが、ほかにも名誉権肖像権、パブリシティー権などなど、多くの権利が存在することを忘れてはいけません。

AIに慣れてくると、追加学習によって特定のイラストレーターの画風をそっくり真似たり、実在する人物の「存在しない写真」、現実の光景に見えるような事件や災害の写真を生成したり、児童ポルノと見紛うような精巧な「非実在児童」のnsfw画像を生成したりすることができるようになります。これらに共通するのは、知らない人が見たら「本物」と見紛う画像ということです。

右はNanoBanana産

こうした紛らわしい画像を公の場に公開すると、著作権上の問題をたとえクリアしたとしても、全く別の文脈で法的トラブルを招くことが考えられます。漫画家がアイドルの写真をGrokで水着に改変して謝罪する事件がありましたが、実在の人物や商標、他人のビジネスなどがからむ場合、「自分がされたら怒ることはしない」のが身を守るために有効なラインだと思われます。

<作風や画風は保護されない?>
画風の模倣については、よく「作風や画風はアイデアと同じで著作権保護されない」「著作権保護されるのは表現(上の本質的特徴)だけだ」ということが言われます。
これは事実ではありますが、画風模倣LoRAを作ったときに、画風だけでなく著作権保護された「表現」まで模倣できてしまうことが往々にあります。画風と表現の境界線は、訴訟で争われない限りはっきりしたことは言えませんので、
①「自分が模倣しているのは画風だけだから合法だ」と言っても通らないことがあること
②著作権法上は問題がなくても、名誉権や肖像権、パブリシティー権など別の文脈で権利侵害が認定されることもあること
をきちんと覚えておきましょう。


5.大量投稿・レギュレーション違反

AIだらけ

AIを使うメリットであり、デメリットでもあるのが、「コンテンツの大量生産が可能である」ということです。AI小説などもそうですが、自分で目を通して作品としてブラッシュアップしていないものを大量投稿すると、視聴者側からは「粗製濫造」とみなされがち。そうした作品にうんざりしている人は多く、AI作品にタグ付け義務を課したり、非表示にできるようにしたりするプラットフォームが増えています。

FANZAやPixivといったプラットフォームでも、ランキングやタグがAI生成作品ばかりになってしまう現象が発生。AIタグ付けの義務化や「AIフロア」への隔離、FANBOXやファンティアといった支援サイトでのAI生成コンテンツの投稿禁止といったことにつながりました。(※ちなみに、AI生成の技術解説コンテンツは独自の創作性を持ったコンテンツとしてFANBOXの利用が認められています

イラストや小説といった作品の投稿・販売プラットフォームは基本的に人間が作ることを想定して作られているので、一部のユーザーが連日数十~数百作品を投稿してランキングや売り上げをハックしようとすると、AI創作全体が「迷惑な粗製濫造コンテンツ」とみなされていきます。画像生成を行うのは個人の自由ですが、よそのプラットフォームを利用したりコンテストに参加したりする場合、AI作品のタグ付け義務や投稿禁止といった規約やレギュレーションに従うことが、長い目で見てAIユーザーにとってもメリットにつながるものと思います。


中級者へのステップアップ

ここまでの内容が一通り飲み込めたら、きちんとトラブルを避けつつ、画像生成を自由に楽しむことができるようになっているはずです。最初は好みの学習モデルを探したり、エッチな画像を作れるか試してみたり、プロンプトを勉強してみたり、スケールやステップ、サンプラーにこだわってみたり、LoRAを使ったイラストに挑戦してみたりと、楽しんで触るほどに上達していくでしょう。

スタジオ真榊FANBOXでは、AIイラストの修正・加筆や画風・キャラクターの一貫性を保つ方法、画像生成で漫画を作る方法、AIイラストをアニメ化する方法など、このnoteには書ききれなかった知識や技術を幅広く深堀りしています。もっと自分の思い通りのイラストが作りたい方、普段の創作にAIを活かせるようになりたい方は、ぜひ読んで頂けたらと思います。

とはいえ、1本1~2万字もある連載記事を今から全て追うのは大変ですので、次のような順番で読んでいただくのがオススメです。上の方が基礎的技術で、下の方にいくほど高度なテクニックになっていきますので、必要な技術を取りこぼすことなくスムーズに理解が進むはずです。


・プロンプトの基礎知識をおおむね理解する

・生成に必要なタグを自力で見つけることができる

・SDXLやillustriousモデルに関する知識を深める

・NovelAIについて理解を深める

・いろいろなアップスケールができる

・今生成したものとちょっとだけ違う「バリエーション生成」ができる

・必要なLoRAをウェブ上で探し、効果的に適用できる

・XYZ plotを使って最適な設定を検証できる

・Controlnetの基礎を理解する

・Controlnetを使った「インペイント」ができる

・ADetailerで顔や手だけのアップスケールができる

・CLIPSTUDIOを使って瞳や指の簡単な加筆修正ができる
 AIイラストのためのCLIP STUDIO超入門
  ▶【第1回】プランとペンタブ選び、初期設定、おすすめ素材まで
  ▶【第2回】絵心一切関係なし!破綻した手を描き直す
  ▶【第3回】最重要ポイント『AI瞳』をレタッチしよう

・コピー機LoRA法を理解し、「1枚絵からのLoRA学習」ができる

・4つの重要技術を組み合わせて、思った通りの画像生成ができる

・オリジナルキャラを身上書からデザインし、LoRAで容姿を再現できる

・背景とキャラクターを別々に生成し、一つの作品として仕上げる

・「NanoBananaPro」でできることを理解し、自分の創作に活かせる

・「NanoBananaPro」で漫画作りができる

・上級者向けUI「ComfyUI」を導入し、Qwenシリーズを使いこなせる


今読んで頂いている記事には、画像生成を始める上で最低限必要な知識をできるだけ網羅的に詰め込みましたが、ここからステップアップするために重要なのは「画像生成技術を使って、自分は何をしたいか」を理解することです。

推しキャラの絵を生成したいのか、手描きイラストの補助にしたいのか、漫画を作ってみたいのか、はたまたNSFW目的なのか…。人によってやりたいことはさまざまだと思いますが、思ったとおりの絵を生成するためには、上に書いたようなさまざまな知識が必要になるはず。こちらのnote上で、これまでの検証記事をジャンル別に整理していますので、きっと役に立つと思います。


終わりに 「マスピ山」からの脱出

最後に、AI絵を始めたてのときに陥りがちな「落とし穴」について少し触れておきます。

画像生成を楽しめるようになると、もっと理想に近いイラストを生成できるようになりたくて、さまざまなモデルを集めてみたり、クォリティタグをこだわってみたり、LoRAやマージモデル作りに傾倒してみたりするものです。より高品質なAI絵を生成するためには、もちろん最新のモデルにアンテナを張って使いこなすのが手っ取り早いのですが、ここに落とし穴があります。

最新モデルを使えるようになると、一見自分の作品のクォリティが上がったかのように感じられるのですが、出力画像のクォリティが高くなるほど投稿者自身の個性が薄れ、つまらない作品になってしまうことが往々にしてあるのです。このnoteの中でも、「より良い結果をみんなが安直に目指した結果、全員で同じ"マスピ山"に登ってしまい、山頂についたらみんな似たような絵ばかり…という現象がよく起こる」と書きましたが、これは「編集不可能性」の問題が顕在化してしまうからです。

以前、キリストのフレスコ画を修復しようとして台無しにしてしまったニュースがありましたが、すみずみまで細かく美麗に描き込まれた画像ほど、違和感なく修正するには高い作画技術が求められます。とても加筆で直せないような美麗な画風を背伸びして使うと、生成画像をほとんどそのまま投稿するしかなくなるので、どうしても自分らしさを表現する余地が狭まってしまうのですね。

大事なのは、AIで80点までささっとたどり着くことではなく、そこからどうやって自分だけの100点に近づけるかです。見た目の美麗さより「その絵が自分にとってコントローラブルかどうか」が最終的な作品の出来を左右するのだと思います。

絵や漫画を見る人は、知識さえあれば誰でも生成できるクォリティの高い画像を見たいわけではなく、その人にしか作れない「何か」を見たいと思っているはず。そのためには、自分の個性を形作っているのは何なのかを理解して、自分のやりたいことを「マスピ色」に塗りつぶされないよう意識する必要があります。AIの力で自分を大きく見せようとするのではなく、自分自身の拙劣さをきちんと見つめることが、AI創作を人間らしく・面白くする上で大切なことなのではないかということを最後に書いて、この記事を終えたいと思います。

ここまで長い文章を読んでくださり、ありがとうございました。最新情報はこちらのXでお知らせしているので、ぜひフォローしてみてください。もしこの記事が何かの役に立ちましたら、こちらの投稿をぜひリポストしていただけたら嬉しいです。

これを読んでくださったあなたが、画像生成を楽しめることを祈っています。スタジオ真榊でした。

ご協力ありがとうございました


【おまけ】
「♡スキ」を押すと謎の感謝画像が出ます(ノーマル、レア、ウルトラレアの全10種)




StableDiffusionやNovelAIを使ったAIイラスト手法を研究してます。PixivFANBOX(https://studiomasakaki.fanbox.cc/)でプロンプト辞典や「AIイラストが理解る!」シリーズなど120本以上の記事を配信中。
【2026年版】AIイラストが理解る!StableDiffusion超入門|賢木イオ
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1