Dreambooth-LoRA

概要

Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
簡単に言えば「省メモリで高速に学習できて容量も小さくて済む追加学習法」。作成方法はいろいろある。

他の学習法とどう違うねん？　reddit民によればこんな感じのイメージらしい。
https://www.reddit.com/r/StableDiffusion/comments/...
kohya_ss版sd-scriptsの登場以来、sd-scripts及びそれの派生ツールが人気となっている。
このページではsd-scripts関連の情報について雑に書いてある

公式情報

sd-scripts (kohya)

一番はじめは作者が詳しく書いてくれている公式READMEを見よう！話はそれからだ！

★公式LoRAガイド：sd-scripts/train_network_README-ja.md at main · kohya-ss/sd-scripts | https://github.com/kohya-ss/sd-scripts/blob/main/t...
公式タグ付けガイド：sd-scripts/fine_tune_README_ja.md at main · kohya-ss/sd-scripts | https://github.com/kohya-ss/sd-scripts/blob/main/f...
公式DreamBoothガイド：sd-scripts/train_db_README-ja.md at main · kohya-ss/sd-scripts | https://github.com/kohya-ss/sd-scripts/blob/main/t...

参考資料・スレ住民による学習ガイド

LoRA Training Guide　https://rentry.org/lora_train

4chan有志によるLoRAトレーニング法ガイド（英語）

LoRA 学習メモ　https://rentry.org/i5ynb

スレ住民によるLain・よしなが先生・野原ひろしLoRA作成者によるLoRAガイド（日本語）
更新：2023-02-09｜低リソース学習(NIKKE)、低dim学習(ゆるキャン犬山あおい)などを追加しました。

ソウリンちゃんLoRAの作成記録 https://rentry.org/sourin_chan

スレ住民によるマルゼン式(ふたば有志のタグ付け手法の1つ)で作成したLoRA作成記録（日本語）

Genshin Impact LoRA作成メモ https://rentry.org/genshin_lora

スレ住民によるkohya-ss氏制作のSDスクリプト(https://github.com/kohya-ss/sd-scripts )で次のキャラのLoRAを作成した。ポップアップ版使用。（日本語）

https://rentry.org/lora-tag-faq

lora training tagging faq（英語）

https://rentry.org/dsvqnd

スレ住民によるキャラクター学習のタグ付け一例（日本語）

https://rentry.org/lora_namakubi

スレ住民によるLoRAでのキャラ学習素材の検証

あかちゃんLoRAノートブック kohya_train_network_simple

全然スレに書き込めないけどけなげに頑張っている

クラウドGPUを使う場合はリンク先の下の方に Colab Instructions がある
フォルダ命名方法に気をつけて、自前のファイルは半角スペース一切入れないようにすれば無料Colabでも回せる。頑張れ。

他人の作ったモデルを使いたい。

最新版のWEBUIが既に使用可能な状態ならセットアップ不要→LoRAの使用方法へ

インストール、初回セットアップ編

1.LoRA_Easy_Training_Scripts Installers

https://github.com/derrian-distro/LoRA_Easy_Traini...

下記の学習の手順ので使うEasyTrainScriptsの人が作った簡易インストールスクリプト
画面右の Releases の下の Installers をクリック > 下にスクロールして install_sd_scripts_v3.bat をダウンロードする
右クリックして管理者として実行すると
sd-scripts本体とEasy_Train_Scriptsの両方をインストールして、インストール後の初期設定までやってくれる。
うまくいかなかったら Gitをインストールしてリトライ
わからないとき用画像↓

2.あかちゃんLoraインストーラー

あかちゃんインストーラーで1111を入れた人向けにPYTHONとGITのPATHをいじってあるやつ
start.batと同じフォルダに入れて実行してください

コマンドライン用
- https://github.com/aka7774/elemental_code/blob/mai...
- https://github.com/aka7774/elemental_code/blob/mai...
ダイアログ用(みかんせい)
- https://github.com/aka7774/elemental_code/blob/mai...

3.GUI

GUIといっても作者のsd-scriptsにパラメータを渡すだけや。性能は変わらん。一部パラメータ非対応のこともある。

4.その他補助スクリプト

としあきbatや4chan製のスクリプトがある
kohya-ss/sd-scripts を自分でインストールできるなら

学習用画像を置くフォルダの配置

作者の解説が詳しい https://note.com/kohya_ss/n/nba4eceaa4594

フォルダの配置例:

※要するに<繰り返し回数>_<インスタンスプロンプト>にリネームした学習画像データのフォルダは直接指定しないでねって話
例えば↓こういうこと
❌E:\kohya_ss\TrainDatas\001\img\40_kdy 1girl
🟢E:\kohya_ss\TrainDatas\001\img
間違うと画像が見つかりませんと怒られる

同時に10まで概念を学習できるが、少なくとも1つはフォルダが必要。
フォルダの名前は <繰り返し回数>_<インスタンスプロンプト>
- <繰り返し回数> 繰り返し回数×学習用画像の枚数を1セット(1 epoch)として学習する

※注学習用の画像が50枚ある場合、繰り返し回数を20 にすると 20 x 50 = 1000 ステップ学習する

<インスタンスプロンプト> クラス呼び出し用のキーワードクラスは英単語にない意味のないワードがよい
上記kohya氏のサンプルだと「20_sls frog」　脳死で真似するなら繰り返し回数_意味のないワード WEBUIでプロンプトとして書きたい単語で設定しておく
キャプションファイルは必須です。そうでない場合、LoRA は概念名をキャプションとして使用してトレーニングを行います。
キャプションについては以下

キャプション・タグを付ける

作者の詳しい画像付き説明 https://github.com/kohya-ss/sd-scripts/blob/main/f...
学習用の素材画像それぞれに内容を説明するテキストファイルを作る。このテキストファイルには画像生成時のプロンプトと同じようにタグを記載する。
テキストエディターやメモ帳で１つずつ作っても良いのだが、WD1.4Tagger等のツールを使えば一気に自動生成できて捗る

WD1.4 Taggerで作成

先に学習用画像を連番にリネームしておく (01.png, 02.png, ...など)

画像

Web UI に拡張機能 stable-diffusion-webui-wd14-tagger https://github.com/toriato/stable-diffusion-webui-...をインストール
「Tagger」タブの「Batch from directly」

入力ファイル:学習用画像の入っているフォルダ
Interrogator:wd-14convnext
アンダースコアの代わりにスペースを使用する:オン
括弧をエスケープする:オン

画像

Interrogateを押すと学習用画像のフォルダにタグの付いた .txt ファイルが生成される

画像

キャプション・タグの編集

タグは順序に影響を受けるので、一番最初に有効化したいタグを記述する
WD1.4Tagger等で自動生成したファイルには不要なタグが含まれたり誤認識されたタグが記載されたりするので編集する。

BooruDatasetTagManager https://github.com/starik222/BooruDatasetTagManage...
学習用タグの入力を速く楽にするやつ →ローカルの「ツール」 https://uploader.cc/s/rdw0k6qd2766czgdwwwjtn2xtmhi...

等の便利なツールを使えば捗る。必要なタグを追加、不要なタグの削除、順序の入れ替え等の編集をやる

taggerで生成したタグの順序のままでも構わないが、重要なタグだけ各ファイルの先頭の方に記載する。例えばコマンドライン版（lora_train_command_line.py ）の場合、

self.shuffle_captions: bool = True # OPTIONAL, False to ignore
self.keep_tokens: Union[int, None] = 3 # OPTIONAL, None to ignore

上記のように設定すれば先頭から3つのタグは順序固定として残りはタグの適当にシャッフルして学習できる。

キャプションの付け方・考え方の参考サイト

lora training tagging faq

英語サイトだがブラウザの翻訳で読もう

キャラクター学習のタグ付け一例

実例を挙げての解説

一言で言えば「呼び出しキーワード」＋「学習から外したいもの」をタグに書く

そもそも学習用画像ってどうやって加工するの

本文で説明している kohya_ss 版のLoRAではトリミングはしなくていい(画像のサイズ別に学習が行われる)
背景の切り抜きは・・・画像の大きさが揃ってないとめんどくさいなどうしよう・・・
キャラの切り出しだけやったら3Dペイント(Win10なら標準、11では標準からリストラされたけどストアにおるで)のマジック選択でええ感じに切り抜きやすいからそこからgimpなりで微調整。
一枚一枚やんのめんどくさい言うんやったらABG_extension言うのが出たんでつこてみたらええんとちゃうかな…？しらんけど

ABG_extension
https://github.com/KutsuyaYuki/ABG_extension
WEBUI公式extension 背景を自動で除去します。アニメ画像用に微調整されたonnxモデルを使用。GPUで動作します。

katanuki
https://github.com/aka7774/sd_katanuki
WEBUI用exntension anime-segmentation を 1111 で使えるようにしたやつ。画像の背景を透過したり白背景にしたりマスク画像を出力する

正則化画像

ChatGPTたん曰く「過学習を抑えるためのもの」
キャプションつけたらそのプロンプトで学習させるモデルを使って(適当なネガティブプロンプトをつけて)作成すればいい・・・のだが詳しくはわからないので誰か書いてクレメンス
間違っとる可能性大なのやが、例えばAIちゃんが知らない「鳥獣戯画のカエルちゃん」のイメージを教えるとする。学習用画像には「鳥獣戯画のカエルちゃん」画像を用意する。正則化画像にはありふれた「蛙の画像」を用意する。これでAIちゃんには「鳥獣戯画のカエルちゃん覚えようね！でも正則化画像フォルダにある普通の蛙とかは違うやつやから覚えなくていいよ」という感じで伝わる。イメージを覚えてもらうのに言葉では説明しづらいから画像で説明する感じ？多分。知らんけど。
他所のノートブックを利用しているので確かな事は言えないが、正則化画像を同じような画像で学習させすぎると正則化画像につけたクラストークンで正則化画像の内容を生成するようになる。これは上の「普通の蛙は覚えなくていいよ」というよりも、単に「学習画像と正則画像を二つとも学習する」という挙動のように思われる。
正則化画像は必須ではないので用意しなくても学習はできる。とりあえず一度学習動かしてみたいとかなら用意しなくてもいい。透明正則化も効果は不明瞭（良い影響があるとしても悪影響がないとも言えない）なので面倒ならやらなくてもいい。

透明のpngを正則化画像にする

Web UI に拡張機能をインストールする https://github.com/hunyaramoke/Generate-Transparen...
Generate TransparentIMG タブで
出力フォルダ:正則化画像の保存先
number_of_generation:作成する枚数
を入力して実行

画像

学習の手順

Windowsの場合

ポップアップ版を使う場合

run_popup.batを実行
ポップアップにパラメーターを入力する
出来上がりを待つ

コマンドライン版を使う場合

1. lora_train_command_line.py にパラメーターを書く

設定を書き込むのはlora_train_command_line.pyの最初の方あたり。学習ベースになるモデル、学習素材フォルダの場所、出力先は必ず設定する。わからんところはそのままにしとく。
以下lora_train_command_line.py冒頭あたりの設定部分の雑な日本語訳

sd-scriptsに追加して使うEasy Training Scriptsのlora_train_command_line.pyの雑な日本語コメント入りバージョン
本家はここ→https://github.com/derrian-distro/LoRA_Easy_Traini...

以下、設定に必要な箇所（13行目～110行目付近）のみ記載（2023.02.10現在Ver）
設定箇所は

self.base_model: str =

から

self.v_parameterization: bool =

まで

class ArgStore:
    # sd スクリプトのすべての可能な入力全体を表します。 重要度の高いものから順に並べられています（2023.02.10）
    def __init__(self):        
        # 重要 このあたりは変更する可能性が最も高いやつ
        self.base_model: str = r"C:\stable-diffusion-webui\models\Stable-diffusion\nai.ckpt"  # 学習させるベースモデルの場所を右みたいに書く r"E:\sd\stable-diffusion-webui\models\Stable-diffusion\nai.ckpt"
        self.img_folder: str = r"D:\train\images"    # 学習させる素材画像フォルダの場所書く　下記のガイドラインに添って配置してな
                                                     # これがフォルダ配置ガイドや: https://rentry.org/2chAI_LoRA_Dreambooth_guide_english#for-kohyas-script
        self.output_folder: str = r"D:\output\LoRA"  # 出力先のフォルダをここで設定する。学習途中のやつも最終結果もここに出す
        self.change_output_name: Union[str, None] = None  # 出力ファイル名を変更する
        self.save_json_folder: Union[str, None] = None    # オプション、設定の json フォルダーをここで設定した場所に保存します。
        self.load_json_path: Union[str, None] = None      # オプション、json ファイルをロードすると、構成が一致するように部分的に変更されます。
        self.json_load_skip_list: Union[list[str], None] = None  # ユーザーがjsonをロードするときにスキップするものを定義できるようにします,
                                                                 # 重要: デフォルトでは、すべてのパスを含むすべてをロードします。
                                                                 # 除外する形式は次のようになります: ["base_model", "img_folder", "output_folder"]
        self.multi_run_folder: Union[str, None] = None  # オプション、スクリプトによって生成された json を含むフォルダーに設定すると、それらのスクリプトを使用してトレーニングが開始されます。
                                                        # すべてが確実にロードされるように、json_load_skip_list を無視することに注意してください。
                                                        # 重要: これにより、ここで設定されたすべてのパラメーターも無視され、代わりに json ファイル内のすべてのパラメーターが使用されます。
        self.save_json_only: bool = False  # トレーニングを行わずに json を生成したい場合は true に設定
        self.caption_dropout_rate: Union[float, None] = None  # ファイルのキャプションがドロップされる率.
        self.caption_dropout_every_n_epochs: Union[int, None] = None  # どの程度の頻度でエポックが完全に無視されるかを定義する
                                                                      # 3 はエポック 3, 6, 9 でのキャプションを無視することを意味します。
        self.caption_tag_dropout_rate: Union[float, None] = None  # キャプションファイル全体ではなく、タグが削除される割合を設定します。

        self.net_dim: int = 128  # ネットワーク dim、128 が最も一般的ですが、これよりも少ない値で動作する可能性があります
        self.alpha: float = 64   # 学習用のスカラーを表す。アルファ値が低いほど、1ステップあたりの学習量は少なくなる
                                 # 旧来の方法で学習させたい場合は、dimと同じ数値に設定する
        # スケジューラのリスト: linear, cosine, cosine_with_restarts, polynomial, constant, constant_with_warmup
        self.scheduler: str = "cosine_with_restarts"     # 学習率に関するスケジューラ。それぞれ特定の処理を行う
        self.cosine_restarts: Union[int, None] = 1       # オプション, 再起動回数を表す. cosine_with_restartsを使っている場合のみ重要。
        self.scheduler_power: Union[float, None] = 1     # オプション, 多項式の累乗を表します。多項式を使用している場合のみ重要。
        self.warmup_lr_ratio: Union[float, None] = None  # オプション, 与えられた比率に基づいて，ウォームアップのステップ数を計算する．
                                                         # constant_with_warmupを使用している場合は必ず設定してください。
                                                         # Noneと書くと設定しない
        self.learning_rate: Union[float, None] = 1e-4    # オプション,  設定しない場合lrはadamWに従って1e-3に設定される。個人的にはlrが低い方が少し良さそうなのでそう設定することをお勧めします。
        self.text_encoder_lr: Union[float, None] = None  # オプション, テキストエンコーダの特定のlrを設定する、これはベースlrを上書きすると思う。
        self.unet_lr: Union[float, None] = None          # オプション, unetに特定のlrを設定、これはベースlrを上書きすると思います。 無視する場合はNone
        self.num_workers: int = 1  # 画像の読み込みに使用されるスレッドの数、低いと高速化される。
                                   # エポックの開始は速くなるが、データのロードは遅くなる。ここでの仮定は
                                   # この値を小さくすると学習時間が長くなると想定している。
        self.persistent_workers: bool = True  # ワーカーを永続化させ、エポック間の遅延をさらに減らす/なくす。ただし、メモリ使用量が増加する可能性があります

        self.batch_size: int = 1  # 一度に処理される画像の枚数。
                                  # 12GBのVRAMで512の場合、最大6バッチサイズになります。
        self.num_epochs: int = 1  # エポック数、もし最大ステップ数を設定した場合、この値はステップ数を計算しないので無視される。
        self.save_every_n_epochs: Union[int, None] = 1 # オプション, エポックごとに保存する頻度を設定、Noneと書くと保存しない。
        self.shuffle_captions: bool = True             # オプション, キャプションをシャッフルして学習させる。Trueで有効、Falseで無効
        self.keep_tokens: Union[int, None] = 1         # オプション, 先頭に書いたトークンをキープするかどうか。Noneと書くと何もしない
        self.max_steps: Union[int, None] = None        # オプション, ステップ数を決めている場合、直接設定することができる。設定しない場合はNoneと書く
        self.tag_occurrence_txt_file: bool = False     # オプション, あなたのデータセットに含まれる全てのタグの出現回数を記録したtxtファイルを作成する。
                                                       # メタデータがある限り、メタデータにもこれが含まれるので、デフォルトでこれをオンにする必要はない。
                                                       # 出力チェックポイントと同じフォルダーに自動的に出力されます。

        # このあたりからは猛者は変えるかもしれない設定
        self.train_resolution: int = 512
        self.min_bucket_resolution: int = 320
        self.max_bucket_resolution: int = 960
        self.lora_model_for_resume: Union[str, None] = None  # オプション, 入力LoRAから学習を継続する。
                                                             # 正確には”そうあるべき”方法でないが動作します。
        self.save_state: bool = False  # オプション, 学習状態を保存して学習を継続するためのもの, Falseは無視する。
        self.load_previous_save_state: Union[str, None] = None  # オプション, トレーニングの状態をロードして継続的なトレーニングに利用する、設定しないならNone
        self.training_comment: Union[str, None] = None  # オプション, アクティベーショントークンのようなものを
                                                        # メタデータに入れるには最適な方法。現時点では機能していないようです
        self.unet_only: bool = False  # OPTIONAL, unetだけを学習させるように設定する。
        self.text_only: bool = False  # OPTIONAL, テキストエンコーダの学習のみを行うように設定する。

        # これらは、変更する可能性が最も低いものです
        self.reg_img_folder: Union[str, None] = None  # オプション, 正則化画像フォルダの場所を設定　設定しない場合はNoneと書く 
        self.clip_skip: int = 2   # アニメ系のモデルで学習する場合は、ほとんどのモデルがそのように設計されているので、この値を2にしておく。
        self.test_seed: int = 23  # これは「再現可能なシード」であり、基本的にこのシードに設定すれば、
                                  # 学習用画像からプロンプトを入力し、それに近い表現を得ることができるはずである。
        self.prior_loss_weight: float = 1          # これはDreamboothと同じように、LoRAの学習に必要な損失重み付けである。
        self.gradient_checkpointing: bool = False  # オプション, グラデーションのチェックポイントを有効にする．
        self.gradient_acc_steps: Union[int, None] = None  # オプション, ワイも実際何かわからんけど設定できるようにしといた
        self.mixed_precision: str = "fp16"    # もしbf16を使えるなら使ったほうがいい。
        self.save_precision: str = "fp16"     # bf16でも保存できるが、汎用的ではないのでfp16で保存しておくことをお勧めします。
        self.save_as: str = "safetensors"     # pt, ckpt, safetensorsのどれかで保存できるよ
        self.caption_extension: str = ".txt"  # .captions,形式も使えるけどwd1.4taggerはtxtで出力するから、txtをデフォルトとする。
        self.max_clip_token_length = 150      #  75, 150, または225にすることができると思う。
        self.buckets: bool = True
        self.xformers: bool = True
        self.use_8bit_adam: bool = True
        self.cache_latents: bool = True
        self.color_aug: bool = False    # 重要: cache_latents と衝突するので、どちらか一方だけをオンにすること!
        self.flip_aug: bool = False
        self.random_crop: bool = False  # 重要: cache_latents と衝突するので、どちらか一方だけをオンにすること!
        self.vae: Union[str, None] = None      #  特定のVAEを使わない場合、結果を悪化させるだけのようなので、おそらく使用しない方がよいでしょう。
        self.no_meta: bool = False             # safetensorsに保存されるメタデータが削除されます(これは残しておく必要があります)。
        self.log_dir: Union[str, None] = None  # ログ出力する。ほとんどの人にとって有益なものではありません。.
        self.bucket_reso_steps: Union[int, None] = None  # バケットを作るときに取られる手順で、任意のものにすることができます。
                                                         # 1以上の任意の正の値であることができます
        self.bucket_no_upscale: bool = False   # バケット内の画像のアップスケーリングを無効にする
        self.v2: bool = False                  # SD2.1のトレーニングを設定
        self.v_parameterization: bool = False  # v2も設定されており、768倍速版のv2を使用している場合のみ使用します

2. run_command_line.batを実行
3. 出来上がりを待つ

Linux(wslやクラウドGPUニキ)の場合

ポップアップ版を使う場合

source venv/bin/activate と入力
accelerate launch --num_cpu_threads_per_process 12 lora_train_popup.py と入力
ポップアップにパラメーターを入力する
出来上がりを待つ

コマンドライン版を使う場合

lora_train_command_line.py にパラメーターを書く
source venv/bin/activate と入力
accelerate launch --num_cpu_threads_per_process 12 lora_train_command_line.py　と入力
出来上がりを待つ

Lora作成手順の画像 (ポップアップ版) 参考程度 (2023-1-16時点)

クリックして展開アップデートなどで内容は変わる
わからんパラメータが出たらcancelを押しとけばデフォルト値が入る。抜けがあったらスレで質問よろ。

ターミナルとかパワーシェルにコマンドを打つか、run_popup.batから実行する

設定ファイルを読み込む? (前と同じ設定を使いたければ次でjsonファイルを読み込む)

学習元のモデルを選ぶ

学習用画像のフォルダを選ぶ

数字_名前フォルダが見えるように

出力先のフォルダを選ぶ

設定をjson形式で保存する?

正則化画像のあるフォルダを選ぶ使わないときは「いいえ」

数字_名前フォルダが見えるように

学習を再開する? (以前の続きをやるときはsafetensorファイルなどを次で読み込む)

バッチサイズ:一度に何枚処理するか VRAM12Gなら8くらいいける(解像度512に限る)で

何エポック学習させるか: 1エポックは繰り返し回数(フォルダの先頭の数字)×学習用画像の枚数ステップ

dimサイズ: ケモナーは128推奨

アルファ: dimサイズと同じがいいらしい。下げたら学習率に注意

学習の解像度: 512が速い, 768ならRTX3060やColabで10000ステップ4~5時間コース

学習率(Learning Rate): 1e-4 (= 0.0001)くらいで。alphaを1にした場合dimの分学習率が割られるらしいので上げ目にする 1e-3程度

スケジューラー: cosine_with_restarts で(よく分からんのでいじらない) 学習率を途中で上げ下げするやり方

エポック単位でセーブする?: 2エポック以上学習させるなら

キャプションをシャッフルする?: する

キャプションの最初のトークンを保持する?:

キャプションを付けた場合フォルダ名のインスタンスプロンプトが無効になる
のでキャプションファイルの先頭にインスタンスプロンプトを自分で書く必要がある。
作者のnoteによると「数値を指定するとキャプションの先頭から、指定した数だけのトークン（カンマ区切りの文字列）をシャッフルせず固定します。」
キャプションの先頭からカンマ区切りで判定されるので「zkz, 1girl, condom, ass, solo, black panties, one side up,」なら1でおk

warmup ratio 使う?: 学習の最初だけ学習率をあげる機能

学習の様子縦横の比率は自動で振り分けしてくれる

出来上がり

last.safetensors というファイルができる
追加学習するときはこのファイルを指定する

動画(2023-01-30) すぐにアプデで役に立たなくなるが一応
字幕がめんどいのでそのうちテキストで書く・・・とおもう
わからんパラメータはキャンセルでデフォルト値が入る

ポップアップの質問と答えの例

英文	訳	バッチファイルのデフォルト値	コメント
Do you want to load a json config file?	jsonファイルから前の設定読み込む?		1回設定セーブしとかないとダメ
Select your base model	学習元のモデルを選ぶ
Select your image folder	学習用画像のフォルダを選ぶ		数字が先頭についているフォルダの上
Select your output folder	(loraの)出力先のフォルダを選ぶ
Do you want to save a json of your configuration?	jsonファイルに設定を保存する?
How many workers do you want? ～		8	よくわからん
Do you want to use regularisation images?	正則化画像を使う?
Select your regularisation folder	正則化画像のフォルダを選ぶ		数字が先頭についているフォルダの上
Do you want to continue from an earlier version?	前回のつづきから学習する?		学習を中断した場合続きから再開できる
How large is your batch size going to be	バッチサイズをいくつにする?	1	VRAMに余裕があれば2～8
How many epochs do you want?	何エポック学習する?	1	多くすると学習回数が増える
What is the dim size you want to use?	loraのランク(network dim)をいくつにする?	128	数が多いほど表現力は増すが時間、メモリ、ファイルサイズも増える 4～128
What Alpha do you want?	alpha値をいくつにする?	network dimと同じ	alpha値を1にした場合学習率をあげたほうがいいらしい
How large of a resolution do you want to train at?	学習の解像度をいくつにする?	512	768や1024も指定できるがmax_bucket_resolutionも書き換え必要
What learning rate do you want to use?	学習率をいくつにする?	1e-4	alpha値を1にした場合1e-3くらいにあげたほうがいい
Do you want to set the text_encoder_lr?	テキストエンコーダの学習率を設定する?		参考値 5e-5
Do you want to set the unet_lr?	U-Netの学習率を設定する?		参考値 1e-3
Which scheduler do you want?	学習率のスケジューラーをどうする?	cosine_with_restarts	よくわからん"linear", "cosine", "cosine_with_restarts", "polynomial", "constant", "constant_with_warmup"
How many times do you want cosine to restart?		1	よくわからん
What power do you want to set your polynomial to?		1	よくわからん
do you want to save intermediate epochs?	途中のエポックでセーブする?
How often do you want to save epochs?	何エポックごとにセーブする?	1
Do you want to shuffle captions?	キャプションをシャッフルする?
Do you want to keep some tokens at the front of your captions?	キャプションの先頭からいくつをシャッフルしないで残す	1	手動でキャプションの先頭に単語を追加した場合その分を残す
Do you want to have a warmup ratio?	ウォームアップレシオを使う?		学習率を最初小さくする機能
What is the ratio of steps to use as warmup		0.05	学習率を最初からどれくらいのあいだ小さくしておくか 10%とか5%とか
	エポック毎に出力ファイルの名前を変える?
What do you want your output name to be?	出力ファイルの名前	省略時はオリジナルと一緒

Loraの使用方法

使い方その1 WebUIに拡張機能をインストールして使う

「拡張機能」タブの「URLからインストール」に https://github.com/kohya-ss/sd-webui-additional-ne... を入力してインストール )

stable-diffusion-webui\extensions\sd-webui-additional-networks\models\lora フォルダに出来上がった .pt や .safetensorsをコピーする
(Web UI の「設定」> 「Additional Nerwork」タブでフォルダの場所を追加出来る)
「txt2img」や「img2img」の画面の左下の方に「Additional Networks ▼」が追加されているので
Enable を押してmodelを選びmerge倍率をweightのスライダーで調整する

わからんとき用画像

使い方その2 WebUIの本体機能のみで使う

stable-diffusion-webui\models\lora に拾った .pt や .safetensorsをコピーする

「txt2img」や「img2img」の「生成」ボタンの下の花札みたいなマーク(🎴)を押すと
Texutual Inversion, Hypernetworks, Lora の3つのタブが出るので Lora を選択して
一覧から選ぶと <lora:ファイル名:倍率>みたいなタグがプロンプトに追加される
むかーしに作られたloraは動かんことがある

わからんとき用画像

WebUIや拡張機能の更新で調子悪くてもどっちかでは動くはず

注意点やで

基本的にLoraは元々「DreamBoothみたいに学習した差分ファイルをモデルにマージするための差分パッチみたいなもんとして使う」事が前提で作られとるから、今の個別適用は元々の設計と違う使い方なんや、なんで色々制限事項がある。
- Loraは原則「作ったモデルと同じ系統(SD-v1.x系 or SD-v2.x)」でしか適用できへんで。要するにAnyとかで作ったLoraはWD1.4以降とかには使われへんし、その逆もしかりや。
  - よく似た使い方するHyperNetworkは系統またいでも一応反映はされとるみたいやで？しらんけど。
- また、Loraを複数1倍で重ねて使うと絵が崩壊しやすくなる。適用したい階層が違う場合、階層適用出来るエクステンションとかでずらしたらええんとちゃうかなしらんけど。
- 先にも書いた通り基本的に差分パッチみたいなもんやからモデルごとに最適な倍率はちゃうかったりするで。あっちのモデルでは1倍でちょうどよかったんがこっちのモデルでは絵が崩壊するとかも普通にあるで。倍率は適度に変えや。
- 基本的に配布されとるんはkohya氏による拡張版Loraやけど元々の実装版のLoraもDreamBoothエクステンションとかで作れたりするから作った際にはごっちゃにせんようにな？
  - 拡張機能の方はkohya氏による拡張版Loraのみが対応や。本体機能の方は元々の実装版でも行けるんとちゃうかな？しらんけど。

このページを編集するこのページを元に新規ページを作成

印刷する

コメント（49）

カテゴリ：
漫画/アニメ
総合

Dreambooth-LoRA - NovelAI 5ch Wiki 先頭へ

このページへのコメント

GUIのを使ってるのですがことあるごとにterminal見るとtritonがねーよって言われるんです。
調べるとwindowsではtritonが使えない？と言われてて無くても動くし動作変わらないって聞いてますけどepoch間に5回連発で出るのは鬱陶しいので何とかなりませんか？

Posted by 名無し(ID:F11fIIjbFg) 2023年02月18日(土) 11:54:59 返信

BooruDatasetTagManagerってどうやって起動するんですか？
何か見落としてるのか解らんとです・・・

Posted by 名無し(ID:K/9oJCKdTQ) 2023年02月14日(火) 21:59:17 返信

LORAファイルを使いたいだけの者なのですが他の人も指摘してる通り狙い通りの出力結果が反映されてないことが多々あります

また効きが良いモデルと一切効かないモデルの差が激しいのですがこれは何が原因なのでしょうか…

Posted by 名無し(ID:+Mv9060y6w) 2023年02月11日(土) 13:23:07 返信数(3) 返信

プロンプトをよそから持ってくる(
[PNG内の情報を表示] [Images] からtxt2imgに送る) と
Addtional Networks や loraの<lora:~~~:1> の設定が上書きされるんで
もう一回 Additional Networks とプロンプトの設定をやり直すとええで多分

Posted by 名無し(ID:vVV3mXyfXQ) 2023年02月11日(土) 16:18:01

少し前のWebUIのバージョンで、LoRAによってはログの方に↓
activating extra network lora with arguments [<modules.extra_networks.ExtraNetworkParams object at ***>]: ValueError
とか出てて、表向き画像は出力できているが、LoRAは全く効いていない？パターンはあった

あと、本頁「使い方その2」ならトリガープロンプト入れ忘れとか？ぱっと思いつくのは

Posted by 名無し(ID:PqDrbk/pJw) 2023年02月11日(土) 17:22:05

アドバイスありがとうございます
トリガープロンプトを入れても反応しないことがあるのですがとりあえずプロンプトの設定からやり直してみます

あとはwebUIを長いことアプデしてないことに気づいたのでたぶんそれも原因にありそうです

Posted by 名無し(ID:+Mv9060y6w) 2023年02月12日(日) 14:02:25

インストールだけでクソ長だからページ分ける?

Posted by 名無し(ID:vVV3mXyfXQ) 2023年02月10日(金) 23:36:43 返信

めちゃめちゃ苦労したので
自分がエラー対応してたらうまくいったやつを書いておきます。

windows power shellでの下記の部分でエラーが出ました。
cp .\bitsandbytes_windows\*.dll .\venv\Lib\site-packages\bitsandbytes\
cp .\bitsandbytes_windows\cextension.py .\venv\Lib\site-packages\bitsandbytes\cextension.py
cp .\bitsandbytes_windows\main.py .\venv\Lib\site-packages\bitsandbytes\cuda_setup\main.py

accelerate config
cp～の以下の3つはフォルダが自動作成されていない？ようだったので、手動でフォルダ作成することで動きました。
ただ、手動作成した場合は最後の
accelerate configでエラーとなり対処できず。
調べても見当たらないので困ったんですが、
一度sd-scriptsフォルダ削除して再度最初から実施し（特に最初からやらなくていいかもです）
pip～から始まる3つを実施後（cp～をやる前）下記をコピペ
【pip install accelerate】
これをやったうえでcp以下を進めたらエラーが出ませんでした。

他にもいろいろ同時にやってましたので、これで治るかは不明ですが、参考になれば…。
（正直なぜ治ったのかわかりません）

あとしょぼいところですが、
lora_train_command_line.pyは右クリックからedit with IDLEで編集で書き換えられます。

Posted by 名無し(ID:sSd/+hypSQ) 2023年02月10日(金) 18:54:12 返信数(1) 返信

さっきなぜか同じ現象が起きて全く同じ対処法を試してた
あと3時間早く知ってたら・・・
自分の場合上記の方法では解決せず、一回全部消して別のドライブで試したら解決できました

Posted by 名無し(ID:/fKkY1Juqw) 2023年02月10日(金) 19:25:33

コメントをかく

名前	ユーザIDを使用しないで書き込む	ユーザーIDを使う	ログインする
備考	「http://」を含む投稿は禁止されています。
本文
利用規約をご確認のうえご記入下さい

NovelAI 5ch Wiki

概要

公式情報

sd-scripts (kohya)

参考資料・スレ住民による学習ガイド

他人の作ったモデルを使いたい。

インストール、初回セットアップ編

1.LoRA_Easy_Training_Scripts Installers

2.あかちゃんLoraインストーラー

3.GUI

4.その他補助スクリプト

学習用画像を置くフォルダの配置

キャプション・タグを付ける

WD1.4 Taggerで作成

キャプション・タグの編集

キャプションの付け方・考え方の参考サイト

そもそも学習用画像ってどうやって加工するの

正則化画像

透明のpngを正則化画像にする

学習の手順

Windowsの場合

ポップアップ版を使う場合

コマンドライン版を使う場合

Linux(wslやクラウドGPUニキ)の場合

ポップアップ版を使う場合

コマンドライン版を使う場合

Lora作成手順の画像 (ポップアップ版) 参考程度 (2023-1-16時点)

ターミナルとかパワーシェルにコマンドを打つか、run_popup.batから実行する

設定ファイルを読み込む? (前と同じ設定を使いたければ次でjsonファイルを読み込む)

学習元のモデルを選ぶ

学習用画像のフォルダを選ぶ

出力先のフォルダを選ぶ

設定をjson形式で保存する?

正則化画像のあるフォルダを選ぶ 使わないときは「いいえ」

学習を再開する? (以前の続きをやるときはsafetensorファイルなどを次で読み込む)

バッチサイズ:一度に何枚処理するか VRAM12Gなら8くらいいける(解像度512に限る)で

何エポック学習させるか: 1エポックは 繰り返し回数(フォルダの先頭の数字)×学習用画像の枚数 ステップ

dimサイズ: ケモナーは128推奨

アルファ: dimサイズと同じがいいらしい。下げたら学習率に注意

学習の解像度: 512が速い, 768ならRTX3060やColabで10000ステップ4~5時間コース

学習率(Learning Rate): 1e-4 (= 0.0001)くらいで。alphaを1にした場合dimの分学習率が割られるらしいので上げ目にする 1e-3程度

スケジューラー: cosine_with_restarts で(よく分からんのでいじらない) 学習率を途中で上げ下げするやり方

エポック単位でセーブする?: 2エポック以上学習させるなら

キャプションをシャッフルする?: する

キャプションの最初のトークンを保持する?:

warmup ratio 使う?: 学習の最初だけ学習率をあげる機能

学習の様子 縦横の比率は自動で振り分けしてくれる

出来上がり

Loraの使用方法

使い方その1 WebUIに拡張機能をインストールして使う

使い方その2 WebUIの本体機能のみで使う

注意点やで

このページへのコメント

コメントをかく

Menu

はじめに

技術解説・ツール紹介

プロンプトテクニック

部活動

Prompts

R18系Prompts

ローカル部

なんJnovelAI部過去ログ

Wiki

最近更新されたスレッド

2023-02-18

2023-02-10

2023-02-09

2023-01-15

最近更新したページ

2023-02-18

2023-02-17

2023-02-16

最新コメント

2023-02-18

2023-02-17

QRコード

table拡張js

アクセス解析中

正則化画像のあるフォルダを選ぶ使わないときは「いいえ」

何エポック学習させるか: 1エポックは繰り返し回数(フォルダの先頭の数字)×学習用画像の枚数ステップ

学習の様子縦横の比率は自動で振り分けしてくれる