[DreamBooth] Stable Diffusionを追加学習して独自のモデルを作成 [無料Colab]

2022年10月5日水曜日 2023年05月18日

本記事では、DreamBoothと呼ばれる機械学習手法を用いて事前学習済みStable Diffusionを追加学習する方法をご紹介します。

Dream Booth

概要

Dreamboothは、Text to Imageタスクを実現する拡散モデルの追加学習手法です。

Dreamboothでは、まず、事前に学習されたText to Imageの拡散モデルに数枚の特定の被写体が写る画像と、識別子となるプロンプトを与え、追加学習させます。

追加学習されたモデルは、識別子を用いた様々なプロンプトに応じて画像を生成することが可能となります。

上図では、いらすとや様の男の子の画像を数枚追加学習させ、「自転車に乗る男の子」をモデルに出力してもらった結果を示しています。

追加学習させたモデルでは、識別子「男の子」を与えると、いらすとや様の男の子風の画像を生成することが可能になっています。

このように、数枚の画像を追加学習させることにより、モデルをカスタマイズすることが可能になります。

詳細はこちらの論文をご参照ください。

本記事では上記手法を用いて、Stable Diffusionの事前学習済みモデルを追加学習していきます。

デモ(Colaboratory)

それでは、実際に動かしながらStable Diffusionの追加学習を行っていきます。
本記事にはソースコードの要点を記載しています。全文は下記のGitHubをご参照下さい。
GitHub - Colaboratory demo

また、下記から直接Google Colaboratoryで開くこともできます。

なお、このデモはPythonで実装しています。
Pythonの実装に不安がある方、Pythonを使った機械学習について詳しく勉強したい方は、以下の書籍やオンライン講座などがおすすめです。

おすすめの書籍

おすすめのオンライン講座

環境セットアップ

それではセットアップしていきますが、Hugging FaceのAccess Tokenは取得済みであるという前提のもと進めていきます。
Access Tokenの取得がまだの方は以下の記事をご参照ください。

Access Tokenの取得後、Colaboratoryを開き、下記を設定しGPUを使用するようにしてください。

「ランタイムのタイプを変更」→「ハードウェアアクセラレータ」をGPUに変更

はじめに、ライブラリをインストールします。

!pip install -qq git+https://github.com/huggingface/diffusers.git accelerate tensorboard transformers ftfy gradio
!pip install -qq "ipywidgets>=7,<8"
!pip install -qq bitsandbytes

次に、Hugging Faceへのログインを済ませておきます。
以下のセルを実行後表示されるプロンプトに取得したAccessTokenを入力します。

from huggingface_hub import notebook_login
!git config --global credential.helper store
 
notebook_login()

最後にライブラリをインポートします。

import argparse
import itertools
import math
import os
from contextlib import nullcontext
import random
 
import numpy as np
import torch
import torch.nn.functional as F
import torch.utils.checkpoint
from torch.utils.data import Dataset
 
import PIL
from accelerate import Accelerator
from accelerate.logging import get_logger
from accelerate.utils import set_seed
from diffusers import AutoencoderKL, DDPMScheduler, PNDMScheduler, StableDiffusionPipeline, UNet2DConditionModel
from diffusers.optimization import get_scheduler
from diffusers.pipelines.stable_diffusion import StableDiffusionSafetyChecker
from PIL import Image
from torchvision import transforms
from tqdm.auto import tqdm
from transformers import CLIPFeatureExtractor, CLIPTextModel, CLIPTokenizer
 
import bitsandbytes as bnb

以上で環境セットアップは完了です。

学習済みモデルのセットアップ、追加学習画像の設定

ここでは、追加学習に用いるベースとなるモデルを設定します。

今回はStable diffusionを使用します。

pretrained_model_name_or_path = "CompVis/stable-diffusion-v1-4" #@param {type:"string"}

続いて、追加学習させる画像を指定します。

ここでは、いらすとや様の男の子の画像を5枚使用します。

urls = [
    'https://1.bp.blogspot.com/-JLT7FAbMiF4/X3hGHAgEHjI/AAAAAAABboc/OWpiTz5HLHg9A1b5tK7RVz1orj2H0XKvwCNcBGAsYHQ/s250/penlight_man01_blue.png',
    'https://1.bp.blogspot.com/-qrkLCElBrZU/X3hGIGBcv0I/AAAAAAABbos/uumBDo0U7TgnTwvhbqMWEWSlqeA3kuNVACNcBGAsYHQ/s250/penlight_man05_orange.png',
    'https://1.bp.blogspot.com/-TPcG8H-94Q8/XAnwX_0l2FI/AAAAAAABQw4/wJI0CD-SxO4UWBm8YVegxlls031mKKqzgCLcBGAs/s330/stand_naname1_boy.png',
    'https://4.bp.blogspot.com/-ld3QWamGpWI/XAnwYQ4RPeI/AAAAAAABQw8/AcQhuWaS_CAFHfINOJDm3wxmFG57AhmFgCLcBGAs/s380/stand_naname2_school_boy.png',
    'https://1.bp.blogspot.com/-LgVrdZ34XRM/XAnwY68nMrI/AAAAAAABQxA/P71YbDy3z3YCWiX9rLRsPQPw0iUzevxGwCLcBGAs/s400/stand_naname3_man.png',
    'https://1.bp.blogspot.com/-598mkkGFaD8/XAnwZDh48DI/AAAAAAABQxE/y-rIs9aaPQMVaYIuM_LaY2Q1HJojNIT0wCLcBGAs/s400/stand_naname4_businessman.png'
          ]

識別子の設定

ここでは、学習させる被写体の識別子を定義します。

追加学習させた識別子であることを示す"sks"+オブジェクト名でプロンプトを指定します。
今回はan illustration of sks boyを指定します。

# オブジェクト、画風の説明
instance_prompt = "an illustration of sks boy" #@param {type:"string"}
 
# コンセプトクラスの指定、画質が向上
prior_preservation = False #@param {type:"boolean"}
prior_preservation_class_prompt = " an illustration of a boy" #@param {type:"string"}
 
num_class_images = 12 
sample_batch_size = 2
prior_loss_weight = 0.5
prior_preservation_class_folder = "./class_images"
class_data_root=prior_preservation_class_folder
class_prompt=prior_preservation_class_prompt

あとは残りのセルをすべて実行することでトレーニング始まります。
無料のGoogle Colaboratory環境(Tesla T4)で約30分ほどで完了します。

追加学習モデルによるText to Image

それでは、追加学習させたモデルで様々な画像を生成していきます。

pipe = StableDiffusionPipeline.from_pretrained(
        args.output_dir,
        torch_dtype=torch.float16,
    ).to("cuda")
 
from torch import autocast
prompt = "an real illustration of sks boy swimming sea" #@param {type:"string"}
 
num_samples = 1 #@param {type:"number"}
num_rows = 1 #@param {type:"number"}
 
all_images = [] 
for _ in range(num_rows):
    with autocast("cuda"):
        images = pipe([prompt] * num_samples, num_inference_steps=50, guidance_scale=7.5).images
        all_images.extend(images)
 
grid = image_grid(all_images, num_samples, num_rows)
grid

プロンプトan real illustration of sks boy swimming seaの出力結果は以下の通りです。

an illustration of sks boy eating hamburgerは以下の通りです。

いらすとや様の男の子の画風を継承した様々な画像が生成されています。

まとめ

本記事では、DreamBoothを用いたStable Diffusionの追加学習方法をご紹介しました。

高い表現力を誇るStable Diffusionを使って特定のオブジェクトに特化した画像が生成できるので求める画像が生成しやすくなります。
一方で、悪用厳禁であることは言うまでもありません。

また本記事では、機械学習を動かすことにフォーカスしてご紹介しました。
もう少し学術的に体系立てて学びたいという方には以下の書籍などがお勧めです。ぜひご一読下さい。

ゼロから作るDeep Learning Pythonで学ぶディープラーニングの理論と実装 / 斎藤康毅

Amazonで見る楽天市場で見る

PythonとKerasによるディープラーニング [ Francois Chollet ]

Amazonで見る楽天市場で見る

また動かせるだけから理解して応用できるエンジニアの足掛かりに下記のUdemyなどもお勧めです。

参考文献

1. 論文 - DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

2. GitHub - XavierXiao/Dreambooth-Stable-Diffusion

3. GitHub - XavierXiao/Dreambooth-Stable-Diffusion

[DMVFN] AIで動画の次のフレームを予測する [Video Prediction]

[AMT] AIで2つのフレーム画像の中間画像を生成する

[StyleGAN] AIでユーザー操作に応じて画像を編集する [UserControllableLT]

AIで芸術的なQR Codeを生成する

[Stable DreamFusion] AIでテキストから3Dデータを生成する [Text to 3D]

[SadTalker] AIで画像をしゃべらせる [リップシンク]

24 件のコメント :

G2022年10月21日 18:53
text_encoder = CLIPTextModel.from_pretrained()　あたりで、リクエストエラーになるみたいで、HTTPError Traceback (most recent call last)
/usr/local/lib/python3.7/dist-packages/huggingface_hub/utils/_errors.py in hf_raise_for_status(response, endpoint_name)　先に進めません。なにか、設定ミスしているか、アクセストークン関係のなにかを間違えてしまったからでしょうか。
返信削除
返信
12 Kaz2022年10月22日 22:12
OSErrorでなくHTTPErrorのためHuggingFaceのログインは完了しているが、Stable-diffusion-v1-4の条項に同意していない状態だと考えられます。

https://huggingface.co/CompVis/stable-diffusion-v1-4
上記リンクにアクセスし、 I have read the License and agree with its termsにチェックした後に、Agree and access repositoryにクリックする必要があります。
返信削除
返信
匿名2022年11月4日 0:21
>あとは残りのセルをすべて実行することでトレーニング始まります。
残りのセルとはどこの、何のことでしょうか？
返信削除
返信
12 Kaz2022年11月4日 22:26
https://colab.research.google.com/github/kaz12tech/ai_demos/blob/master/Dreambooth_demo.ipynbに記載の「Advanced settings for prior preservation (optional)」以降のセルです。
Google Colabの「ランタイム」→「以降のセルを実行」から実行ください。
返信削除
返信
kaede2022年11月23日 1:19
はじめまして。
こちらの方法で追加学習させたモデルを、google driveにダウンロードする方法はありますか。
返信削除
返信
匿名2022年12月5日 23:55
ImportError Traceback (most recent call last)
in
17 from accelerate.utils import set_seed
18 from diffusers import AutoencoderKL, DDPMScheduler, PNDMScheduler, StableDiffusionPipeline, UNet2DConditionModel
---> 19 from diffusers.hub_utils import init_git_repo, push_to_hub
20 from diffusers.optimization import get_scheduler
21 from diffusers.pipelines.stable_diffusion import StableDiffusionSafetyChecker

ImportError: cannot import name 'init_git_repo' from 'diffusers.hub_utils' (/usr/local/lib/python3.8/dist-packages/diffusers/hub_utils.py)

---------------------------------------------------------------------------
NOTE: If your import is failing due to a missing package, you can
manually install dependencies using either !pip or !apt.

To view examples of installing some

ライブラリをインポートする際にこういったエラーが出ます。
何か解決策は御座いますか。
返信削除
返信
匿名2023年1月6日 4:59
保存したモデルを使って再度イラストを出力するにはどうすればよいでしょうか？
返信削除
返信
匿名2023年1月10日 20:47
書き込み失礼致します。
こちらのGoogleclabを使用させて頂いてGoogledriveにモデルを保存したのですが、stable diffusion に適用されるckptファイルはなくjsonファイルがありました。再度イラストを生成する時にこのファイルをどう使ったら良いか教えて頂けると大変有り難いのですが、お願い出来ますでしょうか？無知で申し訳ないです。
返信削除
返信
大塚2023年1月26日 19:45
恐れ入ります。
トレーニングセルを実行する際短時間で完了できたのですが、stabble defusionのデフォルト画像しか出力されなくなりました。
改善して頂いたのに申し訳ございません。
返信削除
返信
kyon2023年3月29日 13:06
初めまして。質問失礼します。
学習済みモデル、追加学習画像のセットアップの項目で、画像のURLを貼った後、画像のImport requestを実行した所でエラーが出ます。

import requests
import glob
from io import BytesIO

def download_image(url):
try:
response = requests.get(url)
except:
return None
return Image.open(BytesIO(response.content)).convert("RGB")

images = list(filter(None,[download_image(url) for url in urls]))
save_path = "./my_concept"
if not os.path.exists(save_path):
os.mkdir(save_path)

[image.save(f"{save_path}/{i}.jpeg") for i, image in enumerate(images)]
image_grid(images, 1, len(images))

エラー内容
in :18
NameError: name 'image_grid' is not defined

原因と解決法がもし分かればご教示頂けないでしょうか。
返信削除
返信
匿名2023年5月9日 1:01
お世話になっております。

こちらのページの内容を順番に実行しており、
「追加学習モデルによるText to Image」まで進みましたが、
「"NameError: name 'args' is not defined"」というエラーが発生し、うまくいかないです。

コメント欄にも同じ人がいて、回答もついているのですが、理解できず…💦

お手数をおかけしますが、解消方法について回答をお願いいたします。
返信削除
返信

[DreamBooth] Stable Diffusionを追加学習して独自のモデルを作成 [無料Colab]

Dream Booth

概要

デモ(Colaboratory)

環境セットアップ

学習済みモデルのセットアップ、追加学習画像の設定

識別子の設定

追加学習モデルによるText to Image

まとめ

参考文献

24 件のコメント :

AIで副業ならココから!

まずは無料会員登録

プロフィール

注目の投稿

[初心者向け] 機械学習がゼロから分かるおすすめオンライン講座

人気の投稿

カテゴリ

このブログを検索

ブログアーカイブ

注目の投稿

[初心者向け] Pythonで機械学習を始めるまでに読んだおすすめ書籍一覧

このブログについて

TeDokology

連絡フォーム

このブログについて

[DreamBooth] Stable Diffusionを追加学習して独自のモデルを作成 [無料Colab]

Dream Booth

概要

デモ(Colaboratory)

環境セットアップ

学習済みモデルのセットアップ、追加学習画像の設定

識別子の設定

追加学習モデルによるText to Image

まとめ

参考文献

24 件のコメント :

AIで副業ならココから!

まずは無料会員登録

プロフィール

注目の投稿

[初心者向け] 機械学習がゼロから分かるおすすめオンライン講座

人気の投稿

カテゴリ

このブログを検索

ブログ アーカイブ

注目の投稿

[初心者向け] Pythonで機械学習を始めるまでに読んだおすすめ書籍一覧

このブログについて

TeDokology

連絡フォーム

このブログについて

ブログアーカイブ