Stable Diffusionによる画像生成をGoogle Colabでやってみる

1.はじめに

　ディープラーニングによる文による画像生成技術が一般化するフェーズに入りました。

　今年４月にOpenAIはDALL-E2が驚異的な画像生成能力を実現したとアナウンスしましたが、テスト版を試せる人はかなり限られていました。そうした中、Midjourney研究所が7月からMidjourney（ミッドジャーニー）というサブスク・サービスを開始したことが火付け役となって現在世間の注目を集めています。

　そして、昨日（8/23）イギリスのスタートアップ企業Stability AIがMidjourneyよりレベルアップを図ったStable Diffusionを無料公開しました。今回は、この無料公開されたものをGoogle Colabで実際に動かしてみます。

2.アクセス・トークンの取得

　文による画像生成技術に必要な学習済みパラメータは数Gバイトと巨大なため、配布にはそれなりのサーバーが必要です。今回、そのサーバーはディープラーニングコミュニティHugging Faceが使用しているサーバーを流用します。そのため、Hugging Faceにアカウントを作り、使用申請し、アクセス・トークンというダウンロードするときに使用するパスワードを取得します。

　まず、Hugging Face のアカウントを作成する必要があります。このリンクでホームページに飛び、「Sign UP」をクリックして所定の内容を記入し、返信メールのリンクをクリックして、アカウントを作成します。

　次に、今回使用するModel card（学習済みパラーメータをこう呼んでいます）の使用申請をします。このリンクをクリックして表示されたページの「I have read the Licence and agree with its terms」のチェックボックスにチェックを入れ、「Access repository」をクリックします。

　そして、Model cardへアクセスするためのAccess Tokenを取得します。このリンクをクリックして表示されたページで「New token」をクリックします。この後、Nameを入力しますが、適当な名前でOKです。

　最終的に下記のようにAccess Token が取得できます。赤枠のところをクリックすると、Access Tokenがコピーされます。これを次のコードを動かすときに使用します。

3.コード

　コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Colab on Web」ボタンをクリックすると動かせます。

　まず、セットアップを最初に１回だけ行います。Access_Tokenに先程取得したものをコピーし、実行します。

#@title セットアップ

# ライブラリのインストール
!pip install diffusers==0.8.0 transformers scipy ftfy

# アクセス・トークン設定
Access_Token="*************************"#@param {type:"string"}

# パイプライン構築
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", use_auth_token=Access_Token)
pipe.to("cuda")

#@title セットアップ

# ライブラリのインストール

!pip install diffusers==0.8.0 transformers scipy ftfy

# アクセス・トークン設定

Access_Token="*************************"#@param {type:"string"}

# パイプライン構築

from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", use_auth_token=Access_Token)

pipe.to("cuda")

　それでは、文から画像生成してみましょう。promptに英文を記入し、画像を生成します。ここでは、「An astronaut riding a horse in a photorealistic style」と入力し、実行します。

　生成した画像は、An_astronaut_riding_a_horse_in_a_photorealistic_style.pngというファイル名で保存されます。

#@title 画像生成

# 生成
prompt = "An astronaut riding a horse in a photorealistic style" #@param {type:"string"}
image = pipe(prompt)["images"][0]

# 保存
sentence = prompt.replace(' ','_')
out_path = sentence+'.png'
image.save(out_path)

# 表示
from IPython.display import Image,display
display(Image(out_path))

#@title 画像生成

# 生成

prompt = "An astronaut riding a horse in a photorealistic style" #@param {type:"string"}

image = pipe(prompt)["images"][0]

# 保存

sentence = prompt.replace(' ','_')

out_path = sentence+'.png'

image.save(out_path)

# 表示

from IPython.display import Image,display

display(Image(out_path))

　下記を実行すると作成した画像がダウンロードされます（Google Chrome専用です）。

#@title 画像のダウンロード
from google.colab import files
files.download(out_path)

#@title 画像のダウンロード

from google.colab import files

files.download(out_path)

　いやー、凄い勢いでディープラーニング技術が一般化して行きます！これは面白い時代になりましたね。

　では、また。

リンク

とりあえずどんなものか動かしてみたい場合は、下記もどうぞ

Dream Studio： https://beta.dreamstudio.ai/dream

Hugging Face： https://huggingface.co/spaces/stabilityai/stable-diffusion

Stable Diffusionによる画像生成をGoogle Colabでやってみる

1.はじめに

2.アクセス・トークンの取得

3.コード

リンク

コメントを残すコメントをキャンセル

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

One Shot Talking Face を使って音声で顔画像を動かす

wav2lip-HQで、高品質のリップシンクを行う

DifFaceで、低画質な顔画像を高画質化する

E2Poseで複数人の姿勢推定を高速に行う

最近の投稿

最近のコメント

アーカイブ

カテゴリー

メタ情報

1.はじめに

2.アクセス・トークンの取得

3.コード

リンク

コメントを残す コメントをキャンセル

RECOMMENDこちらの記事も人気です。

VIBEで、人の動画から3Dモデルを推定する

SwapAEによる顔画像のアニメ化

HR-VITONで、高解像度の仮想試着を実現する

CLIPassoで、抽象的なスケッチを描く

SONY Neural Network Console でミニ VGGn…

PULSEで低解像度の顔画像を高解像度に変換する

NNabla DCGAN 顔画像のモーフィングをやってみる

Keras MLP を改造して定番パターンを勉強する２

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

One Shot Talking Face を使って音声で顔画像を動かす

wav2lip-HQで、高品質のリップシンクを行う

DifFaceで、低画質な顔画像を高画質化する

E2Poseで複数人の姿勢推定を高速に行う

最近の投稿

最近のコメント

アーカイブ

カテゴリー

メタ情報

コメントを残すコメントをキャンセル