WD 1.5 ベータ版 - リリースノート
Get Notion free

WD 1.5 ベータ版 - リリースノート

WD 1.5 ベータ版はstable-diffusion-2-1(768)から直接、v-predictionと可変アスペクトバケット(最大ピクセル面積896x896)を使って実写とアニメ画像を微調整しています。WD 1.5 バージョンでは幅広い概念を含めて学習させています。今後、微調整、LoRAの作成やその他のエンベディの作成を行うことでさらに良くなるかと思われます。
これはモデルのベータ版リリースです。今後、モデルを改良していくことに善処します。様々なスタイルやコンセプトを扱うことができるモデルの開発には、かなりの時間と計算資源が必要です。

使用方法

このモデルはSD2.1からの大規模な微調整を経ているため、使い慣れたモデルとは異なるレスポンスを生成する可能性があります。WD 1.5 バージョンを最適にお使いいただくために、時間をかけて慣れてみてください。

概略

ポジティブプロンプトの例(アニメ):
1girl, aqua eyes, baseball cap, blonde hair, closed mouth, earrings, green background, hat, hoop earrings, jewelry, looking at viewer, shirt, short hair, simple background, solo, upper body, yellow shirt, (waifu, anime, exceptional, best aesthetic, new, newest, best quality, masterpiece, extremely detailed:1.2)
1少女, 水色の目, 野球帽, ブロンド髪, 閉じた口, イヤリング, 緑色の背景, 帽子, フープイヤリング, 宝石, 視線, シャツ, 短髪, シンプルな背景, ソロ, 上半身, 黄色いシャツ, (ワイフ, アニメ, 例外的, 最高の美学, 新しい, 最新, 最高の品質, 傑作, 極めて詳細:1.2)
ポジティブプロンプトの例(実写):
beautiful, maid outfit, 1girl, detailed hair, portrait, simple background, a girl with long hair and cherry blossoms, (waifu, realistic, real life, exceptional, best aesthetic, new, newest, best quality, masterpiece:1.2)
美しい、メイド服、1少女、細かい髪、ポートレート、シンプルな背景、長い髪の女の子と桜の花。 (ワイフ, リアル, 現実, 例外, 最高の美学, 新, 最新, 最高品質, マスターピース:1.2)
ネガティブプロンプトの例:
((bad hands)), ((mutated hands and fingers)), ((bad feet)), lowres, text, blurry, (ugly), logo, cropped, worst quality, jpeg, ((jpeg artifacts)), deleted, old, oldest, ((censored)), ((bad aesthetic)), (mosaic censoring, bar censor, blur censor), twitter username, watermark, low quality
((悪い手)), ((突然変異の手と指)), ((悪い足)), 低解像度, テキスト, ぼやけた, (醜い), ロゴ, 切り抜き, 最悪品質, JPEG, ((JPEGアーティファクト)), 削除済み, 古い, 最も古い, ((検閲)), (悪い美的感覚)), (モザイク検閲, バー検閲, ぼかし検閲), twitter ユーザー名, 透かし, 低画質
以下のページで、その他の多くの事例をご覧いただけます。
WD 1.5 ベータ版 - 例

補助エンベッディング

アニメ風画像の生成品質を向上させるためのエンベッディングを開発しました。
Stable Diffusion WebUIをお使いの方は、これらのファイルをembeddingsフォルダにダウンロードしてご利用ください。
Embedding Files
wdgoodprompt.bin
40.9KB
wdbadprompt.pt
48.9KB
使用方法
Embeddingを用いたポジティブプロンプトの例:
wdgoodprompt, (symmetric), (exceptional, best aesthetic, new, newest, best quality, masterpiece, extremely detailed, anime:1.2)
wdgoodprompt, (対称), (例外的、最高の美的感覚、新しい、最新、最高の品質、傑作、非常に詳細な、アニメ:1.2)。
Embeddingを用いたネガティブプロンプトの例:
lowres, ((bad anatomy)), ((bad hands)), text, missing finger, extra digits, fewer digits, blurry, ((mutated hands and fingers)), (poorly drawn face), ((mutation)), ((deformed face)), (ugly), ((bad proportions)), ((extra limbs)), extra face, (double head), (extra head), ((extra feet)), monster, logo, cropped, worst quality, jpeg, humpbacked, long body, long neck, ((jpeg artifacts)), deleted, old, oldest, ((censored)), ((bad aesthetic)), (mosaic censoring, bar censor, blur censor), NSFW, wdbadprompt
低解像度, ((悪い解剖学)), ((悪い手)), テキスト, 指がない, 余分な指, 少ない指, ボケ, ((突然変異の手と指)), (下手な顔), (突然変異), ((変形顔)), (醜い), (悪い比率), といった感じでしょうか。((余分な手足)), 余分な顔, (二頭身), (余分な頭), ((余分な足)), モンスター, ロゴ, 切り抜き, 最悪品質, JPEG, ひょろ長い, 長い体、長い首、 (JPEGアーティファクト), 削除、古い、最古、(( 検閲された), ((悪い美的感覚)), (モザイク検閲、バー検閲、ブラー検閲), NSFW, wdbadprompt

詳細

このモデルは自然言語とbooruタグの両方でプロンプトで使うことができます。
BLIP/BLIP2 と WD Tagger を使用して、すべての画像にbooruタグと自然言語キャプションを提供しました。
日付に基づいた特定のスタイルに誘導するために、各画像のテキストデータに年代タグを組み込んでいます。年代タグは、入手元のサイトに各画像が投稿された日に基づいて計算されています。
日付範囲
タグ
和訳
1995年~2010年
oldest
最も古い
2010年~2015年
old
古い
2015年~2020年
new
新しい
2020年以降
newest
最新
より人間に喜ばれる高い審美性(アーティスティックスタイル)へと生成を誘導するために、各画像のテキストデータに審美数値を組み込んでいます。審美数値は、 CLIP+MLP Aesthetic Score Predictor に基づいています。
点数
タグ
和訳
≥ 6.675
exceptional
特上に高い審美性
≥ 6
best aesthetic
最高の審美性
≥ 5
normal aesthetic
普通の審美性
< 5
bad aesthetic
最低の審美性
Booruサイトでは、画像にユーザー評価をつけている場合があります。この場合、該当する画像のテキストデータには、画質タグが組み込まれています。
点数
タグ
和訳
≥ 150
masterpiece
名作
≥ 100
best quality
最高品質
≥ 75
high quality
高画質
≥ 25
medium quality
中画質
≥ 0
normal quality
一般定な画質
< 0
low quality
低品質
≤ -5
worst quality
最悪の品質
テキストデータには追加のタグが組み込まれています。以下で確認することができます。
タグ
和訳
概要
deleted
削除済み
Booruサイト上で削除済みとマークされた画像。
waifu
ワイフ
「waifu」のコンセプトを体現する、現実の女性やアニメの女性を描いた画像。
real life
実写
実在するような被写体を描いた画像。
anime
アニメ
アニメのような画像。
instagram
インスタグラム
インスタグラムのような画像。

制限とバイアス

このモデルはベータ版であり、さらなるトレーニングが必要であることにご注意ください。場合によっては、足や手が正確に生成されないことがあります。このモデルは、今後のリリースでこれらの制限に対処することが予定されています。
このモデルは主に日本や他のアジアの資料に基づいています。WDのバージョンアップが行われない場合、アジア圏以外の生成では最適なパフォーマンスを発揮しない可能性があります。
限られたトレーニングのため、キャラクターやシリーズなどのコンセプトがモデルの出力に正確に反映されない場合があることをご了承ください。
まれにアニメの出力に現実の被写体が含まれる場合やその逆が発生する場合があります。そのような場合は、プロンプトの重みを調整することで望ましい結果が得られる可能性があります。このようなケースは、今後のバージョンアップによって改善されていくと考えています。

学習

学習データのソース
各種Booruサイト
Instagram
モデル、インフルエンサー、女優など
主に日本人です。アジア圏のアカウントも一部含まれます。(中国や韓国など)
グラビア・コスプレ画像
データベース画像数(2023/2/12):15,018,997
学習の手順
リアルな表現とアニメ的な表現の両方を含む総合的なデータベースを構築しました。このデータベースは、MongoDBとGridFSの技術を利用して構築されています。
MongoDBのReplica Set機能を利用し、複数の地域にまたがるサーバーを作成しました。(4台、各約13TB)
データ量が多いため、1台をZFSのRAID-0に相当する構成にし、Samsung 870 QVO 8TBのSSDを3台搭載して、データの前処理速度を向上させるように特に最適化しました。残りの3台では、データの一貫性と安全性を保証するために、ZFS相当のRAID-6を採用しています。
各画像は、以下のもので解析されました。
カフェ審美数値プログラム (https://huggingface.co/cafeai/cafe_aesthetic)
BLIP2処理は進行中です。まだ完了していません。
最終的な学習データセットは、Cafe Aesthetic Scoreが0.65以上である画像のみを選択して作成されました。WD 1.5 ベータ版では、最終的な学習データセットの画像数は約850万枚です。
WDの今後のリリースでは、画像数を増やす予定です。
最終的な学習データセットはWD VAE (https://huggingface.co/hakurei/waifu-diffusion-v1-4/blob/main/vae/kl-f8-anime2.ckpt) を用いてそれぞれのlatent表現に変換されました。
効率化を図るため、MongoDBの自動ロードバランシング機能により、複数のシステムにデータベースを分散して、latentデータと関連するメタデータをインターネット経由でSD学習プログラムにストリーミングしました。
微調整は、A40を8台搭載した1台のサーバーで行いました。

環境負荷について

Lacoste et al. (2019)で紹介されている Machine Learning Impact calculator に基づき、WD 1.5 ベータ版の環境負荷はおよそ次の通りである。
ハードウェアの種類:A40
使用時間:約5400時間
排出される二酸化炭素の概算:680.4 kg
これらの数値は、データの前処理に費やしたGPUの時間は含まれていません。あくまで全ての学習時間のみを算出しました。

ライセンス

WD 1.5は、Fair AI Public License 1.0-SD (https://freedevproject.org/faipl-1.0-sd/)というライセンスでリリースされたソフトウェアです。このモデルの派生物を作成する場合は、ファイルを共有してください。