生成AI忘備録

かたらぎ

2024年4月5日 02:27

画像生成AI

各環境の比較

stableDiffusion WebUI forge版(イージーインストーラー)

Animagine XL 3.0の無料生成スペース

高解像度で画像を生成できる著作権保護された画像を使用していないクリーンモデル

stableDiffusion WebUI 1111版

本体

コマンドラインの種類

Froge版

reForge

　Forgeの後継として実験的立ち位置となったWebUI

SwarmUI

SwarmUI、もしかして現状唯一の、マルチGPUが認識できる画像生成AI環境なのか……？ pic.twitter.com/CLO1RkBbQ6
— 👯‍♀️カガミカミ水鏡👯‍♀️ (@kagami_kami_m) July 18, 2024

ぬわあああん解説忘れてた！ SwarmUIでFLUX使う方法【ダウンロード編】
1. ae.sft は、/Models/VAE フォルダに入れます https://t.co/NZBuJQSWBI

2. flux1-schnell_fp8_unet.safetensorは、 /Models/unet フォルダに入れます https://t.co/S5vKivtX8a

3. unetフォルダです https://t.co/vthIOd198K pic.twitter.com/aji43KZoAF
— 👯‍♀️カガミカミ水鏡👯‍♀️ (@kagami_kami_m) August 4, 2024

stableDiffusionの仕組み：技術レベル別詳細ガイド

AIの仕組み(初心者編)

stableDiffusionの仕組み(上級者向け)

stableDiffusionの仕組み(超級者向け)

stable Diffusionの各種技術はどのように動いているか？

フルサイズのコントロールネット学習方法

Diffusersフォーマットへの変換

データセットアップロード

コントロールネットLoRAのコントロールネット学習方法

anytestの学習についてちょいと……
あれ基本的な部分は、CNllliteでgray2color作ってた頃と一緒……つまり入力側の画像素材はグレースケールで学習させてる

でも単にグレスケ化するだけだと、ただのrecolorになるから、輝度とコントラストをランダムにバラつかせてたりする

例えばこんな感じ pic.twitter.com/o4x5uSiRyZ
— 月須和・那々 (@nana_tsukisuwa) July 17, 2024

WebUI拡張機能

SDXLモデル

ベースモデル(LoRA学習用)

7th_Layer_XL

イージーインストーラーのモデルが置いてある場所(ミラー)
置いてあるモデル
・Juggernaut-XL_v9_RunDiffusionPhoto_v2
・animagine-xl-3.1
・fuduki_mix_v20
・hanamomopony_v12
・hanamomopony_v14
・momoiropony_v14

pony系列のモデルの使い方

9と8upの間、7upと6upの間に画風の壁があって
それぞれから下を切り落とすと洋風のバタ臭さが改善されます（描きこみも落ちるけど）

あとは(source_anime),(ai-generated),がおすすめ
Hにするならnsfwではなくrating_explicitのほうが良く効きます
— moriΦ㊙️ (@o81morimori) April 13, 2024

PCM_SDXL_LoRAs

新しい手法の高速生成技術

animagine xl 3.0用のlcm-lora

何も学習していない素のSDXLモデル

SDXLで崩壊した画像が出るバグの対策

省メモリ化

FLUX.1

　stable diffusionを開発したstabilityAI社の開発者で構成されたスタッフが開発したDALLE寄りの画像生成AIモデル

ローカル環境でFLUX.1を動かす方法をまとめた記事を執筆しました。ComfyUIの導入も含めた初心者向けの記事となってます。

NvidiaのGPU環境はもちろん、メモリが十分にあればMac環境でも問題なく動きます。https://t.co/VkoNhYwl6w
— 金のニワトリ (@gosrum) August 4, 2024

追加学習・モデルマージ

学習全般

　LoRAなどをGUIで簡単に学習できるツール

WindowsとLinuxでの学習速度の比較

CUDA on WSL2の速度比較と環境構築

huggingface-cliログインを使用した際に適切にトークンがコピーされないときはコンソールを右クリックしてください

accelerate configを設定することでaccelerateを使用したトレーニングができるようになります

Finetuning

LoRA

LoRA設定項目解説

LoRA学習

マスクを指定してLoRAを学習してくれるやつ

SDXLにおけるLoRAの学習設定まとめ

海外サイトで拾った画風LoRA学習の設定値がなかなか良いからメモがてらツイートしとこ。

LR Scheduler : constant
Optimizer : AdamW8bit
Learning Rate : 0.0012
Text Encoder rate : 同上
U-net learning rate : 同上
DIM : 128 (64 or 32でも良いかも)
Alpha : 1

気軽に作ろう画風LoRA！！
— スラ (@sura121) December 11, 2023

月須和さんの記事とPDF見たけど、"VRoidからキャラLoRA作る”って最初何のことか分からんかった。つまりVRoidキャラのLoRAを作りたいけど、VRoid臭さは除去したいという事。例えばSDで金髪ツインテ巫女さんキャラを安定して生成したいなあと思ったとする。しかしプロンプトで指定するだけだと生成ごとに…
— うみゆき@AI研究 (@umiyuki_ai) March 1, 2024

キャラクターの一部のパーツをコントロール可能なのかという研究に真摯に取り組んだ結果生まれたのがこの「真・おㄘんㄘんスライダー」です。
結論からすると人体から離れたおㄘんㄘん単体を学習させるだけではダメ。
人体に付属した状態:単体を4:1の割合で学習させると良好な結果が得られた。
— エマノン (@Emanon_14) April 2, 2024

KohyaGUI　SDXLを低VRAMで学習する際の推奨設定

SDXLのLoRA-C3Lier (LoCon), dim(rank)=4, conv_dim=4, bf16/fp16, batch size 1, 解像度1024x1024, サンプル画像出力なしで7GB程度で動くと思います。
— Kohya Tech (@kohya_tech) January 17, 2024

I think SDXL model trained with a 1024x256 bucket resolution, can be a better pre-trained model for training at 2048x512.

Doing training tests with a small subset of the v3 datasets showed that Animagine XL v1, as a pre-trained model, achieved better results compared to v2.… pic.twitter.com/vPgtKgs04E
— Linaqruf (@linaqruf_) December 8, 2023

KohyaGUIトラブルシューティング

WebUI上で学習ができるツール

導入時のエラー対処法

こちら早速インストールしてみたところ、WebUI起動時に「ImportError: cannot import name 'StableDiffusionXLPipeline' from 'diffusers'」のエラーが出て動作せず…
「pip install --upgrade diffusers[torch]」でdiffusersをアップデートしてみたら動作するようになりました。 https://t.co/X8N44oZBsO
— 十条蛍 @AIイラスト (@JujoHotaru) January 19, 2024

データセット・作成ツール

学習補助

CUDAインストールコマンドを簡単に作れるやつ

もしもPyTorchでCUDAが使えなかったら

敵対的学習

モデルマージ

その他の便利情報

AIモデル共有の方法とWebUIカスタマイズ

SDWebUI 1111版でモデルを共有したい場合

SDWebUI forge版でモデルを共有したい場合

WebUIとComfyUIでモデルを共有する方法

kindle版、販売開始。

「本書では、Stable Diffusion Web-UIを使って背景を写真から起こしたり、イラストのキャラと写真を組み合わせて出力する方法を色々と解説しています。」

【実践AI】写真･3Dからの背景起こしとか自作画像を補完する方法https://t.co/MXyMSB1peb #StableDiffusion #Amazon
— えむけぃつぅ＠ギャルゲ塗り始めました (@armored_fairy) February 9, 2024

オンラインでメタデータ表示

NovelAI

NovelAI公式

画像のメタデータを見れる公式ページ

NAI V3版の公式の元素法典

NAI V3版の元素法典

バイブストランスファーを使ったイラスト制作

シトラスさんによるNovelAIで使えるプロンプトの辞典

DALLE3

Webp→png等への変換サイト

　DALLE3ではwebpという拡張子で出力されるため適宜pngなどに変換する必要がある。

Github

GitHubでのReadmeの書き方

Krita

ComfyUI

カスタムノード一覧と翻訳された内容

ComfyUIのAnimateをLCMで高速化する

ComfyUI用のX-Adapter

Efficiency Nodes

　ComufUIの簡易版。ノードがまとまっているため初心者にも簡単にできる

AI画像簡易チェックツール

DALLE3とAdobe Firefly

画像加工ツール

イラスト高画質化

線画抽出

背景削除

超高速で背景を削除してくれる

グリーンバック作成ローカルアプリ

被写体抽出

AI背景素材サイト

モデルライセンス

大規模言語モデル(chatgpt・その他)

無料LLMチャットシステム

　c4ai-command-r-plusやMeta-Llama-3-70B-Instructなどの大規模言語モデルを無料かつGPTライクなUIで操作できるページ

各LLMの性能比較

ChatGPT活用事例

Microsoft社員によるchatgpt活用事例

レベルファイブによる活用事例

Claude3 Opusによる小説批評事例

芸大生による生成AI活用事例

AIと小説の歴史

東大などが公開するchatgptの活用事例やpython入門など

Claude3用の公式プロンプトライブラリ

LLMのプロンプト技術まとめ

ChatGPTが無反応だったり日本語に設定しても英語で出力されるときの対処法

ChatGPTのAPIをコマンドプロンプトから使用する方法

研究における文献検索

大規模言語モデルLLMにおける学習のコツ

ローカルLLM

現在最も使いやすいローカルLLMの入門インターフェース

text-generation-webuiはここからダウンロードできる

Google Colabでの実行する場合は下記を参照

自分のPCでの実行方法

現時点日本語最高性能

GPUのVRAMが24GBあれば動くr-V1の4bit量子化版
　text generation WebUI上で動作可能

日本語チャット・ノベル専用高性能モデル

海外論文翻訳サイト

画像をもとに会話できるマルチモーダルAI(LLaVA1.6)

micro-agent

　LLMにコード生成させる時に、先にテストを生成させ、次にコード生成、コードがテストをパスするまで修正を繰り返すところまで自動化する機能

ローカルLLM用データセット

音声・音楽AI

Udioの公式サイトと公式解説

Sunoの公式サイトと公式解説

Microsoft Copilot版のSnoV3のやり方

無料でSunoを使えるサイト

UsioとSunoの比較

Udioの作例

Stable Audio 2.0

PDFの情報を元にAIがラジオを作成

日本語音声認識モデル

音声だけを切り取り

ボイスチェンジャー

変換0.047秒の高速変換　GPU不要のボイチェンソフト

動画生成AI

AnimateAnyone

Open Soraの無料生成スペース

AI以外

モリサワによる括弧の使い分け

SNSでバズる方法

Xでバズったポストはどのように拡散されたかの調査をした膨大な資料

Xにおける画像比のおすすめ

インプレゾンビ駆逐用

様々なサービスの解約方法をまとめたサイト

コードが動かない理由

GPUのTips

型番の意味

AIと著作権・法律全般

文化庁が毎年作成している著作権法の入門書

柿沼弁護士による

これも載せておこう
旧47条の4は著作物利用が複製・翻案に限定されているため
データセットを公衆送信してAI事業者同士で共有することができなかったのですが

改正して利用方法を限定せず学習用データを公衆送信出来るようになりましたとさhttps://t.co/3K2VRKeHir pic.twitter.com/RFdpssuAof
— ツバサ天九@AI男の娘生成おじさん (@wing_sky_nine) January 24, 2024

もしかしてこれですか？

文化審議会著作権分科会法制度小委員会（第4回）「AI と著作権に関する考え方について（骨子案）」https://t.co/tAWbZIYOOj pic.twitter.com/FCCe6wwHv4
— ツバサ天九@AI男の娘生成おじさん (@wing_sky_nine) December 7, 2023

アメリカの著作権侵害

❌アメリカは訴訟大国だし非親告罪により大量に著作権侵害者が処罰されている
⭕️著作権侵害罪の立件は稀。

参加資料https://t.co/mSAOkkqbRY

2021年の資料で2017年度以降は36件の刑事事件しか起訴されていない。

まぁ日本も検挙は年百数十件っぽい。意外と少ない。 pic.twitter.com/AH2uCdkLzx
— テンペンロイド©沼津系著作権科VTuber (@TempemLoid) October 21, 2023

❌アメリカは日本より早く著作権侵害を非親告罪化してる
⭕️そもそもアメリカに親告罪制度ない

❌アメリカは全て非親告罪なので些細な著作権侵害も簡単に起訴できる
⭕️「商業的利益又は私的な経済的利得」を目的として侵害する者だけ刑事罰の対象になる。日本の非親告罪の条件に近い
— テンペンロイド©沼津系著作権科VTuber (@TempemLoid) October 21, 2023

著作権法の表現上の本質的特徴とは何か

厳密に言うと、著作権は類似することを理由に権利が及ぶものではなくて、被告が利用している表現中に原告著作物（の創作的表現（表現上の本質的特徴含む））の一部または全部が含まれること（この場合結果として類似して見える）を理由に権利が及ぶにすぎない。このことは著作権法が「著作者は、その著…
— KJ_OKMR (@OKMRKJ) December 22, 2023

VPNで偽装しても開示請求でバレる

侮辱罪のアウト事例集

侮辱罪の事例集からアウト表現を学びましょう。 pic.twitter.com/sGX0NTqmwD
— 鳥居　満 (@mann_co_high) March 18, 2024