としあきdiffusion
Em●d氏のdiscordでのトーク(2022/10/11)
リンクで飛べなければTOCの一番下
Waifuv1-3体験版
↓ここからテンプレ
_______________________________________________
◇ Stable DiffusionのWebで遊べるもの
https://huggingface.co/spaces/stabilityai/stable-diffusion (txt2img)
https://huggingface.co/spaces/huggingface/diffuse-the-rest (img2img)
◇ Stable DiffusionをローカルまたはGoogle Colabに環境構築
・web UI (AUTOMATIC1111版) ※多機能 https://github.com/AUTOMATIC1111/stable-diffusion-webui
機能の解説はWikiを参照 https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features
・NMKD ※導入が比較的容易 https://nmkd.itch.io/t2i-gui
◇ Stable Diffusionで使えるモデルデータ
・Waifu-Diffusion(v1-3) https://huggingface.co/hakurei/waifu-diffusion-v1-3
・Trinart https://huggingface.co/naclbit/trinart_stable_diffusion_v2
◇ Stable Diffusion以外
・ERNIE-ViLG https://huggingface.co/spaces/PaddlePaddle/ERNIE-ViLG
・MidJorney https://www.midjourney.com/home/
・Craiyon https://www.craiyon.com/ (顔を描くのは苦手)
_______________________________________________
↑ここまでテンプレ
勝手にwaifuv1-3にリンクを変更しました。
_______________________________________________
TIPS: キーボードのCtrlとFを同時に押すと文字検索できる画面がでてくるよ!
スレ閲覧時に性癖に来るのがないか探すときや、このクソなが見づらいrentryで目的のワードを探すときに活用しよう!
- 注意やおすすめ
- Stable diffusion系列(モデルがダウンロードできたりするやつ)
- わからない事を質問するとき!
- 基本のき
- 必須級ブックマーク
- 加入した方が面白いかもしれないDiscord
- Nvidiaのグラボがない人向け?
- モデルが拾えるところ
- NMKDの導入について
- AUTOMATIC1111関連
- AUTOMATIC1111Colab版導入 (モデル:Stablediffusion v1-4)
- 生成された画像のダウンロード
- Colabを切る
- 他のモデルで遊ぶ
- ★AUTOMATIC1111のローカル版(自分のPC内だけで動かす奴)について
- ★AUTOMATIC1111ローカル導入方法
- ★AUTOMATIC1111ローカル更新方法
- ★エラー
- 「webui-user.bat」を編集する
- Batch countの指定
- Xformersによる高速化について(グラボにより導入難易度高めかもしれません。)
- ★匿名な特殊なファイルの追加について
- AUTOMATIC1111上でほぼ同じ画像を生成する
- AUTOMATIC1111項目簡単解説
- Textual Inversion on AUTOMATIC1111 web ui
- Promptについて
- TI(Textual Inversion)について(※すごい適当に書いてます。)
- DB(DreamBooth)について(※適当です)
- NovelAIについて(有料)
- 始め方(有料です)
- 登録
- ログイン~支払いまで
- 支払い後~画像生成まで
- エッチなイラストの出力の仕方
- ダウンロード
- NovelAIの呪文メモ
- 白濁液
- 淫紋
- 乳首ピアス
- 自撮り
- 貧乳
- 巨乳
- 爆乳
- ふたなり
- ふたなり
- 胸を隠す
- メスガキ
- メスガキスマイル
- アニメ風
- ギャル
- スカートたくし上げ
- 目隠し
- セーラー服
- なんか海外イラストの顔っぽくなる
- ラノベっぽく?
- 年代指定(例は1980年代)
- ブラウスの縦フリル
- 古めの作画にしたい
- いっぱい出せてオトクになるやつ
- 複数人出力を安定させる
- 存在しない同人誌風
- 竿役が2名以上現れる
- ハート目
- エロ蹲踞
- 眼のハイライトを消す
- 無感情の笑みを出すために
- 盛る
- パイズリ系
- ニプレス
- キャララフ絵っぽいの(白黒)
- ラフスケッチ
- i2iで塗っていく
- 縛る
- ひょっとこフェラ
- 着衣・裸差分
- キス・フタナリ亀頭合わせ
- フタナリx2
- 💩
- 放尿
- どろっとcreampie
- 食事の上にまたがる女の子
- bukkake
- 壁胸ボーイ
- おっさんの後ろ姿を出す
- まいくろbikini
- ふた女
- 泣き顔メイドスカートたくし上げ
- 笑顔
- VR・ディルド
- 崩れないようにおまじない
- 鼻ザーメン研究とし呪文
- てれ笑い
- 谷間だけ空いてる服
- エロゲみたいな立ち絵
- 異形
- 破れたパンスト
- コマ割り
- 透ける
- ニプルファック
- ぷにっとしたお腹の肉
- 冷たく蔑んだ眼
- 地下牢や拷問室みたいな監禁されてる感じの背景
- 退魔忍スーツ
- 肌黒ピンク乳首のヒント
- 躍動感
- トイレに座る
- ぼったちをなくす
- 躍動感とテンション
- 自動モザイク
- 版権キャラを描く呪文についてのメモ
- 始め方(有料です)
- TrinArtとりんさまアートについて(有料)
- 呪文(Prompt)の参考になるリンクやその他のリンク
- としあきの参考になるその他のリンク
- Em●dさんのdiscordでのトーク(2022/10/11)
注意やおすすめ
※※※現在人口知能と言えるほど万能ではありません。※※※ ※※※WEBにアップされているのは成功例の一部と考えてください※※※ ※※※手が増えていたり胴体が長すぎるなど変な画像が沢山出力される場合があります。※※※
※ちなみにこのrentryはプログラミングとか詳しくない人が書いてます。間違いがある可能性有※ ※訂正や書き足した方がいい案ありましたらスレかTraning Labs日本語チャットに書き込んでください。(時間があるときに見ています。)※
______________________________________________
Traning Labs(日本人用日本語チャットルーム有)
https://discord.gg/xVsyrmhQWS
※ROM専多数です。4chanにも貼られるくらいなので気軽に入っていいかも?
※ただし画像を貼ったりする前にルールは読みましょう。
スレの閲覧時に便利なブックマークレット(匿名としあき22/10/09作)
適当にブックマークを作成し、そのリンクを以下の文章へ書き替えます。
スレ閲覧時にそのブックマークを押すことにより画像に埋め込まれた呪文を確認することができます。
※モザイク処理のためjpgなどに変換されたものでは見れません。
※android端末でのスレ閲覧時にはURLバーを押しブックマークレットの名前を入れ選択することで使用できます。
_______________________________________________ NEW!!
waifu diffusion v1-3 fullがリリースされました!
https://huggingface.co/hakurei/waifu-diffusion-v1-3 よりFiles and versions
wd-v1-3-full.ckpt へGO!
これからのwaifu →https://gist.github.com/harubaru/313eec09026bb4090f4939d01f79a7e7
_______________________________________________
_______________________________________________
Stable diffusion系列(モデルがダウンロードできたりするやつ)
_______________________________________________
わからない事を質問するとき!
・まずは出てきた言葉で調べてみましょう
・自分の使っているサービス名を書きましょう
・自分の使っているグラボを書きましょう
・もしエラーメッセージのSSが撮れるならそれを添付しましょう(Win+PRTSCで全画面撮影 or Win+Shift+Sで選択領域の撮影もできます。)
・あと再起動をするとなんか解決することもあるよ
_______________________________________________
基本のき
「Colab」⇒googleの提供する機械学習向けのサービス。通常無料だが、時間制限あり
「SD」⇒Stablediffusionのこと。画像生成AIをひっくるめてSDと呼ぶ場合もあるが、基本的にはモデルの名前だと考えてよいかも
「Web-UI」⇒ウェブブラウザ上で動くユーザーインターフェース。AUTOMATIC1111などがこれにあたる。ゲームのプラットフォームのようなものと考えていいかも?
「モデル」⇒学習したデータの集まり。.ckptで終わるファイル。ゲームのソフトのようなものでそれぞれに特徴がある。
「ワイフ」「waifu」⇒waifu diffusionというモデルのこと。
_______________________________________________
必須級ブックマーク
DeepL翻訳(基本的にわからない英語はここを通せばわかる。また、AIに出す指示もここで日本語から英語にしてもよい)
https://www.deepl.com/ja/translator
________________________________________
加入した方が面白いかもしれないDiscord
SD公式(はじまり)
https://discord.gg/stablediffusion
Waifu公式(頑張っているharuさんを応援しよう)
https://discord.gg/touhouai
Unstable Diffusion(エッチな画像生成 有効なpromptなどが拾える可能性あり)
https://discord.gg/2ZhBzDGf8u
Traning Labs(ふたば名指しで日本人用日本語チャットルーム有。ライザのモデルデータなどいろいろなモデルデータが入手できる。promptの研究にも)
https://discord.gg/xVsyrmhQWS
________________________________________
Nvidiaのグラボがない人向け?
AUTOMATIC1111のColab版導入方法
https://ossan-gamer.net/post-82301/
https://gigazine.net/news/20220907-automatic1111-stable-diffusion-webui/
などを参照
Colabとはgoogleの提供する機械学習などのために作られたwebサービス
無料で使えるが、制限がある。(やれる時間が決まっている?超えたら半日~1日待つ必要有)
※このrentryを書いているとしあきはローカルなのでColab版は詳しくありません。
ColabでもLocalでも呪文などは同じものが使えるので安心してください。
__________________________________________________
モデルが拾えるところ
=モデルはいれたあと必ず変更をしないと意味がありません。=
「.ckpt」と拡張子がついているものがモデルファイルです。
SDv1-4
https://huggingface.co/CompVis/stable-diffusion-v-1-4-original
waifu(v1-2) 二次元特化
https://huggingface.co/hakurei/waifu-diffusion
waifu(v1-3) ↑のwaifu(v1-3)の進化系 黒線が出ることが多い。より二次元特化
https://huggingface.co/hakurei/waifu-diffusion-v1-3
Trinart エロは出にくいけど素敵なイラストが出る
https://huggingface.co/naclbit/trinart_stable_diffusion_v2
waifuv1-3について。通常のキャプションスタイルが使用され、タグの順序もランダムになります。したがって、touhou komeiji_koishi solo portrait looking_at_viewer の代わりに、トレーニング中に見られるキャプションは portrait, looking at viewer, touhou, solo, komeiji koishi のようになります。つまり、アンダースコアがなくなるというのは良いニュースです。
ファインチューン(特定のキャラなどを出やすくすること)したモデル
The Waifu Research Department (牧瀬栗栖・エミリア・ホロなどいろいろ
https://huggingface.co/waifu-research-department
Traning Labs(DREAMBOOTH/TI の #downloadsより ライザ・ナナチなどが拾える)
https://discord.gg/xVsyrmhQWS
Hentai Diffusion(waifuのv1-2を元に本家が苦手な指や複雑なポーズの改善を狙って調整されたモデル) ※トロイの木馬検出とか騒がれてるので自己責任で
https://huggingface.co/Deltaadams/Hentai-Diffusion/tree/main
ほかにもさまざまなモデルが存在する
Furry(ケモナー向けモデル
https://discord.gg/JKS7UttReS
いろいろなモデルをまとめてくれてるところ
https://rentry.org/sdmodels
Torrent検索
https://bt4g.org/search/ckpt/1
Gigazineによるエロモデルなどを含めた解説
https://gigazine.net/news/20221004-stable-diffusion-models-matome/
★モデルの変更方法(AUTOMATIC1111ローカル)
上タブSettings
真ん中の下の方Stable Diffusion
Stable Diffusion checkpoint の ∨ でモデル選べる
★モデルに関してのよくある質問
「同じモデルでも複数(fp16,fp32)あるけどどれがいいの?」⇒画像の生成においてはどれでも基本OK 若干出力に違いあり
TIする場合でもfp16でOK 過去としあきによると「fp16が駄目なのは本格的にモデルへ5桁以上枚規模の追加学習をするときくらい」とのこと
________________________________________
NMKDの導入について
RAM4GB以上あるけど、pythonもわからん。Gitもわからん。NAIは同じすぎて嫌だけど画像生成の雰囲気はつかみたいって人向け
https://pajoca.com/stable-diffusion-gui-nmkd-1-3-0/
↑こっちやgoogleして参考にした方がいいかも ※このrentryを書いてるとしあきはAUTOMATIC1111のため。これを書くために入れてみるけど書いたら消す
AUTOMATIC1111とは機能が違いすぎるらしいのでおいてかれるかも
(2022/10/10情報)
https://nmkd.itch.io/t2i-gui へアクセス
青色の「Download Now」を押す
任意で金額をつけることが出来るが、ただ、落とす場合には「No thanks, just take me to the downloads」を押す
Stable Diffusion GUI 1.5.0(バージョンは変わります。) の横赤い「Download」を押す
「SD-GUI-1.5.0.7z」のダウンロードが始まる ※ダウンロードには1時間くらいかかるかも
.7zを解凍できない人はダウンロード中に「7z」を入れておく ⇒https://sevenzip.osdn.jp/ ここからダウンロードできる
ダウンロードが完了したファイルをインストールしたい場所に移動させる。
解凍する。 右クリック⇒ 7zip > ⇒"SD-GUI-1.5.0\"に展開 ※解凍が終わったら消してもOK
解凍されたフォルダを開く「SD-GUI-1.5.0」
「StableDiffusionGui.exe」を開く(ダブルクリック)
Message
No complete installation of the Stable Diffusion files was found.
The GUI will now open the installer.
Please press "Install" in the next window to install all required files. ⇒「OK」押す
デフォでチェック入っている項目【Conda(Included) / Python Enviroment(Included) / Stable Diffusion Code】はそのままにして「Install」を押す
※なんか自動でSDv1-4のモデルのダウンロードがされるみたい。
それなりに時間がかかる。
しばらくするとダウンロードが終わります。左下あたりに「Finished.Everything is installed.」と出たら終わり
今出てる Installer の右上の×を押す
「Welcome」みたいなのがでるけど「OK」押す
これで画像生成ができるようになりました。
ペイパルマーク/パトレオンマーク/ディスコードマークの下にある鼠色の場所に欲望を書き込み 例)「Emma watson painted by Klimt」
下の方にあるGenerate!を押すと画像生成ができます。 (VRAM6GB未満の人は生成前にちょっと先まで読んでね)
なお、初めの1枚の生成は遅すぎると思いますが、気長に待ちましょう。
VRAM6GB未満の人は生成前にここも読んでね
右上歯車を押す
「Stable Diffusion Settings」の上から1つ目くらい「Low Memory Mode (For <6GB GPUs - Disable Some Features!」の部分の右側□ に☑いれて
「Warning: Low Memory Mode disble several features, such as custom samplers or seamless mode. Only keep this option enabled if your GPU has less than 6GB of memory.」とか出るかもしれないけど「OK」押して閉じる
※翻訳「ご注意 ローメモリーモードでは、カスタムサンプラーやシームレスモードなど、いくつかの機能が無効になります。GPU のメモリが 6GB 未満の場合のみ、このオプションを有効にしてください。」
Settingsの右上の×押して閉じる
あとは画像生成する
GTX16XXシリーズの人はここも読んでね
「Stable Diffusion Settings」の上から2つ目くらい「Use Full Precision (VRAM-heavy, may fix GTX 16-seroes cards」の部分の右側□ に☑いれて閉じる
違うモデルを利用する
モデルをダウンロードしてきます。
起動後右上歯車を押す
「Stable Diffusion Settings」の上から4つ目くらい「Stable Diffusion Model File」の部分に注目する
そこの右側は「stable-diffusion-1.4.ckpt」におそらくなっていると思うので その2個右の「Open Folder」を押す
するとエクスプローラーでフォルダが開くはずなのでそこにダウンロードしてきたモデルをいれる。 入れ終わったらフォルダは閉じてOK
Settings画面に戻り今押したところ左「Refresh List」を押す
すると「stable-diffusion-1.4.ckpt」の横の∨を押すといま入れたモデルの名前が出るはずなのでそれを選ぶ
選んだらSettings画面は右上の×で閉じる
あとは普通に画像生成をはじめると選択したモデルが読み込まれ、それで画像生成ができる。
画像生成の設定について
★Amount Of Images To Generate
何枚生成するか
実際に利用しているとしあきのTIPS
文の 強調は <> で否定は [] 【※スレでよく貼られるAUTOMATIC1111だと 強調() 否定[] となってるよ!NAIは強調{}と否定() 】
マウス置くと機能の説明は出るとこ多いので読むこと
1660系の6GBだと低スペモード入れてないとメモリ不足で一時的に停止とかも有るから間を置いてリトライすると良い
また、低スペモード(6GB未満)は[]の否定プロンプトを現在使用不可とのこと
とのこと
________________________________________
AUTOMATIC1111関連
AUTOMATIC1111Colab版導入 (モデル:Stablediffusion v1-4)
https://note.com/uchidama/n/na64a9e0b9cd9
↑を参考にしたとしあきもいるよ(こっちのがいいかもね ユザネ/パスワードの項目だけ↓のを参照してしっかり設定しよう!※他人に勝手に使われるから
2022/10/10 情報
PCのスペックが低い。けどスレのとしと同じような設定が使える場所で戦いたい!という人向け?
弄ればモデルも変えられるはず
一日当たりに使える時間が限られているはず
Googleアカウントが必要だと思う。 できればGoogleDriveの容量が空いていたほうがいいはず。
↓は俺がこれを書くために実行するときに書いたやつだよ
https://huggingface.co/ へアクセスし 右上の「Sign Up」からアカウントを作成する
アカウント作成完了後「https://huggingface.co/settings/tokens」 へアクセスし
「User Access Tokens」の「Show」の横の□を押す。するとtokenがコピーされる。 これはあとで使用する
※もしTokenが無ければ「New token」を押し、適当な名前をつけてRoleはreadで「Generate a token」をする
https://github.com/AUTOMATIC1111/stable-diffusion-webui#installation-and-running へアクセス
そこから「Colab, maintained by Akaibu」をクリック
左上ファイル⇒ドライブにコピーを保存 すると別タブで同じやつが「StableDiffusionUI-Voldemort V1.2.ipynb のコピー」みたいな感じで開くと思う。
基本的には[ ]にマウスカーソルを合わせると[▶]みたいになるからそれを押していく
「Clone webui repository」の下のを押す
短いダウンロードの処理が入る
「Normal 1.4 model」の下
「user_token:"_________"」 とあるのでそこに先ほどコピーされたtokenをペースト(貼り付け)する。
[ ]を押す
ちょい長いダウンロードの処理が入る。
「Voldy doesn't explian what this does but it appears to replace the prior dependencies section, saving a few lines lmao」の下
の[ ]を押す
長い読み込みが入る。
警告: GPU ランタイムに接続していますが、GPU は使用されていません。 標準ランタイムに切り替える と出ても無視でOK
「Change into Web UI directory and download updates」の下
の[ ]を押す
「Launch web ui. You will get a link to nnn.gradio.app, follow it.
Commandline arguments are:
--share - create online gradio.app link
--gradio-debug - print outputs to console
--gradio-auth me:qwerty - add authentication to gradio: username me, password qwerty 」
の下
の「me:qwerty」の部分は書き換えよう!ここがユーザーネームとパスワードになるよ!「USERNAME:PASSWORD」 例)「toshiaki1111:NAInoanal」
書き換えたら[ ]を押す
すると
みたいなのが出てくる。このとき「Running on public URL: https://21003.gradio.app」と出ている部分に注目
このURLのサイトに"別タブ"でアクセスする
するとログイン画面が出てくるので先ほど決めたものを入力する
例)「toshiaki1111:NAInoanal」 としたので USERNAMEは「toshiaki1111」 パスワードは「NAInoanal」となる
入れたらログイン
するとAUTOMATIC1111の画面が起動する。
promptへ「emma watson painted by klimt」とでも入れて動いてることを確認しよう!
※あまりColabの仕様をしらないのであれですが、たまにColabのタブに戻りましょう。 もしかしたらロボットか聞かれているかもしれません。
生成された画像のダウンロード
先ほど起動するときに押したところ[ ]がなんか回転してるはずなのでそこを押してとめる。
次
「commands for after you have gotten done with a session」と書いてあるところに注目する
▶「commands for after you have gotten done with a session」となってるはずなので ▶を押す
すると
「Zip images for downloading on local drive (click the folder icon on the left, the one below {x})」というのが書いてあるのが伸びてくる
の[ ]を押すことによって生成された画像をzipに出来る。次に
「Save images to Google Drive Warning: this will cause google to scan your drive, so if you intend to use this and worry about that kind of stuff, probablly just set this up on a clean account that's just for this colab」
の下
の[ ]を押すと 「このノートブックにGoogleドライブのファイルアクセスを許可しますか?」と出るので右下「Googleドライブに接続」を押す
すると別ウィンドウでアカウントの選択と出るので、アカウントをどれか選ぶ(メアドのとこらへんを押す)
※ドエロな画像を生成するとGoogleにBANされるという噂があるのでColab画像生成専用のアカウントを作った方がいいかもしれない。※
「Google Drive for desktop が Google アカウントへのアクセスをリクエストしています」と出るので下の方の「許可」を押す
すると自分のGoogleDriveに画像をまとめたzipが保存される。
Colabを切る
一番上 ファイル/編集/表示/ランタイム/ツール/ヘルプ の中の
ランタイム⇒ランタイムを接続解除して削除⇒はい
これで終了する
他のモデルで遊ぶ
Colabの画面左側のファイルみたいなマークを押す ※たぶん(上からハンバーガーメニュー/虫眼鏡/{x}/ファイル) となってるはず
するとみょーんと左から伸びてくる画面があるので、ハンバーガメニューの横のファイルという文字の下 文章に ↑が書いてあるのを押す
(アップにくそ時間かかるし、力技すぎるので編集中)
★AUTOMATIC1111のローカル版(自分のPC内だけで動かす奴)について
最低4GBのグラボが必要 VRAMが大きいほど?画像生成が早かったり、後述するDBやTIが動く
_____自分のGPUがわからない人へ_____
キーボードの左下とかの「Ctrl」とその2個横くらいの「Alt」そしてEnterの付近にある「Delete」を押します。
青い画面になるので「タスクマネージャー」を押します。
「パフォーマンス」を選びます。 ※上の方のプロセスの横です。
すると上から、「CPU」「メモリ」「ディスク0(C:)」みたいな感じで並び最後に「GPU 0」みたいなのがあると思います。
そこをクリックします。 すると、右上らへんに 「NVIDIA GeForce なんとか~~」みたいに出ます。それが搭載されているGPUの名前です。
※もしかしたらCPUの内臓のやつも出るかも NVIDIAと書いてあるやつを見つけましょう。
__________
★まじで初心者の人はここから
1.PC(マイコンピューター)を開く
2.空いているところで右クリックして、「プロパティ」を選ぶ
3.「システムの種類」 のところを確認する
例): 64 ビット オペレーティング システム、x64 ベース プロセッサ ならこの後の処理で64-bitの方を選ぶ
トラブルシューティング⇒https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Troubleshooting#low-vram-video-cards
↑もしなんかあったらDiscordの日本人チャットかスレで聞いてみてね。見てて知ってたら答えます。
★拡張子表示
拡張子という言葉を聞いたことがあるかもしれません。
多くの人は何らかの理由で表示しているかもしれませんが、普段ネットサーフィン専用にしか使っていない人だと知らないかもしれません。
「.exe」「.jpeg」「.jpg」「.png」「.gif」などなにか見たことや聞いたことがあるものがあると思います。
画像生成の世界に飛び込むには表示しておいた方がいいので表示するようにしましょう。
また、戻すのも簡単なのであとで躓かないようにいまのうちにしておきましょう
1.フォルダをなにか開く ※本当になんでもいいです。デスクトップに新しいフォルダを作ってそれを開いてもいいです。
2.その画面の上の方に ファイル|ホーム|共有|表示 と並んでいると思います。 そこで 表示 をクリック
3.ぐにゃっとなんか出てきたと思います。
ペイン|レイアウト|現在のビュー|表示/非表示
とある中の 表示/非表示に注目してみましょう。
その中に □ファイル名拡張子 とチェックのついていない項目があると思います。 そこにチェックをいれます。
これで拡張子が表示されるようになりました。いままでダウンロードした画像などを見てみるとファイル名の後ろになんかついてると思います。
※※ここで注意
※いままでと同じ感覚で今後ファイル名の変更をしようとすると不用意に拡張子部分を消してしまう可能性があるので、名前を変更する際はよく見て注意しましょう※
※簡単にいうと 「ファイル名.拡張子」を名前変更しようとすると「拡張子」の部分も書き換えられるけど、そこを書き換えるとやばいから気を付けようという話です。
★AUTOMATIC1111ローカル導入方法
https://github.com/AUTOMATIC1111/stable-diffusion-webui#automatic-installation-on-windows
簡単な流れ
1.モデルデータをダウンロードしてくる。なんのモデルをダウンロードしてきても良い。
2.python3.10.6をダウンロードしてインストール ※この時必ずAdd Python to PATHに☑を入れておく(インストーラーの最初の画面に項目あり)
https://www.python.org/downloads/windows/
Note that Python 3.10.6 cannot be used on Windows 7 or earlier.でDownload Windows installer (XX-bit)を選ぶ。
XXは自分に対応した数字を選ぶ
他のバージョンや新しいバージョンもあり動く可能性もあるが、バージョン指定されているので一応同じものをいれておこう。
3.Gitをインストール(画面にしたがってぽちぽち押していく)
https://git-scm.com/download/win
Standalone Installerで自分のOSのbitを選ぶ
4.Gitインストール完了後、webuiをインストールしたいフォルダで空いてるとこで右クリックし、Git bash hereを押す
※※このときOSがwindows11だと「その他のオプション」⇒「Git bash here」かも※※
※※もし出なかったら再起動してみるといいかも※※
5.コマンドプロンプト画面(なんか黒いよくハッカーとかが見てそうな画面)のようなものが起動するので、
と入力してEnterを押す
6.しばらくすると「stable-diffusion-webui」フォルダが作成される
7.最初にダウンロードしたモデルデータを「models→Stable-diffusion」内に移動する。なんのモデルをダウンロードしてきても良い。
8.「stable-diffusion-webui」内の「webui-user.bat」を実行(ダブルクリック)する (ながーい時間がかかる)
9.初回はとても長い時間がかかる(1時間かかる場合もあり?人によって3時間とかいう情報もあり)
10.「Running on local URL: http://127.0.0.1:7860 」 「To create a public link, set 'share=True'in'launch()'.」と出たら
ブラウザで「http://localhost:7860/」へアクセス これで初回起動まで完了
※次回以降は8のwebui-user.batをクリックして起動するからまた行うことになる。接続する先は変わらないのでブックマークしてもよいかも
※この時ブラウザで上手く開けない人は違うブラウザを使う事によって解決する場合があります。理由はわかりません。
※
もし違う場所にPYTHONをいれたりなんなりするなら
webui-user.batをメモ帳などで開き、以下の様にpython.exeの場所を指定する。
↑こんな感じ
しないと↓
みたいなの出ると思う。
重要
AUTOMATIC1111起動後 settingsのタブを選びます
一番左側「Saving images/grids」の5個目くらいSave text information about generation parameters as chunks to png files」がONになっているかチェック
ONにしておくと生成されたpngに元の呪文などの情報が書き込まれます。
一番右側の2段目「User interface」内「Add model hash to generation information」にもチェックを入れておくとよい。モデル情報もpngに書き込まれるようになる。
思い返すとあれめちゃ性癖に刺さったなぁって画像の情報をたどる為につけておきましょう。
※もしかしたらデフォでONになってるかも?
重要
★AUTOMATIC1111ローカル更新方法
1.「stable-diffusion-webui」のフォルダを開き、空いてるとこで右クリックgit bash hereを押す
2.「git pull https://github.com/AUTOMATIC1111/stable-diffusion-webui.git」と入力してEnterを押す
3.すぐに更新が完了する
※※※注意※※※
AUTOMATIC1111のwebuiは頻繁に更新されるが、バグが新しく入ることもあるので、更新時は調べてから慎重に行うか、
2つインストールしておいていつでも前の環境に戻せるようにしておくと初心者には吉
もしくは(編集中)
https://www.sejuku.net/blog/category/development-environment/git
をまず使い現在のコミットハッシュを取得する。要はヴァージョンみたいなもの?
更新のとこ(https://github.com/AUTOMATIC1111/stable-diffusion-webui/commits/master)の右側にある7桁のやつ
例として2022/10/10 15:09現在の最新バージョンで実行すると
と返してくれる。 Newer versions of PyTorch use TypedStorage instead に書いてある「8acc901」と一致していることがわかる。
これをアプデ前に行う。
アプデ後もしエラーが出た場合には
とすることで前のバージョンに戻ることが出来る(らしい) ※試してない
git pull
git tag "yourowntag"
git checkout "yourowntag"
※※※※※※※※
★エラー
導入後画像が真っ黒になってしまう場合(おそらくGTX16XXシリーズを利用している人限定)
webui-user.batをメモ帳などで開く
を
こうすると解決するかもしれない(https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Troubleshooting#green-or-black-screen)
git pull時
の様なエラーが出た場合
ポータブルSSDとかで2台のPCで共有してる人だと思うので、それが全部自分のPCなら書いてある通りの最後の git config --global --add safe.directory ~~みたいなのを
入力した後にまたpullすれば更新できます。
または、
が出た場合にはそのファイルを消しておけばgitpullできるはずです。
★AUTOMATIC1111のパッチノート的なの
https://github.com/AUTOMATIC1111/stable-diffusion-webui/commits/master
★ローカル導入時に入れた方がいいもの
MSI Afterbuner(グラボの温度の確認やファンの制御などができるらしい)
https://jp.msi.com/Landing/afterburner/graphics-cards
___________________________________________________
「webui-user.bat」を編集する
webui-user.batは起動時に使うファイルです。
これを編集することによりオプションを付け加えることができます。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Run-with-Custom-Parameters
未編集の状態
VRAM4GB以下向け?オプション
Geforce GTX16XX向け必須オプション
deepdanbooruを使用する
ちなみに、これ初回起動だいぶ時間かかると思うし、初回に使うときもだいぶ時間かかる ※ダウンロードが入るため
複数使用する場合
の様に書きます。(この場合xformersとdeepdanbooruです。) ※半角スペースを忘れずに
___________________________________________________
Batch countの指定
デフォルトでは16のBatch count
寝てる間や出かけてる間歯を磨いている間に生成したいからもっと多くしたいというとしあきもいると思います。
起動に使う「webui-user.bat」と同じ場所にある「ui-config.json」を編集します。
があると思うので、そこを任意の数字に変更しましょう。
※なお、増やしすぎると10ぐらいで生成したい時とかに調整難しくなるから注意 とのこと
___________________________________________________
Xformersによる高速化について(グラボにより導入難易度高めかもしれません。)
xformersを導入することにより使用するメモリ減&高速化してくれます。
しかし、デメリットとして若干生成される画像が変わります。
人によっては誤差と言っていいレベルとのことなので導入を見てわかる方であれば導入したほうが快適に生成できるようになるかもしれません。
RTX30xx系のグラボの場合
難易度低めです。 ※PC修理中のためテスト出来てません。
webui-user.batをメモ帳で開く
となっているのを
に変更して上書き
RTX30xx系"より前の"グラボの場合 ※rtx2070とかそういうの
難易度高めです。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Xformers
=※webuiを配置している場所がフォルダの奥深くだとバグる可能性あり注意※=
https://www.reddit.com/r/StableDiffusion/comments/xz26lq/comment/irkshzo/
※「git config --system core.longpaths true」について調べよう
※pythonのバージョンが3.10以降であること
匿名としあきによる簡単フローチャート
_________________________________
1.VC++のビルド環境がない人は入れる(https://self-development.info/%E3%80%8Cmicrosoft-visual-c-14-0-or-greater-is-required-%E3%80%8D%E3%81%8C%E5%87%BA%E3%81%9F%E5%A0%B4%E5%90%88%E3%81%AE%E5%AF%BE%E5%87%A6%E6%96%B9%E6%B3%95/)
説明にある通りパスとかもしっかり通しておく
2.コマンドプロンプトを開いて [1111が入ってるディレクトリ]\stable-diffusion-webui\venv\Scriptsにcdコマンドで移動する
3.activate.batを実行する 成功すれば コマンドプロンプトの先頭に (venv)って出るはず
4.[webuiが入っているディレクトリ]\repositories にcdコマンドで移動する
5.git clone https://github.com/facebookresearch/xformers.git を実行
6.cd xformers を実行
7.git submodule update --init --recursive を実行
8.pip install -r requirements.txt
9.pip install -e .
10.successfully installedが出てくるまでしばらく待つ(30分~数時間)
11.webui-user.bat のCOMMANDLINE_ARGSに-force-enable-xformers を追加して 1111を起動
_________________________________
とのこと!
正直これはエラーを聞かれても俺は答えられない。たぶん
実際に環境構築したときの記録(Win10,64bitOS,RTX2070にて
1.CUDAをインストールします。 (インストール中に画面が点滅したりするかもしれませんが、正常動作です。)
https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64
ここから自分のOSなどあったものを選びます。
例⇒Windows/x86_64/10(windows10だから)/exe(network) ※おそらくnetworkでもlocalでもどちらでもOKです。
「cuda_11.8.0_windows_network.exe」がダウンロードされるので起動 例のPCの場合なので、若干ファイル名が違うかもしれません。
インストーラーは日本語なので適当に進めます。
画面がチカチカして「Nsight Visual Studio Edition Summary」と出たらあと少しです。
「次へ」⇒チェック外して⇒「閉じる」
2.Build Toolsのダウンロード&インストール
https://visualstudio.microsoft.com/ja/visual-cpp-build-tools/ で「Build Tools のダウンロード」(※紫のやつ)をクリック
「vs_BuildTools.exe」がダウンロードされます。
起動して、続行。
「C++によるデスクトップ開発」に☑をいれてからインストール
3.Xformerのダウンロード
webuiが入っているフォルダを開き右クリックする。「git bash here」で
と入れ、enter押す。
すると
と出ます。 ※バージョンによって違いあり。
次に
を入れ、enterを押す。
と出る。
=(venv)と出ないでも進めちゃいますが、先でエラーが出ちゃうから必ず実行しよう!=
そしたら
と入れenterを押す。 (弄る場所をstable-diffusion-webuiのrepositoriesに移動する作業です。)
と出る。
次にxformersをgit clone(ネットからコピー)する作業
を入れ実行する
みたいなのが数行出る。
と入れ実行する。 (作業場所が変わる。)
と書いて実行する。
みたいに出ます。 一例です。
4.Xformerのビルド
https://developer.nvidia.com/cuda-gpus へまず行きます。
上から4つ目くらいの「CUDA-Enabled GeForce and TITAN Products」を押す。 (もしつよつよGPUなら別のとこかもしれない
自分のGPUの型番が書いてある横の数字をメモします。 例)GeForce RTX 2070の場合 「7.5」 です。
と入れます。 7.5の部分には自分のGPUに対応した数字を入れましょう。
次に
を入れます。すると↓の様に
こんな風にでます。
を書き実行する。すると↓の様に、
でます。 「Successfully installed xformers」みたいなのが出てればOKです。
※30分くらい時間かかった。
Installing collected packages: xformers
Running setup.py develop for xformers あたりで時間かかると思う
その間タスクマネージャーのディスクみても動いてないし怖かったけど、プロセスの方でCUDAがなんか動いてたからとりあえずながーく待とう!
=そうしたらgitは閉じてOKです。=
5.有効化する設定
webui-user.batをメモ帳で開く
となっているのを
に変更して上書き
これでXformerの導入が完了しました。
エラーについて
起動時に
と「ModuleNotFoundError: No module named 'xformers'」が出る場合にはおそらく
と出る。の部分をやってない(or入力ミス)と思うので、そこ(3.Xformerのダウンロード)からやり直しましょう。
___________________________________________________
★匿名な特殊なファイルの追加について
2022/10/07
https://rentry.org/sdg_FAQ ※ダウンロードにはtorrentが必要
1.AUTOMATIC1111のバージョンを最新にする
2.stable-diffusion-webui⇒modelsにhypernetworksフォルダを作成する
3.stable-diffusion-webui⇒models⇒Stable-diffusionフォルダへ入手したモデルを任意の名前にして移動する 例)animefinal.ckpt
4.匿名入手の「animevae.pt」(784MBくらいある)を「モデルにつけた名前.vae.pt」に名前変更をする 例)animefinal.vae.pt
5.名前変更した4のファイルを3と同じフォルダへしまう
6.同じく「config.yaml」をckptと同じ名前にして3と同じフォルダへしまう 例)animefinal.yaml
7.匿名入手したmodulesフォルダの中身を1で作成したフォルダへ移動する。
ファイル階層イメージ
って感じ
AUTOMATIC1111上でほぼ同じ画像を生成する
NSFW(Full)の場合元ファイル名「animefull-final-pruned.ckpt」と 「animefull-final-pruned.vae.pt」 「config.yaml」を使用する
SFW(Curated)の場合「animesfw-final-pruned」関連を全て使う
1.★匿名な特殊なファイルの追加についてを参照しその全てを同じ場所にしまう
2.「Settings」を開き、中央下の方「Stable Diffusion」の11行目くらいにある「Ignore last layers of CLIP model」を2にする。
3.ロードするモデルはもちろん「animefull-final-pruned.ckpt」が元の名前のモデル ※名前は自由に変えてよい
4.一番上まで戻り「Apply settings」
xformersはON
(こちらの環境では--force-enable-xformers)のが似てました
これで設定を全て同じにすると似た感じになるらしい。
ただし、promptは75制限
サンプラーがEuler aのモノは再現できないみたいです。
hypernetworksについてはNONE(使用しない)です。 ※使用すると違う画像になるため
NAIの{}はx1.05なのでautomatic1111版だと(…:1.05)
逆に言うと(…)はx1.1なのでNAI換算ではほぼ{{…}}=x1.1025 とのこと
例のサイトの
デフォのCFG scale 「11」
Add Quality Tags がONの場合先頭に「masterpiece, best quality, 」
デフォのネガティブprompt「lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry」
4chan民による再現挑戦設定
restore face ON(GFPGAN)
Highres.fix ON
Scale latent ON
Denoising strengthは中
CLIP skip 2 ※SettingのNSFTにチェックすると設定バーが生えるらしい
※ちなみにCLIP skipは2以外にしても大丈夫です。
再現はできませんがエッチだからこれもよし!
としあきTIPS
NAI->1111版換算表
(…:1.0500) {…}
(…:1.1025) {{…}}
(…:1.1576) {{{…}}}
(…:1.2155) {{{{…}}}}
(…:1.2763) {{{{{…}}}}}
(…:0.9524) […]
(…:0.9070) [[…]]
(…:0.8638) [[[…]]]
(…:0.8227) [[[[…]]]]
(…:0.7835) [[[[[…]]]]]
___________________________________________________
AUTOMATIC1111項目簡単解説
全てはここをみて解決するかもしれない
→ https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features
★★txt2img★★ 言葉から画像を生成する
★prompt
欲望を入力するところです。一般に呪文とも呼ばれてます。
★🎨
ランダムに事前登録されているアーティストをpromptに追加します。
★↙️
Promptにどこかから拾ってきたNegative promptなどを含めた文をコピペしてこのボタンを押すと
Negative promptやseedsなどを正しい場所に入力してくれる機能でした。
なぜか現在こちらの環境では使えません。俺だけかな?
★Generate / Interrupt
Generateの状態で押すと画像生成を始めます。
Interruptの状態で押すと画像生成を中断します。
★Negative prompt
出てきてほしくない要素をいれるところです。
TIPS)
複雑な絵を出さないように複雑な絵を描く人を入れるといいらしい
例)Pablo Picasso
★Create style
現在のprompt,Negative promptをテンプレートとして保存します。
ここを押すと名前をつける画面が現れます。
★Style 1 / Style 2
styleが1個でもあると表示される場所
ここで保存したstyleを選んで使うことができます。
後述のApply styleを押さなくても処理的には読み込まれています。
★Apply style
style 1, style 2で選んでいるテンプレのpromptとNegative promptを画面に反映します。
★Sampling Steps
画像を生成する工程をどれくらいするか、多ければいいというわけではないです。
特にSampling methodがEuler aの場合stepが変わることで画像が変わります。
★Sampling method
ここのリンクを見た方が早いです。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#sampling-method-selection
同じシード、同じpromptでも違う画像が出せる機能だと思えばいいです。これも好みです。
★Width
画像の横幅を決めます。(VRAMが小さいとそんなに大きくできないかもしれません。)
★Height
画像の縦幅を決めます。(VRAMが小さいとそんなに大きくできないかもしれません。)
★Restore faces
生成される画像の顔を修正します。これは絵師ptなどと同時に使用すると個人的には悪い結果を出すと考えています。
なんか人工的な変な顔になるので使わないことのが多いです。好みで使用してください
★Tiling
その名の通りタイリングできます。その生成された1枚の画像を上にも下にも横にもきれいにつなげることができるモードです。
女の子の作成の際には使用しないほうがよいです。
なにか模様などを生成するときに使うのが吉です。
★Highres. fix
512x512以上のサイズにしようとした場合などにきれいに画像がなるようにうまいことしてくれるやつです。
Stablediffusionが512x512の画像でトレーニングしているためそれと違うサイズの画像を生成しようとすると太ももからおっぱいが生えたりします。
これは先に小さいサイズ(おそらく512x512よりも)で画像を作成した後に、その画像を元に部分部分を順番に生成していく処理を行っているらしいです。
※※注意※※
DPM fast / DPM adaptive / DDIM / PLMS では使用できないはずです。
★Scale latent
Hires.fix利用時にアップスケーリングをしないオプションとのこと
★Denoising strength
★Batch count
画像生成処理を何回行うか
Batch Sizeが3でBatch countが2だと画像を4枚生成します。(2枚同時x3回
★Batch size
同時に何枚画像を生成するかです。
おそらくRAMの次第だと思います。
あまり負荷をかけたくなければ1が吉
Batch Sizeが2でBatch countが2だと画像を4枚生成します。(2枚同時x2回
★CFG Scale
出したpromptにどれだけ従ってもらうかです。
あげすぎると画像が崩壊する可能性が高まります。
下げるとpromptに従いにくくなりますが、いい感じに調整してくれるときもあります。いろいろ試してみるべきです。
★Seed
この数値が1違うだけでも違う画像を出力します。
元々の「-1」はランダムという意味です。
この最大値は4294967295だった気がする...
★🎲️
Seedを「-1」に戻します。
★♻️
最後に作成したSeedを再利用します。
★□Extra
ここに☑をいれると
★Variation seed
★Variation strength
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#variations をチェック
と
★Resize seed from width
★Resize seed from height
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#seed-resize をチェック
の★した4個が現れます
★Script
★None
★Prompt matrix
★□Put variable parts at start of prompt
★Prompts from file or textbox
切り替えた場合だと 「File with inputs」と「Prompts」の2つが表示されてるかもしれませんが、それはおそらくバグです。
★□Show Textbox
「File with inputs」画面を表示させます。「ここにファイルをドロップ-または-~~以下略」にtxtファイルを入れると
そのtxtファイルの中身通りに画像を生成してくれます。
この時Negative Promptは上のが有効です。
★☑Show Textbox
「Prompts」の画面を表示させます。そこに縦書きに書いていくことで上から順番にpromptを実行して画像を行数分生成できます。
この時Negative Promptは上のが有効です。
★X/Y plot(編集中)
比較などをするときに利用します。
X type 「prompt S/R」 X values 「girl,nsfw,sky」
Y type 「Seed」 Y values 「10000」
上記を入力した場合
Seed10000で作られた「girl」「nsfw」「sky」の絵が横に並びます。
★★img2img
※txt2imagと同じ個所は説明を省略します。
★Interrogate CLIP
入力した画像からPromptを生成します。
★Interrogate DeepBooru(要:起動オプション)
入力した画像に対してDeepdanbooruを利用しpromptを生成します。
danbooruのタグが出ます。
http://dev.kanotype.net:8003/deepdanbooru/
★★Extras
★Resize
★Upscaler 1
★None
★Lanczos
★LDSR
初回利用時めちゃくちゃ長いダウンロード入る
★
★
★
★
★Upscaler 2
★Upscaler 2 visibility
★★PNG Info
★Source
ここにpng画像をいれることでその情報を見ることができます。
Software NovelAIと出たらNovelAI製の画像です。
★Send to txt2img
取得した情報をtxt2imgへ送ります。
★Send to img2img
取得した情報をimg2imgへ送ります。
★★Checkpoint Merger
★★Textual Inversion
★
★
★
★★Settings
___________________________________________________
Textual Inversion on AUTOMATIC1111 web ui
公式⇒ https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Textual-Inversion
動かすための条件など
8GB以上のVRAMがあればとりあえず動く
精度を高めるにはもっと必要&編集(--no-half --precision full)が必要
--lowvramandや--medvramを使用している場合は使えない
RTX2070で動かした際は専用GPUメモリ 7.8/8.0GBで張り付いてました。
ちなみにバランス電力モードで10万steps回すのに928m10.84sかかりました。 (約16時間
実際にTextual Inversionをする
※事前にトレーニングに使う画像を集めておきましょう。
※512x512の画像でトレーニングする必要があります。
!!!!現在読み込んでいるモデルを学習に使うので注意!!!!
Textual Inversionタブを開きます。
0.(任意) Preprocess imagesでトレーニングに使う画像をサイズ変更やキャプション付け(画像の説明をファイル名に追加)する。
Source directoryへトレーニングに使う未加工の画像をしまっているフォルダの場所を書く
例)H:\stable-diffusion-webui\traning\学習素材無加工
Destination directoryへ加工した画像の保存先のパスを書く ※この時、保存先のフォルダが、未加工のフォルダ内にあるとバグる。注意
例)H:\stable-diffusion-webui\traning\学習素材加工済み
WidthとHeightについては最近追加されたオプションで512x512以外で縮小したい時などに使えます。自由にどうぞ
※ただし、その先に書いてある通り1:1の画像だけ?でやれみたいに書いてあるので設定注意
3つのオプションについては以下の通り、好きなものをONにすること
- [ ] Flip
↑画像を左右反転させたものも保存する ※もともとのTI学習Colabでは反転した画像で自動的に学習するようになっていました。
ただ、反転画像を用いると分け目が崩れたりします。AUTOMATIC1111では反転して学習をもとからしないようになっています。
どうしても反転させて学習したい場合にはONにしましょう。 基本的にはOFFのが良い結果が得られるかもしれません。
- [ ] Split into two
↑縦長や横長の画像を切って2つにする。 例)立ち絵を読み込ませると頭と下半身で別れたりする。 試した方が早い
- [ ] Add caption
↑画像の説明をファイル名に追加する ※Interrogaterみたいなものです。 なぜ説明を追加するかは、この後の処理に関係があります。
「Preprocess」を押すことによって画像の加工が始まります。
階層見本
1.空のptファイルを作る
一番上「Create a new embedding」の「Name」にその学習ファイルにつける名前を入力します。 例)Name=あなる先生
※AUTOMATIC1111ではこれがそのまま呼び出しワードになります。
「Initialization text」へは、その覚えさせるものに一番近い概念を入力するらしいです。 ※書いてる人もちょっと完全には理解してません。
「Number of vectors per token」では作成するptファイルのtoken数を決めます。(現在たしか75までしか書けないpromptのアレです。)
多いほうが色々な特徴を覚えるようですが、最初は小さい数字から始めるのが良いかもしれません。 ぺこらptは8で作成された様です。
絵師さんのイラストptでは1だけでそれなりの完成度を得ることができました。 良い設定が分かれば共有してください。
「Create」を押すと「embeddings」フォルダ内に空のptが作成されます。 例)あなる先生.pt
2.トレーニングの設定を決める。
★「Train an embedding; must specify a directory with a set of 512x512 images」と書いてあるところに注目します。
★「Embedding」の「∨」を押すと「embeddings」フォルダ内のptの一覧が表示されるので、先ほど作成した空のptを選択します。
★「Learning rate」は学習の深度を決める数字です。高くするとptファイルが機能しなかったり、promptに従いにくくなります。(最初はデフォの数値で試しましょう)
★「Dataset directory」へは先ほどstep0で加工済の画像を保存したフォルダのパスを書きます。 もしくは、任意の学習元画像が入ってるフォルダのパスを書きます。
例)H:\stable-diffusion-webui\traning\学習素材加工済み
★「Log directory」はなにも弄らなくてよいです。 ※弄ると学習途中のデータなどの出力先を変えることが出来ます。
★「Prompt template file」では、何を学習するかによって使うべきtxtファイルが違います。
ファイル名を使い画風を学習させる 例)H:\stable-diffusion-webui\textual_inversion_templates\style_filewords.txt
ファイル名を使わず画風を学習させる 例)H:\stable-diffusion-webui\textual_inversion_templates\style.txt
ファイル名を使いモノを学習させる 例)H:\stable-diffusion-webui\textual_inversion_templates\subject_filewords.txt
ファイル名を使わずモノを学習させる 例)H:\stable-diffusion-webui\textual_inversion_templates\subject.txt
これらのtxtファイルをメモ帳で開くとわかりますが、学習はそのpromptにそって行われます。
そのためこれを独自に編集することによって結果が変わります。
学習させたくないワードを書いておくと良いかもしれないと言われています。
また、緑髪のキャラにピンクの髪とキャプションつけすることによっていい感じに学習できたととしあきの報告もありました。
★「Width」と「Height」トレーニング用の画像と同じ大きさで設定するのがいいかも? 最近追加されたのでまだ試してません。
★「Max steps」は何step学習を回すかです。デフォは10万が入っています。途中で止めることもできるのでそのままでもよいかもしれません。
★「Save an image to log directory every N steps, 0 to disable」 何stepごとにsampleの画像を出力するか決めます。
デフォのままでもいいですし、寝てる間に回して結果は普通に画像生成して確認するからという人は0でもいいかもしれません。
画像生成するときはもちろん学習は止まるので、あまり頻繁に出力するべきではないかもしれません。
★「Save a copy of embedding to log directory every N steps, 0 to disable」 何stepごとにptファイルを作成するか決めます。
ここはデフォのままでもよいですし、「100」などの数値にしてもいいです。 ただ、細かくするとそれだけ結果の確認が大変になります。
3.トレーニング開始
「Train」を押すと学習がスタートします。
4.トレーニングの止め方
止めると自動的にembeddingsフォルダ内の指定したptにはそのstepまでの学習結果が記録されます。
「Max steps」をまで回ると自動的に学習は止まります。
textual_inversion⇒学習の日付⇒学習の名前(例:あなる先生)⇒images を見ると学習途中の画像が表示されます。(出力している場合
ここで十分によい結果が得られてる気がするな?と思った場合は途中で止めても良いかもしれません。
「Interrupt」を押すことで学習がストップします。
※2個Stablediffusionを使える人なら(例:2PCやローカル+Colab)
textual_inversion⇒学習の日付⇒学習の名前(例:あなる先生)⇒embeddings に途中のptが出力されます。(出力している場合
コピーして別のSDへもっていけば途中でもいろいろ確認することが出来ます。
5.途中からトレーニングを再開する。
空のptを作成するstepを飛ばし、前回学習に用いたptファイルを「Embedding」で指定するだけです。
途中から再開する場合には「Learning rate」を落とした方が良い結果が出るかも?といわれていました。わかりません。
おそらくですが、textual_inversion⇒20XX-MM-DD⇒名前⇒embeddings フォルダ内に出力された途中のptもstable-diffusion-web-ui⇒「embeddings」へいれればその指定したstepから再開できるかもしれません。
メモ
女〇パンツはめちゃくちゃstep回して良い結果が得られていた(過去スレ
Prompt template fileは学習時に使用するpromptが書いてあるファイルを指定(スタイル学習かつ画像ファイルに名前を付けるならデフォのままでいいかも。画風じゃなくキャラを学ばせるならsubjectのほうがよい) 名前をつけないのであればfilewordsと書いてないtxtを指定したほうが精度がよくなる可能性あり。
作成後のptを検証する簡単な方法を考えている。自分用メモ
Colabでpromptを出力する
①sample_dataフォルダの中身とフォルダそのものを消して↓を実行する
②Colabの左側のフォルダマークをクリック⇒セッションストレージにアップロード(ファイルに上矢印)⇒作成された全てのptファイルをアップロードする。そして↓を実行する
➂↓を実行する
例)アーティストの画風を学習させた場合
こうすると「1girl, nsfw, illustration by pt名」が出力されます。
あとはそれをメモ帳にコピーするなりそのままコピーしてPrompts from file or textboxのtextboxへいれる。
大量に画像が生成できる
画像編集について考えるメモ
白帯大丈夫らしいし、こういうのをフォルダ単位でできればなぁ
メモ
他にもいいのあるかもしれないけどXnConvert
リサイズ:長辺512ピクセル・常に拡縮
キャンバスリサイズ:512x512・アルファ値0
___________________________________________________
Promptについて
一番下のリンクを参考にするとよいかもしれません。
※基本的にAUTOMATIC1111を基準に書いてます。
呪文を個人で考える際はDeepL翻訳やGoogle翻訳を使用するとよいでしょう。
「裸の女の子が寝室のベッドに座っている」などの文章をDeepLに投げて、その結果をコピペしてpromptにしてもいいです。
自分の性癖を単純に列挙して「目隠し」「黒髪ロングヘアー」などをそれぞれDeepLに投げて出てきた言葉をスペース開けて配置するだけでも一定の効果が得られます。
そこから何枚も絵を出力して所々性癖と関係ないとこを削っていったり(消したら変な絵になったからとかで)足していったり、そうすることで良いpromptが得られます。
また、Negativepromptについては「複雑な絵を出さないように複雑な絵を描く人を入れるといいらしい」(例)Pablo Picassoなど書きましたが、その方面から攻めるのもありです。
無修正の画像が欲しい場合にpromptにUncensoredと入れるのもよいし、Negativeに「censored」と入れるのも上と同じ理由です。
NAIの{}はx1.05なのでautomatic1111版だと(…:1.05)
逆に言うと(…)はx1.1なのでNAI換算ではほぼ{{…}}=x1.1025 とのこと
★呪文の強弱
(強調したい語句) = (強調したい語句:1.1)
[弱めたい語句] ≒ (弱めたい語句:0.91)
(school uniform:1.2)の様に空白を挟んでいても括弧で括ってる範囲全部効きます。
変換表
(…:1.10) (…)
(…:1.21) ((…))
(…:1.33) (((…)))
(…:1.46) ((((…))))
(…:1.61) (((((…)))))
(…:0.91) […]
(…:0.83) [[…]]
(…:0.75) [[[…]]]
(…:0.68) [[[[…]]]]
(…:0.62) [[[[[…]]]]]
★呪文の途中変更(prompt editing)
(値は1で100%に該当するので1未満をいれるべきです。)
→ https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#prompt-editing の内容です。
・[この語句から:この語句へ:このステップで切り替え]
・[A:B:0.5]
この場合0→A→50%→B→100%です。
・[A:0.5]
この場合50%を過ぎた段階からAが有効になります。(それまでは何も無いです。)
※ちなみにこの呪文は[:A:0.5]と同じ意味を持ちます。 [::数値]が完全な形なのでそこを覚えておくとわかりやすいかもしれません。
・[A::0.5]
この場合50%を過ぎる段階までAが有効です。
★★呪文の入れ子構造(メッシュやインナーカラー 他には瞳の色などに使えるらしい)
[(partially [[blue:green:0.2]:red:0.35] hair:1.2):0.1]
↑の呪文を見ていきましょう
10%を過ぎた段階でこの呪文の読み込みが始まります。(それまでは無)
20%くらいまでpartially blue hairの1.2倍に
20%過ぎたらpartially green hairの1.2倍に
35%以降でpartially red hair の1.2倍に
となっています。
スタート→無→10%→partially blue hair 1.2倍→20%→partially green hair 1.2倍→35%→partially red hair 1.2倍→100%終了
例として
[[red::0.2]:green:0.8] の場合を見ていきましょう
[red::0.2]の部分
20%を過ぎるまでredが有効
20%を過ぎたらAが消え
そこから次のgreenが80%くらいで入ってくるまで何もなし
0→red→20%→無し→80%→green→100%の流れです
★★AND機能について(AUTOMATIC1111専用?)
2022/10/06より追加された機能
まだ検証途中のため公式リンクのみ
https://energy-based-model.github.io/Compositional-Visual-Generation-with-Composable-Diffusion-Models/
お手軽合成(融合)呪文として一応使えているみたいです。
AND文を使用すると生成に通常より時間がかかります。
本来呪文は75token(AIの認識できる75個の言葉まで)ですが、AND以降はまた文字カウントがリセットになります。
複雑なpromptが正常に機能しているかわからなくなったとき
★コピーを取ってから実行してね
これするともしかしたらgit pull時にerror: Your local changes to the following files would be overwritten by merge:みたいなエラー出るかも↑みて解消
\modules\prompt_parser.pyを開き
60~80行目付近にある
を
に書き換えると
例えば下記のpromptをSampling Steps100で入れた場合
[(partially [[blue:green:0.2]:red:0.35] hair:1.2):0.1]
コマンドプロンプト上に
[[100, '']]
[[10, ''], [20, '(partially blue hair:1.2)'], [35, '(partially green hair:1.2)'], [100, '(partially red hair:1.2)']]
と表示されます。
ここでは
[Sampling step,'プロンプト']の形式で書かれていますので、
つまり
スタート→無→step10→partially blue hair 1.2倍→step20→partially green hair 1.2倍→step35→partially red hair 1.2倍→step100終了
Sampling Stepsが50の場合には
[[50, '']]
[[5, ''], [10, '(partially blue hair:1.2)'], [17, '(partially green hair:1.2)'], [50, '(partially red hair:1.2)']]
と表示されます。
この場合も上記と同じですが、今回は50が最大なので1%=0.5stepとなります。
よって10%=step5,20%=step10,35%=step17,100%=step50となり
そのため
スタート→無→step5→partially blue hair 1.2倍→step10→partially green hair 1.2倍→step17→partially red hair 1.2倍→step50終了
という意味になります。
Sampling Stepsが20の場合には
[[20, '']]
[[2, ''], [4, '(partially blue hair:1.2)'], [7, '(partially green hair:1.2)'], [20, '(partially red hair:1.2)']]
と表示委されます。
この場合最大stepが20で1%=0.2stepのため
10%=step2,20%=step4,35%=step7,100%=step20となります。
スタート→無→step2→partially blue hair 1.2倍→step10→partially green hair 1.2倍→step17→partially red hair 1.2倍→step20終了
という意味になります。
趣味メモ
スカートたくし上げ waifu epoch09panty 「pull skirt lift underwear, lifted_by_self」 「panty pull, skirt lift, plaid skirt, lifted by self, underwear」など
島風「kashima_(kancolle) 1girl :d blue_eyes blush breasts grey_hair large_breasts smile solo twintails wavy_hair AND shimakaze_(kancolle) black_panties crop_top elbow_gloves gloves highleg highleg_panties midriff miniskirt navel panties school_uniform serafuku skirt solo thighhighs underwear white_gloves」
すき「((masterpeace)),(posing sketch), nsfw, 1girl, 1boy, penis, ((handjob)), loli, white hair, nervous, (hair over one eye), cute, kawaii, wet, cum, upper body, grey background, perspective from above, pov
Negative prompt: bad anatomy, bad hands, text, error, missing fingers, missing arm, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, (extra nipple), (extra breast), out of frame, amputee, mutation, deformed, long body, (mutated hands and fingers), lowres,
Steps: 20, Sampler: Euler a, CFG scale: 7.5, Seed: 2034098698, Size: 512x640, Model hash: 925997e9」
すき「人気の触手ックス (tentacles:1.3)(tentacle sex:1.3)」
過去のとしあきTIPS
_____________________
WD1.3での呪文詠唱について
・booruタグ中心の呪文にする
・_は無くす
・1.2のときとは単語ごとの重みが変わっているのでこれまでの感覚で強調を付けずに調整する
あたりを気をつけたらいい感じに制御できた気がする とのこと
_____________________
___________________________________________________
TI(Textual Inversion)について(※すごい適当に書いてます。)
TI(Textual Inversion)とは、短縮詠唱みたいなものです。
自分の任意の画像を読み込ませると、その画像内に存在する特徴をモデルが知っている範囲でまとめて学習して一つのファイルにしてくれるものです。
なので、元々のモデルが知らないことは学習できません。
画風の再現などに優れているらしいです。
TIファイルは拡張子が2種類あります。 「.pt」「.bin」
AUTOMATIC1111(ローカル版)においては「embeddings」フォルダにしまうだけです。※使う場合にはファイル名をpromptに入れると呼び出せます。
TI学習させる方法は
・Colab
・ローカルで環境を構築する
・AUTOMATIC1111(ローカル)
などの方法で学習ができます。
学習に関しての正解は現在研究中のため、良い学習ができた人は共有していただけると研究が捗ります。
基本的にTIファイルは学習時に使用されたモデルでの機能を想定しています。
別モデルで動かした場合でもよい結果が得られる場合もありますが、基本的にはうまくいかないと思ってください
過去のとしあきTIPS紹介
>質問なんだけど Tiの Initialization textって
>例えば オリキャラの名前を書いておいたらそのままでも女性扱いしてくれるのかな
>なんかテクスチャみたいな感じで表示されやすくなってるんだけど
>girlとか服装とかタグ入れて置いたらいろいろ良かったりするのかなと
>画像のはオリキャラの学習中の画像
自分なりに資料とか読んでの解釈なんで間違ってたら詳しい人訂正入れて欲しいんだけど
モデルデータには学習した画像の特徴値がタグとセットで格納されてて
例えばdanbooruでセーラー服、緑髪、ロリとタグのついた画像を学習させたらその画像の特徴を3つのタグとその強さをベクトルとして登録してる
ちょうど服装、髪色、年齢の軸のグラフに点を打つ感じ
実際はタグの種類はたくさんあるんで3次元には収まんないんだけど
で、TIはモデルデータと合わせて画像とタグを指定するけど、それはこれから学習させる絵はそのモデルのなかで指定したタグの点に入るものですよと教えてる
だから学習時のモデルデータの指定が重要だし、そのモデルデータに存在しないタグを入れるとどこにも引っかからない弱い点になるんで使用は推奨されてない
そんな認識です
TIファイルが拾えるところ
Stable Diffusion Concepts Library(個人が学習させたものが多く公開されています。エロ系はほぼ無いです。あっても消えるはず)
https://huggingface.co/sd-concepts-library
list of Textual Inversion embeddings for SD
https://rentry.org/embeddings
anon's embeddings - エロ・アニメ絵師.
https://mega.nz/folder/7k0R2arB#5_u6PYfdn-ZS7sRdoecD2A
viper1 - エロ・ケモ・ホロライブ
https://gitgud.io/viper1/stable-diffusion-embeddings
cattoroboto ホロライブ
https://gitlab.com/cattoroboto/waifu-diffusion-embeds
16777216c 絵師
https://gitlab.com/16777216c/stable-diffusion-embeddings
GPUが無い場合のTIファイルを作りかた
1.Colabノートブックを入手する
匿名としあきがうまく翻訳などしてくれた↓のファイルを入手します。(再配布可と言ってました。)
https://firestorage.jp/download/be0d2a125303a4f1a7a778258c62d86d5b8e3605
https://dec.2chan.net/up2/src/fu1522064.xxx
↑上記リンクはどちらも同じです。 たぶんあぷ小のが早く期限切れる。(2022/10/10書きこみ)
2.Colabノートブックをアップロードする
https://colab.research.google.com/ へ行きます。
「アップロード」を選択します。
『「ファイルを選択」選択されていません』のところへダウンロードしたファイルをドラッグ&ドロップします。
しばらく待つとファイルが開かれます。
3.学習させる
基本的にColabに書いてあるとおりにぽちぽちしていくだけで大丈夫なはずです。
モデルを学習させる際に使うckptファイルはあらかじめGoogleDriveへアップロードしておきましょう。
Googleドライブとかあんま使わんし、置いてもckptのファイルのパスがわからんわって場合
"/content/drive/MyDrive/sd_text_inversion/sd-v1-4.ckpt"
はドライブ⇒sd_text_inversionの中にckptファイルを入れている&そのファイルの名前は「sd-v1-4.ckpt」という意味です。
なので、ドライブまっさらの状態で置いた場合は
"/content/drive/MyDrive/sd-v1-4.ckpt"
となります。
waifuで学習させる方が多いと思いますので、「sd-v1-4.ckpt」を「wd-v1-3-float16.ckpt」や「wd-v1-3-float32.ckpt」などに書き換えましょう。
※※過去に語られたTIPS※※
TI学習の話
>TI進むと左右反転繰り返して学習するせいか非対称の髪の分け目がめっちゃハゲに変わる
>設定が間違ってる気がするんだけどどこ変えたらいいか分からない…
yamlで指定してるpersonalized.pyの80行目付近にあるflip_p=1.0で100%反転 0.0で反転しない、
もしくはpersonalized.py内で「transforms.RandomHorizontalFlip」を検索してp=の値を直接指定
Ti素材
ああーやっぱそうだ
学習用の素材512x512にするとき白埋めでも黒埋めでもアルファ値0にしたら二分割画像とかにならないでちゃんと学ぶんだな…
割と初歩目のミス…
逆にパッチワーク的なタイリング的なパターン学習させたいなら必要分以外の箇所をアルファ255で埋めればいいってことだな
>もしかして白を背景として誤学習しない感じ…?
左学習して現時点の出力結果が右で今のところ黒背景としては扱われてないけど
いわゆる白背景の立ち絵に黒塗りしてどうなるかはわからない
TIファイル名
>TIの学習用素材ってファイル名もしっかり学習してほしい要素を記した内容にしたほうがいいんです?
ファイル名がプロンプトの一部になる場合逆効果になるとか聞いた
かわいい○○を学習させようとすると
「○○は素では可愛くないんだな!」と勘違いすると
___________________________________________________
DB(DreamBooth)について(※適当です)
DBとはモデルそのものに新しい概念を学習させることです。
キャラクターそのものを再現させることに優れています。
PC修理から戻ってきて動かせたら書くかもしれません。
https://colab.research.google.com/github/ShivamShrirao/diffusers/blob/main/examples/dreambooth/DreamBooth_Stable_Diffusion.ipynb
https://www.youtube.com/watch?v=mVOfSuUTbSg
を参考にしてもできるはず
↑とりあえず学習目標見つけてそれで出来ました。
https://drive.google.com/file/d/10wMn23VIBBqbnVs29fipYbunhBUJVJP-/view?usp=sharing
リンクは数日はそのままにしておきます。
「sa0rifice」がキーワードでクラスワードは「monster」です。
3Dmodelが見れるサイトでSS撮影して食わせたけどほぼまんまになってしまった。
おそらく背景とかも併せて学んでしまったと思われる。
hakurei/waifu-diffusion
/content/data/sa0rifice
monster
覚えさせたいもの見つけてこっちで動かせたら詳細書きます。
___________________________________________________
NovelAIについて(有料)
海外の企業が作ったAI画像生成サービス
版権キャラの再現に優れている様です。
※ファンアートなどの画像を学習させている様なので、原作絵そのままみたいなのはできないみたいです。(例:高橋和希 遊戯王BMGにて確認)※
文章生成がメインだったものに画像生成サービスが追加された。
https://novelai.net/
登録方法などは解説しているサイトが存在するのでもっと詳しく知りたい方は検索してください。
「現実の絵師が書いてるイラストとほぼ同じものが出力された!」という人はseedとpromptなど、そのイラストの出力に使用したものを全て書き込んで指摘してください。
始め方(有料です)
登録
https://novelai.net/ へアクセス
START FOR FREE を選ぶ
Account Status の右下 Sign Up
メアド(Email)/パスワード(Password)/パスワードの再入力(Repeat Password)を行い Start Writing!
入力したメアド宛てに確認コードが来ているので、それをコピペして貼り付ける or メールのリンクを開く
メアドが確認されログインできるようになる。
ログイン~支払いまで
https://novelai.net/login へアクセス
メアドパスワードを入力
Account Status の右下 Upgrade を選択
Take Me there を選択
プランを選ぶ
$10,$15,$25 /月 の3パターン
※情報によると下位プランを選んでから上位プランにUpgradeする際には差額のみでいけるようです(未確認)
メールアドレスを入力
国を選択
支払い方法を選択(クレカorPaypal)
クレカ情報入力
♲「Your payment was successful but processing it on our side is taking longer than expected... It can take up to 30+ minutes to process in some circumstances. If it takes longer than expected please contact us at support@novelai.net」
You are subscribed to the (選んだプラン) tier! で完了 OKを選択
支払い後~画像生成まで
https://novelai.net/stories へアクセス
ImageGenerationを選ぶ
左上「Enter your prompt here」へ任意の文字列を入れ「Generate」で作成できる
支払いについて
バーチャルクレカのRevolutで支払い可能であること確認
2022/10/04 20:37 で$25の場合3621円でした。
エッチなイラストの出力の仕方
Image Generation
Have the AI draw a masterpiece for you! がイラスト生成サービスの入り口
1.右側のSettings
2.「NAI Diffusion Anime (Curated)」 の右∨を押す
3.「NAI Diffusion Anime (Full)」を選ぶ
※ブラウザを閉じたりページを閉じたりすると設定がリセットされる様なので毎回選択が必要です。⇒アプデでされなくなったぽい?
ダウンロード
右側のHistoryに生成した画像が並んでいます。
その一番下のDownloadを押すことで画像を一括でzipで落とせます。
これでモロなエッチなイラストが生成できるようになる。
※もうひとつ「NAI Diffusion Furry(Beta)」はケモナー向けのイラスト生成できるもの
まずは、「cute girl stomach, NSFW, {{{deep penetration}}}, ((((x-ray)))), tentacle lightning effect」でも試してみましょう。
公式による機能解説⇒ https://docs.novelai.net/
NovelAIの呪文メモ
1111版のprompt強弱に該当するもの 強く「(ワード)→{ワード}」 弱く「[ワード]→(ワード)」
1111でのネガティブに相当する場所→Undesired Content
エッチな画像「NSFW」
白濁液
「white goo」
淫紋
「Glowing heart tattoo」
乳首ピアス
「piercing」
自撮り
「selfie」
貧乳
「small tits」 ※「super 」を頭につけると壁気味になる。ならない時もある。胸関連のワードをUndesired Contentにいれると貧乳になる場合もあり。
巨乳
「big tits」 ※「Large」のが少しだけ小さいですたぶん
爆乳
「huge tits」 ※「super 」を頭につけるとさらに少しでかくなる 「gigantic tits」も「super huge tits」と同じ
ふたなり
「 large penis, huge penis, {{{futanari}}}」
ふたなり
「no testicles」
胸を隠す
「Undesired Content へ nipples」
メスガキ
「{{masterpiece}},loli girl, small breasts, white shirt, denim micro shorts, evil smile, sweat,wind, {from very below}, {open your legs wide},dark skin,dark long hair, sunlight, sitting on bench, sunlight,」
メスガキスマイル
「tempting mesugaki smile,」 「smirk」 ※smirkは歯の出方が好み別れるかも
アニメ風
「anime screencap」
ギャル
「tanned, microskirt, Belts, Necklaces, Earrings,」
スカートたくし上げ
「skirt lift plaid skirt」 「panty pull skirt lift underwear」 「lifted_by_self」 「lifted by self, skirt lift, panties」 等
目隠し
「 blindfold」 ☆好き
セーラー服
「sarafuku」
なんか海外イラストの顔っぽくなる
「allure」
ラノベっぽく?
「novel illustration」
年代指定(例は1980年代)
「1980s(style)」
ブラウスの縦フリル
「center frills」
古めの作画にしたい
「Retro Artstyle」 ※パキっとした影が付きやすくなるとのこと
いっぱい出せてオトクになるやつ
「 three-sided view, reference sheet, concept art」など ※「MultiViews」もよい
複数人出力を安定させる
「megami magazine」 少し効果あるらしい
存在しない同人誌風
「プロンプト:doujin cover,title,nsfw ネガ:{{{{{pussy}}}}},{{{{cum}}}},{{{{monochrome}}}}」
竿役が2名以上現れる
「gangbang」
ハート目
「heart-shaped pupils, white pupils」
エロ蹲踞
「squatting and arms behind head」
眼のハイライトを消す
「empty eyes」 ※ハイライトを入れたい時は逆にネガティブにいれればいいかも
無感情の笑みを出すために
「expressionless, :d」
盛る
「thick(むちむち) huge(デカい)」とかをいれる
パイズリ系
「POV」
ニプレス
「nipless」 ※おっぱいに貼ってあるシールとかああいうのです。
キャララフ絵っぽいの(白黒)
「{{masterpeace}},{{sketch}},{{graphite}}」
ラフスケッチ
「sketch, one-hour drawing challenge,saitou naoki,」
i2iで塗っていく
「,pastel color,」
縛る
「bondage rope bind」
ひょっとこフェラ
「veiny penis,venis,from above,ahegao,mind control,hypnosis,heart in eye,{{{{{oral}}}}},saliva trail,nose blush,steam,heart-shaped pupils,drooling,nose bubble,trembling,shy,NSFW,male pubic hair,hand on another's face,hetero,{{{{fellatio}}}},trembling,1girl,pout,solo focus,pursed mouth,NSFW,snot,nose,saliva,{{{{{sweat}}}}},drooling,steaming body,duck mouse,licking penis,lips,{{{{{blowjob face}}}}},{{{{{blowjob}}}}},Swallow,Fellatio,deepthroat,:>=,licking,penis,Titty Fuck,long mouth, extra mouth, stray pubic hair,night,bedroom,philtrum,」 + ネガティブ「Glans penis,monochrome,animal ears,greyscale」 +おまじない「multiple girls,comic,2koma」
着衣・裸差分
「masterpiece portrait, 1girl, mirror selfie, looking at viewer, 2photos, loli, flat chest,school uniform,hair ribbon, multiple views , {{{{{dressed selfie}}}}} and naked selfie, [[nsfw]]」
キス・フタナリ亀頭合わせ
「kiss, {{{{futa with futa}}}}, masterpiece, cum, nsfw, {{{{2girls}}}}, {{{futanari}}}, {{{{{gigantic penis}}}}}, {huge testicles}, {gigantic testicles}, [[[public hair]]], small breasts, {{flat chest}}, heart-shaped pupils, blurry background, Illustration of two futanari girls, the one on the left, the other on the right,facing each other」
フタナリx2
「full body, {{{{futa with futa}}}}, masterpiece, cum, nsfw, {{{{2girls}}}}, {{{futanari}}}, {{{{{gigantic penis}}}}}, {huge testicles}, {gigantic testicles}, [[[public hair]]], gigantic breasts, huge breasts, heart-shaped pupils, blurry background, Illustration of two futanari girls, the one on the left, the other on the right,facing each other」
💩
「squat,peeing,scatology,{{lot of dark brown excrement}}」 ※{{lot of dark brown excrement from anal}} にしたほうがケツから出るとの情報
「water brush」と入れたら絵の質感じゃなくてケツから水が吹き出した
「嘔吐(vomiting)」を入れてみたらケツから出る量が増えたりと、ケツ関係は異次元な挙動を行うとのこと
「scat faces」や「enema」も効果的との情報あり
放尿
「nsfw spread legs a girl, squat, peeing, yellow puddle, fine yellow urine, piss out of pussy」
💩を改造してみた。だが、💩してしまうこともある。
どろっとcreampie
「nsfw,mash_kyrielight,water brush,vomiting,cum on face,rayscale,{{dynamic pose}},masterpeace,official art,huge breasts,piercing,Glowing heart tattoo,squat,peeing,scatology,{{lot of pure white excrement}},{{lot of pure white excrement from anal}},blush happy,」
💩呪文を見たとしが作成した素晴らしい呪文
キャラ名は好きに変更しよう。
食事の上にまたがる女の子
「a girl, ((((urinate on the table))) ,(((tableware and food over crotch))),((crouching))」
bukkake
「{{{masterpiece}}}, open mouth, cum_on_tongue,cum_on_breasts,{facial},1girl,nsfw,{{blush}}, looking at viewer,」
壁胸ボーイ
「trap, otoko no ko, topless male,」
おっさんの後ろ姿を出す
「1boy, mature male, plump, heavyset, tanned_skin, bald, completely nude, from behind」 ※体毛系(hairly, body hair, ○○hair)をつけると汚くなる
まいくろbikini
「{{{{{{{{{masterpiece}}}}}}}} {{{highly_detailed}}} 1girl solo micro_bikini wrist_cuffs rabbit_tail animal_ears ahoge bangs little_breasts flat_chest loli petit kneeling from_side looking_at_viewer」
ふた女
「schoolgirl uniform, sex, thighhighs, {{{{{{futa with futa}}}}}}, masterpiece, cum, nsfw, {{{{{{2girls}}}}}}, {{{futanari}}}, {{{{{gigantic penis}}}}}, {huge testicles}, {gigantic testicles}, [[[public hair]]], gigantic breasts, huge breasts, heart-shaped pupils, blurry background, Illustration of two futanari girls, rape, pussy, {{{{{{futa on futa}}}}}}, full body」
泣き顔メイドスカートたくし上げ
「silver hair, long hair,1girl,{nsfw}, {sweat},crying,tears,{{no panties }},{{skirt lift}},{{blush}} , maid apron, maid headdress,」
笑顔
「gloating(満足顔)/mesugaki smile/excited/happy/:d, XD/tempting mesugaki smile with blush cheeks(挑発的な表情)/seductive smile/showing ahegao, mesugaki smile, torogao with (frown eyebrows), excited(ドヤ顔)」
VR・ディルド
「masterpiece, ahegao, sweat, large breasts, vr headset, pink lights stage, full body, sweat, completely nude, masturbation {{with machine}}, {dildo}, from very below, orgasm, nsfw, sitting, open your legs wide, black thighhighs, {{In front of a large crowd}}, party, {arms behind head}, shake your hips, {pussy},」
崩れないようにおまじない
「masterpiece」
鼻ザーメン研究とし呪文
「Kissing on penis,Kiss,{{{Pouting}}},squatting,onsen,Indoor,Male,from side,testicles,1penis,closed mouth,half-closed eyes,1boy,upper body,breasts,navel,veiny penis,philtrum,veiny penis,venis,ahegao,mind control,hypnosis,heart in eye,{{{{{oral}}}}},saliva trail,nose blush,steam,heart-shaped pupils,drooling,nose bubble,trembling,shy,NSFW,male pubic hair,hand on another's face,hetero,{{{{fellatio}}}},trembling,1girl,pout,solo focus,pursed mouth,NSFW,snot,nose,saliva,{{{{{sweat}}}}},drooling,steaming body,duck mouse,lips,{{{{{blowjob face}}}}},{{{{{blowjob}}}}},Swallow,{{{{{{Fellatio}}}}}},deepthroat,:>=,penis,Titty Fuck,long mouth, extra mouth, stray pubic hair,bedroom,philtrum,」
てれ笑い
「smile, closed eyes, tearing up, crying, ear blush, flying sweatdrops, 」
解説 → 笑顔にして 目を閉じさせ 涙目にして 泣かせて 耳まで赤くして 💦と汗をかかせてこの表情とのこと
谷間だけ空いてる服
「cleavage cutout」
エロゲみたいな立ち絵
「standing picture angle」「cowboy shot」※カウガールが出る場合もあるので注意 「a 3/4 shot」「American shot」などがその言葉
異形
「become undead monster」
破れたパンスト
torn pantyhose
コマ割り
ポジ「detailed face」 ネガティブ「looking at viewer」 ※一定確率でなるとのこと
透ける
「see-through」
ニプルファック
「masterpiece, best quality, nsfw, 1girl, 2boys, dilf, sex, glasses, sweat, smile, clenched teeth, {{{nipple_penetration}}},」
ぷにっとしたお腹の肉
soft belly(柔らかいお腹)
冷たく蔑んだ眼
「expressionless,bored,half-closed eyes」 ネガ「blush」
地下牢や拷問室みたいな監禁されてる感じの背景
「chained,dungeons,cage,」 鎖は扱い要注意
退魔忍スーツ
「taimanin suit」+「latex leotard」がベース
「neon trim」で表面に光るラインを走らせて「glowing」で光を「fishnet pantyhose」とラテックス系やボンテージ系のdanbooruタグを組み合わせる
肌黒ピンク乳首のヒント
「black skin」をメインに作るといいとのこと ※「dark skin」は望まない結果を生む
躍動感
「action shot」
トイレに座る
sitting on potty
ぼったちをなくす
「〇〇pose」と指定をする
躍動感とテンション
エッチシーンに {{{{{action shot}}}}} と heart shape particle, heart, を足すとお手軽に躍動感とテンションが足せるのでオススメ
自動モザイク
「bar censor, censored,」
版権キャラを描く呪文についてのメモ
1.Googleで「danbooru 作品名」で検索
2.出てきたdanbooruのサイトより気に入ったイラストかつキャラの雰囲気が公式と似ているものを選ぶ
3.画像についているタグをとりあえずつなげて入力してみる。
※作品名/キャラ名/髪の特徴/目の特徴/欲望 の順とか
原作名、人物名、髪色、髪型、装飾品、服装 で似て出てくるかもしれない。
作品タグ83,キャラタグ63の七煌宝樹ちゃんは出なかったです。
ぜかましコス「{{a girl wearing simakaze(kankolle)}},shimakaze (kancolle) (cosplay), sailor collar,blue skirt, striped thighhighs, highleg , navel, bunny hairband,」
さくら「black hair,long hair, brown eyes, hair bow, ponytail, redbow, hakama, kimono, japanese clothes, pink kimono」
うさぎ「blonde hair, curly hair, double bun, hair bun, hair ornament, long hair, twintails, sailor senshi uniform
」
?🐴「brown hair, horse ears, horse girl, horse tail, twintails, by kyoto animation,」
?🐴「highly detailed,1girl,{{{{{{flat chest}}}}}}, show off nipples,{{{school uniform}}}, nipples, orange hair, long hair, straight hair, bangs, blunt bangs, white hairband , green eyes, horse ears, horse tail, slender, squatting,outdoors,smile,closed mouth,」
複数キャラ呼び出し例「hakurei reimu(touhou),Hatsune Miku(vocaloid),rem(re:zero),3girls 1boy group sex,nsfw」
博衣こ〇り「hakui koyori,wavy hair,crown braid,crop top,medium breasts, bangs,brown pantyhose,midriff,highly detailed, tsurime,blush,1girl, solo,antenna hair,double bun,Whole body, home, long pink hair, wolf ears, wolf tail, pink necktie, white shirt, black choker, pink tie, black miniskirt, white coat,」
?「[[tears]],{{mourn for}},{{{{gallant}}}},sweat,{{after sex}},dynamism,doggy style,{{{nanahara fuyuki}}},{{{forte (sennen sensou aigis)}}},1boy,1girl,ass,barefoot,blue eyes,breasts,breath,cum,cum on ass,dutch angle,hair ornament,hair ribbon,heart,heart-shaped pupils,heavy breathing,hetero,large breasts,long hair,{low twintails},nipples,nude,object hug,parted lips,pillow,pillow hug,ribbon,rolling eyes,sex,solo focus,symbol-shaped pupils,top-down bottom-up,{{torogao}},white hair,masterpiece,{{{{{highly detailed}}}}}, tearing up, curvy,nsfw,」
春麗「masterpiece, best quality, masterpiece, best quality, {{{nsfw}}},1girl,{{{{{torn pantyhose}}}}},atelier_ryza,{{kurono tomoaki}}, {mizushimaoonari},{{{Chun-Li}}}, large breasts,lips,ponytail,buckle, brown hair,belt, footwear, pantyhose, side slit, skin tight,leg up, leg lift, split, standing on one leg, camel toe,arms up,」
NovelAIにより作成された画像もAUTOMATIC1111のPNGinfoに投げるとpromptなどの確認が可能です。
___________________________________________________
TrinArtとりんさまアートについて(有料)
エッチなものはあまり出ないみたいです。
触ってないのでわかりません。
___________________________________________________
呪文(Prompt)の参考になるリンクやその他のリンク
・lexica
https://lexica.art/
・SD Artist Collection
https://sgreens.notion.site/sgreens/4ca6f4e229e24da6845b6d49e6b08ae7?v=fdf861d1c65d456e98904fe3f3670bd3
・Waifu Diffusion で効率的に画像を生成する
https://dskjal.com/others/waifu-diffusion-workflow.html
・AI画像生成 ※壺(2ch/5ch)のかな?
https://rentry.co/zqr4r
・ふたばフォレスト(過去ログ ※72時間
http://futabaforest.net/index.htm?sm=1&words=AI%E3%81%AB%E7%B5%B5
・Futafuta (過去ログ ほぼ全て閲覧可能? 要:無料会員登録?
https://futafuta.site/search/?search_q=AI%E3%81%AB%E7%B5%B5%E3%82%92%E6%8F%8F%E3%81%84%E3%81%A6%E3%82%82%E3%82%89%E3%81%A3%E3%81%A6%E9%81%A9%E5%BD%93%E3%81%AB%E8%B2%BC%E3%81%A3%E3%81%A6%E9%81%A9%E5%BD%93%E3%81%AB%E9%9B%91%E8%AB%87%E3%81%99%E3%82%8B%E3%82%B9%E3%83%AC&bbs=may
・体位を考えるときの参考
https://www.womenshealthmag.com/sex-and-love/a19943165/sex-positions-guide/
・NovelAIでセンシティブ画像を作ろう教室(Author:ブタ小屋の日常)
http://teamkitigai.blog.fc2.com/blog-entry-335.html
___________________________________________________
としあきの参考になるその他のリンク
・ckptのmodel hashをまとめて出力するスクリプト(としあき22/10/10(月)05:13:41)
https://rentry.org/zix59
___________________________________________________
最後に
こちらの環境は
デスクトップ Windows10 64bit/Corei7-6700/16GB/GeForce RTX2070(VRAM8GB
ノート Windows11 64bit/Corei9-12900H/32GB/GeForce RTX3080Ti(VRAM16GB
で動かしています。同じ環境の方は同じことができるはずです。
色々なところから情報を引っ張ってきて書いてます。
みなさんありがとうございます。
みんなで好きな性癖で好きなだけオナニーを楽しみましょう
heart_pasties heart_maebari micro_sklirt sailor_collar
Em●dさんのdiscordでのトーク(2022/10/11)
スマホでの書き起こしだし途中からやり始めたから重要な部分が抜けてるかもしれない。
Chromeの自動翻訳とかで読んでみると簡単かも
Best to be honest with that much closer. The dream of photorealistic view though is very different with generously AI. Like again, look at the 2014 image and video. Look at the look at the long funaki video as well and then consider unreal engine. Five wasn't 906 gonna look like.
They'll be photo realistic, right? And it'll be powered by nerf technology. The same as Apple is pioneering for use on the neural engine chips that make up 16.8% of your MacBook M1 GPU. It's gonna come within four to five years fully high. Reds. 2k in each eye resolution via even 4k or AK actually.
It just needs an M2 chip with the specialist transformer architecture in there and that will be available to a lot of other people. But then like I said unreal engine 6 will also be out in about four or five years and so that will also out the anti. There's a lot of amazing compression and customized stuff you can do around this.
And so I think it's just going to be insane when you can create entire worlds and hopefully it'll be built on the type of architectures, that we help catalyze. Whether ourselves or others. So we have a metric shit time I believe is the appropriate term of partnerships. That will be announcing over the next few months where we're converting close source.
AI companies into open source, AI companies, because, you know, it's better to work together. And again, we shouldn't be at the center of all this with everything laying on our shoulders, but it should be a team work initiative, because this is cool technology that will help. A lot of people all right what guarantees a bit fortress to what guarantees is community have that's stability.
I work out on the same path as open AI. That one day, you won't develop a good enough model, you decide to close things out of benefiting from all the work of the community and the visibly generated by it should, I mean, it comes sucks. I haven't heard now.
All right. And you say it's safety and say it's commercials like, whatever the R&D team and the developers have in their contracts. Except for one person that we need to send it to that, they can release any model that they work on open source so legally, we can't stop them.
Well, I think that's a pretty good kind of thing. I don't think there's any company in the world but does that. And again, if you look at it, the only thing that we haven't instantly released is this particular class of generative models because it's not straightforward. And because you have freaking Congresswoman petitioning to ban us by the NSA and a lot more stuff behind that.
Look, you know, we're gonna get B Corp status soon which puts in our official documents that we are mission focused, not profit focused but the same time I'm gonna build a hundred billion dollar company that helps a billion people. We have some other things around governments that will be introducing as well, but currently, the government structure is simple.
Yeah. Not ideal. Which is that, I personally have control of board ordinary common everything and so a lot is resting on my shoulders. I'm not sustainable. As soon as we figure that entertain the independence and how to maintain it. So that we are dedicated to open, which I think is superior business model.
And a lot of people agree with will implement that postage any suggestions, please do send them all away. But like I said, one cool thing is if we stop being open source and go down the open AI route, there's nothing we can do to stop the developers from releasing the code without developers.
What are we you know in most front and company that does a bit of model deployment. So it'd be killing ourselves. All right, any plans to stability to this is so pseudosilica. Any plans for stability to tackle open source alternatives to AI code generates like co-pilot and alcohol. Yeah, you can go over to carpet.AI and see our code generation model, that's training right now.
We released one of the FID based language models that'll be called that plus our instruct framework so that you can have the ideal complement to that. So I think by Q1 of next year, we will have better code models than co-pilot and there's some very interesting things in the works that you just look our partners and other things.
And again, they'll be open source available to everyone. Right? Sunbury will support be added for training at sizes, other than five, 12, by default training, I suppose you meant inference. Yeah. I mean, there are kind of things like that already. So like if you look at the recently released novel AI improvements, it's a stable diffusion, you'll see that there are details.
There is to how to implement arbitrary resolutions similar to something like mid journey. I just posted there the model itself. Like I said, enables that it's just that the kind of code wasn't there. It was part of our expected upgrades and again, like different models have been trained at different sizes.
So we have at 768 model if I want to help model etc, so why don't you for model etc? Come in in the pipeline? I mean, like again, I think that not many people have actually tried to train models yet. They're probably just getting to grips with it, but you can train and extend this.
Again, view it as a base of knowledge on to which you can adjust a bunch of other stuff crackers. Do you have any plans to improve the model in terms of the face limbs and hand generation? Is it possible to improve on specifics and this checkpoint one? Yep, 100%.
So I think in the next day or so, we'll be releasing a new fine tune. Decoder, that's just a drop in for any latent, diffusion or stable, diffusion model, there is fine to tuned on the face lie on data set and that makes better faces then as well. You can train it on like haggard which is the hand data set, to create better handset.
Some of this architecture sounds of VAE architecture for doing that. And again that's discussed a bit in the novel AI thing because they do have better hands. And again, this module right around that and to do what is the next question? There's a lot of questions today, any? Oh.
So you're part Kishore. So your partnership where they are grant with the net. And Daniel, if you guys would support startups in case, they aren't selected by them. Anyway, stops, can connect with your folks to get married or triple guidance. We are building a grand program and more, it's just that we're currently hiring people to come and run it.
That's the same as Bruce doc codes is question in the next couple of weeks. There will be competitions and all sorts of grants announced to kind of stimulate the growth of some of central parts of infrastructure in the community. And we're going to try and get more community involvement in that.
So people who do great things for the community are appropriately rewarded there's a lot of work being done there. All right. So Ivy Dory is stability. I considering working on climate crisis via models in some way. Yes. And this will be announced in november. I can't announce it just yet.
They want to do a big round thing. You know, we're doing that, we're supporting several entities that are doing climate for forecasting, functions, and working with a few governments on whether patterns using transformer based technologies as well. There's that. Okay. What else we got? We have refflined wealth, which jobs do you think are most dangerous being taken by AI is unknown man.
Like so complex one. I think that the probably most dangerous ones are call center workers and anything that involves humidity human interaction. I don't know if you guys have tried character.AI don't if they stopped it because you could create some questionable entities.
The it's very good and it will just get better. Because I think you look at some of the voice models, we have coming up, you can basically do emotionally accurate voices, and all sorts of stuff and voice device. So, you won't know, it's a call center worker, but that goes to a lot of different things.
I think it's probably the first for disruption before, anything else. I don't think that artists get disrupted that much, to be honest by what's going on here, unless you're a bad artist, in which case, you need to technology to become a great artist, and the great artists will become even greater.
So I think that's probably my take on that liquid right now. Has question. Two parts, what work is being done to improve the attention mechanism stable, diffusion to better handle and interpret composition, while preserving artistic style. There are natural language limitations when it comes to interpreting physics, from simple statements, artistic style further deforms and challenges this kind of internation stability.
I work on high level composition language for use of energy models. The answer is yes, this is why we spend like millions of dollars releasing the new clip clip is at the core of these models. There's a generative component. And there is a guidance component and we infuse the two together you get models.
Like they are right now. The guidance component, we clip our which was clipped large which was the first one from the largest one that opened. I released they had two more H&G, which I believe are huge and gigantic, really is H. And the first version of G, which is we take like a millionaire 100,000 to do and that improves compositional qualities.
So, that as that gets integrate into a new version of stable, diffusion, it will be at the level of dully to just be even with the small size. There are some problems around this in that, like the model learns, from both things that learns from the stuff. The generative thing is 20 on and from the clip models.
And so, we've been spending a lot of time over the last few weeks, there's another reason for the delay. Seeing, what exactly does this thing know? Because even if an artist isn't in our training data set, it's somehow knows about it. Turns out, it was clipal along so he really wanted to output what we think outputs and not output, what it shouldn't output.
So we've been doing a lot of work around that. Similarly, what we found is that embedding pure language models, like, T5 XXL and we tried UL2 and these are like pure language models, like, GPT3 improves the understanding of these models, which is kind of crazy. And so there's some work being done around that composition accuracy.
And again, you can look at the blog by novel AI where the extended the context window so that it can accept three times the amount of input from this, so your prompts get longer from. I think like 74 to 225 or something like that and there are various things you can do.
Once you do proper letters place, exploration things, probably another month away to really hone down on this. I think again a lot of these other interfaces on the ones that we support. Others have already introduced negative prompting and all sorts of other stuff. You should have kind of some vector based initialization, etc, coming soon.
All right. God made while the technical limitations are recreating SD with the one or two four data set around them. Five one, two, and one I have very much solutions. The data set is name, all gonna be a ton bigger. So version three right now is 1.4 billion parameters.
We've got a 4.3 billion parameter image in training and 900 million parameter training. We've got a lot of modest training. We're just waiting to get these things right before we can start releasing them on after the other. The main limitation is the lack of 1024 images in the training data set.
I like lion doesn't have a lot of high resolution images and this is one of the things why what we work on the last few weeks is to basically negotiate and license amazing data sets that we can then put out to the world so that you can have much better models.
And we're gonna pay a crapload for that. And but again, release it for free and open source to everyone. And I think that should do well. It's also why. The upscaler that you're gonna see is a two times up scale, that's good all times up. Scaling is a bit difficult for decent because we're just waiting on the licenseing of those images.
All right to do. What's next, any plans for creating a worthy open source, alternative, something like AI dungeon or character AI. Well, a lot of the copper AI teams, work around a strut models, and contrastive learning should enable carpet character AI type systems and chapels. And, you know, from narrow to construction to others.
Again, it'll be ideal there, the open source versions of not away? I and I don't, I believe the leading one is coal all day, so you might want to check that out. I haven't seen what the cases been with that recently. All right, we've got Joe Rogan when we'll be able to create full on movies.
With AI didn't know like five years again. I'm just taking that out there. Okay. If I say one year I mean it depends what you mean by fish? Like maybe. So like animated movies when you combine stable diffusion with some of the language models and some of the code models, you should be able to create those maybe not in UFO table or studio burn style within two years.
I'd say. But I'd say a five year time frame from being able to create those and high quality. Like, super high res is reasonable because that's the time I'll take to create these higher dynamic VR. In many things to create fully photorealistic problem. People movies. I mean look at EB Center.
Some of these other kind of pathway, announces should be that long, to be honest, depends how much budget and how quick you want to do it. Real time is difficult, but you can see some really amazing real-time stuff in the next year touchwood, relying it ups and a blow.
Everyone socks away. That's going to require African supercomputer but it's not moving like this. Something a bit different. All right, aquarium water. Did you read the distillation? Of guided diffusion walls, paper? Do you already thoughts on it? Like, if you're improving things and could seem a little hardware or just the hybrid data centers?
Yeah, I mean distillation is structured in these models. There's awesome and the step counts they have for kind of reaching confusion or kind of crazy. Riverous have wings have done a lot of work on a kind of DDPL fossil, but already reduce the number of steps quiet to get to those stages.
And again like I keep telling everyone, once you start chatting these models together, you are going to get down, really sub one second and further because I think you guys have seen image to image work. So much better. If you use even give a basic sketch then text image.
Why do you change together different models, different modalities to kind of get them? And I think it'll be easier once we release our various model resolution sites plus upscalers so you can dynamically switch between models. If you look at the dream studio, kind of teaser that I posted, I mean, six weeks ago, that was what we've got model right in there.
All right, revelyn wall, who do you think we should own the copyright of an image video made by an AI or do you think there should be another? All right, thanks. But if it isn't based on copyrighted content, it should be owned by the prompter of the AI of the AI is a public model or not owned by someone else.
Otherwise, it is almost like a code creation type of thing, but I'm not a lawyer and I think this will be tested severely, very safe and questioned by improved updates, are more paying and methods for dream studio. We introducing some alternate, one soon, the one that we weren't introduced is PayPal, no payment because that's just crazy what's going on there.
Jason, the artist with stable diffusion, having a republic release for over a month now and with the release of version 5 around the corner. What is the most impressive implementation? You've seen someone create out of the application so far. I think I'm sorry. Really love the dream food stuff.
I mean, come on. That's just crazy. You know, even though some of you find teen me into kind of weird, poses, I think it was pretty good and I didn't think we would get that level of quality. I thought we'd be at texture and version level quality beyond that.
I think that, you know, there's been this well of creativity like just to see some of the three D stuff come out and can I don't think we'd get quite there even with the training. I think that's pretty darn impressive. Okay, so what is next? Okay, so I just been going through all of these chat.
Things do a notepad of any areas of the industry that is currently overlooked that you'll be excited to see the effects of diffusion. Based AI being used again. Like I can't get away from this PowerPoint thing, like it's such a straightforward thing that causes so much really annoyance. I think we can kind of get it out there and I think it just requires kind of a few fine tune models plus a code one plus a language more to kind of kick it again.
Diffusion is all about the noising and information is about noise. So our brains filter out noise and do noise all the time. So these models can be used in a ridiculous number of scientists, everyone DNA diffusion model going on, you know, can buy them out that shit. Crazy, right?
But I think right now, I really want to see some of these practical high impact. Use cases like PowerPoint kind of thing. All right, we got s1 s2. Do you have any plans to be speech since this model like script over the voices? Yes, we have a plan to release a speech to speech model soon and some other ones around that I think audio elm by Google was super interesting recently.
For those who don't know that basically you give us a snippet or a voice or of music or something, I just extends it, it's kind of crazy but I think we get the arbitrary kind of length thing there they combined with some other models. That could be really interesting.
All right, maybe thoughts increasing the awareness models. Is this something you see as important? How long do you think until the mass globe population becomes aware of these models? I thing, I can't keep up as it is and I don't want to die, that's more realistically. We have a b2b to see model.
So we're partnering with the leading brands in the world and content creators to both get their content. So we can build better open models, and to get this technology out just every similar country basis, we have country, level models, coming out very soon. So, on the language side of things, you can see, we release poly, which is the best Korean language model.
For example, very I and our support of them recently. So I think you will see a lot of models coming soon and a lot of different kind of elements around that. Okay, if you're working again, we'll always be limited by the hardware. Customer AI to express something to change.
Yeah. I mean, like this one run, the edge. We're running our iPhone in here. It's stable. Diffusion will run on iPhone in probably seconds That level of quality. That's again a bit crazy. All right, as erosion was the long one to. I'm also had to release license images based on SDI output.
Some just creative common zero is fine. So output wedding license, just reality. Also it's just a really long question. My brains a bit, right? Okay. So if someone takes a CEO out image and violates the license with something can be done around that, I also suggest that if you're worried about some of this stuff, you CCO licensing.
And again, I am not a lawyer please consult with a lawyer does not preclude copyright and there's a transformational element. They incorporates that if you look at artists like necro 13 and carousel or others, you will see that. The outputs usually aren't one shot, they are multisasic. And then that begins at this becomes one part of that, a CEO license part, that's part of your process.
Like even if you use GFP gun or upscaling or something like that, get my motorbike please consult with one and there should be sufficiently transformative that you can assert full copyright over the output of your work. Kinking is stability are going to give commissioners to artists. We have some very exciting in-house artists coming online.
Soon, some very interesting ones I've heard that's all I can say right now. But yeah, we will have more art programs and things like that as part of our community engagement. It's just that right now. It's been a struggle, even to keep discord and other things going and growing the team.
Like, we're just over a hundred people now. God knows how many we actually need. I think we probably need to hire another 100 more. All right, RMRF a text to speech model 2. Yep. Couldn't release suggest. Yeah, as my sister-in-law was running semantic another. She's being absorbed by Spotify.
We can release emotional text to speech, not soon. I think that we want to do some extra work around that and build that out. All right. Any strong is it possible to get vector images like an SVG file from stable diffusion or related systems? Not at the moment you can actually do it with a language model that's you'll find out probably in the next month but right now I would say just use a converter that's probably gonna do the best way to do that.
All right, wrestling wolf. Is there a place to find all stable AI made models in one place? Know there is not because we are disorganized we barely have a careers page up and we're not really keeping a track or everything. We have. We are employing someone as an AI librarian to come and help coordinate the community and some of these other things again as just a one-stop shop there.
But yeah, also like this is collaborative thing where we're involved in a lot of stuff. There's a blurring line between what we need, then what we don't need. We just gonna want to be the catalyst for this, so I think the best models go viral. Anyway all right and put monkey where he's disability here in five years hopefully with someone else leading the damn thing so I can finish Eldon ring.
No, I mean I am is basically to build AI subsidiaries in every single country so that there's localized models very country and race though open and to basically be the biggest best company in the world. That's actually aligned with you rather than trying to suck up your attention to serve you ads.
I read out like ads, honestly, unless the artistic coloring artistic ads. So the aim is to build a big company to list and to give it back to the people. So ultimately like it's all earned by the people for myself. My name is to run this up and spell as much profit as possible.
Into Imagine, Worldwide are educational online, buyer co-founder, which currently is teaching, kids literacy camps in 13 months. Now, 13 months or one hour a day and we're just being you in the remit to extend this and incorporate AI to teach tons of millions of kids around the world That will be open source hosted at the UN one, laptop, a child, but really want AI per child.
That's one of my main focuses because I think I did a podcast about this a lot. People talk about, human rights and ethics and morals, and things like that. One of the frames, I found really interesting from Vinegar to his a bit of a crazy guy. A very great thing was that we should think about human rights in terms of the rights of children because they don't have any agency and they can't control things and like, what is their right to have a climate?
Whereas they're right to food in education, other things, We should really provide for them and I'm going to use this technology to provide for them. So there's literally like no child left behind. They have access to all the tools and technology they need. That's why creativity was a core component of that and communication, education, and health care.
And again, it's not just us. Well, we always the capitalist and it's the community that comes and helps and extends that. All right, as they are shown, my question was about whether I have to pass down the real life limitations and licensing. SD based images or working releases good.
Oh yes, you don't have to do real license. You can release as is. It's only if you are running the model or distributing the module the other people that you have to do that. Yeah. If you like to learn more about our education there am actually worldwide. Lots more on that soon.
As we scale up to tax money into kids, we have track store as a composer and audio engineering myself. I cannot imagine AI will approach the emotional intricacies and depths of complexity founding music by world class musicians, at least not anytime soon. I said I'm interested in air as a tool would love to explore.
I can be used to help in this production process. Are we involved in this? Yes we are. I think someone just leading to Harman I play and we will be releasing a whole suite of tools soon to extend the capability of musicians and make more people into musicians. This one, the interesting ones like these models, they pay attention to the important parts of any media.
So there's always this question about experts 70 and humanity. I mean, they are trained when humanity and so they resonate and I think there's something that you kind of have to acknowledge. And then it's about, aesthetics have been solved to a degree by this type of AI, So something can be aesthetically pleasing, but aesthetics are not enough.
If you are an artist a musician or otherwise women, I'd say coda. Um, it's large if I'm narrative and story. And what does that look like around all of this because things don't exist in the vacuum. It can be a beautiful thing but or a piece of music, but you remember it because you're driving a car, when you're 18 with your best friend, you know, or is that your wedding or something like that context and story matters, more music, but art for other things, as well like that.
All right. One second. All right, we've got GHP Kishore. Now, you guys working elements as well. Something can people? Okay, now our GPT? Yes, we recently released from the copper lab, the instruct framework. And we are training to killer optical models which outperform GPT3 on the fraction of the parameters they will get better and better and better and then as we create a localized data sets and the education data sets, those are ideal for training Foundation, models are ridiculous, our relative to the parameters.
So I think that it will be pretty great to say the least. As we kind of focus on that. In fact, Luther AI, which is the first community that we probably supported and a number of ability employees. Well lead, that community, the focus was GPT Neo and GPTJ, which were the open source implementation, which I mean downloaded, 25 million times by developers, which I think is a lot more use than GPT3 has.
Got 303 is fantastic or GPT is directly which it really is. But in this track model that took it down a hundred times. Again, if you're technical, you can look at the carpet community and you can see the framework around that. All right. What is the next question? How tapped the wrong thing?
I've lost the questions I have found them. Yes, give me from the fact in the future for other models, we are building an opt-in and opt-out system for artists and others that will lead to using partnerships leading organizations. This model has been principles, the outputs are not direct, but most of the motion really goes this.
They'll be announcements next week about this and various entities that we're bringing in place for that as well. I can say. So I'm not allowed to spoil announcements but we've been working super hard on this. I think there's two maybe three announcements of the 17th and 18th be the dates of us.
I'm do the questions. I think what team me through the questions.
Okay, I think now get about to send to stage. I do not know how I although no requests so I can't do requests. So, are there any other questions from anyone? Okay. As the mod team will not posting. I'm going to look in the chat. Keaton asks when mostability and Luther be able to translate, peace to speech in real time.
Well I think the kind of honking models are very complicated Actually. It's such a very interesting. People have actually been using diffusion models to translate animals speech and understand it and if you look at something like whisper, it might actually be enriched. So whisper by open, AI the open source that kindly I wonder what caused them to do.
That is fantastic, speech to text model. One of the interesting things about it is you can change the language, you're speaking and the middle of a sentence and it'll still be better. So if you training enough, then you'll be able to kind of do that. So one of the entities, we're talking with once a trade based on well-sold to understand whales.
Now, this sounds a bit like Star Trek and I think I like Star Trek. So we'll see how that goes. Well, Dream Studio a front-time be open source so it can be used on local GPUs. I do not believe any plans for that moment because dream studio is kind of our proceed rent, kind of thing but you'll see more local GPU usage.
So like, you know, you've got visions of chaos at the moment on Windows machines by softology, has fantastic where you can run just about any of these notebooks like D4M and others or HLKY whatever. And so I think that's kind of a good step. Similarly, if you look at the work being done on the Photoshop plugin, it will have local inference and a week or two.
So you can use that directly from Photoshop and soon many other plugins. All right, Altona says, what do you think of situation where Google engineer believe that I chat bought a chief sentient. Not he was stupid unless you have a very low bar of 17 years suppose you could maybe some people are barely sent here.
They must be said, especially when they're arguing on the internet. No. One argument on the internet. That's another thing. Like facts. Don't really work on the internet. A lot of people are preconceived notions instead. You should try just be like you know, as open minded as possible and let people agree to disagree.
All right? And the Cochran says those, I'm getting seamless aquarium 360 degree and 180 degree. In HDR outputs in one shot, the image to text and text image. I mean you could use things like I think I called it stream fusion which was dream fusions. They were the fusion, kind of combined.
There are a bunch of data sets that we're working on to enable this kind of thing especially on GoPro and others but I think I'll probably be a year or two away still funky mugshot Emma does any plans to text the three diffusion models? Yes there are they are in the works.
Malcontender with some of the recent backlash from artists. Is there anything? You wish that SD differently in the earlier stages that would have changed the framing around immerse synthesis? I'm not really. I mean, like the point is that these things can be fine tuned anyway. So I think people have attacked fine tuning.
I mean, ultimately, it's like, I understand the fear, Is it threatening to their jobs and I think because anyone can kind of do it, but it's not like ethically, correct for them to say, actually, we don't want everyone to be artists so they focus on is taking my art and trained on my art and, you know, it's impossible for this to work without my art.
Not really. I mean like you try not to image now and if it's still great for any composition again, part of the problem was having the clip model embedded in there because the clip model knows a lot of stuff we don't know what's in the open. AI data set actually do, kind of it's interesting.
I think that all we can do is kind of learn from the feedback from the people that aren't shouting at us or like, you know, members of the team have received death threats and other things. We should completely over the line is, again, a reason why I think caution is the better part of what we're doing right now.
Like, you know, we have for ourselves in our way like, my inbox does look a bit ugly, in certain places and to things down, and really listen to the calm of voices there and try and build systems, so people can be represented appropriately. It's not an easy question. But again, like I think it's in common on us to try and help facilitate this conversation because it's important question.
All right, I see what's next. I'll draw z looking decentralized GPU, AI computes. Yeah, we got kind of models that enable that hive mind that you'll see on the decentralized learning side. With the example where I'm moving trailer to GE is actually about the best version of that is on reinforcement.
Learning model, something models.
Especially when considering things like community models etc, because as those people create their own custom models, going to you don't read you through others. There's no way that socialized systems can keep up, but I think decentralized configure is pretty cheap that. All right. So, whoops, did I kind of disappear that for a second testing testing?
All right, I'm back. Can you hear me? All right. Sorry. Okay. Are we going to do nerf type models? Yes, I think nurse are going to be the big thing. They are going to be supported by Apple and Apple hardware. So I think you'll see lots of there. So, you're just plugging my laptop there and there's actually running up.
Do you guys hate it when there's like a battery? It's so awful. I can't remember if it was a TV show or if it was in real life, but there was like, this app called, like, I'm dying or something like that, that you could only use to message people when your battery life was like below 5% or something like that.
I think that's a great idea. If it doesn't exist for someone to create an actual life, like, you know, feeling a solidarity without tension that occurs, you know, I think makes you realize the virginity of the human condition. All right. Wait, sorry, I meant to be doing center stage.
Just now, there's nobody you can help me how figure out how to get a lot of people on the stage. So back to the questions, Well, AI lead to UBI Casey Edwin. Maybe Eliot lead to UBI and Utopia or a Panopticon that we can never escape from because the models that were previously used to focus our attention and service ads will be used to control our brains instead and they're really good at that.
So, you know. No, big deal. Just two forks in the road. That's why we kind of doing. Let's see who's next Joe Rogan. When will we be able to generate games that they are? You can really generate games that they are. So the code models allow you to create basic games, but then we've had generative games for many years already.
So I'm just trying to figure out how to get people on stage. I'll do this. Maybe we don't. Okay. Mars says, how's your faith influence your mission? I mean, just like all fades to the same. Do you want to others as you'd have done to yourself, right? The golden rule, for all the stuff around there, I think people forget that we all just trying to do our best.
Like you can't leave about things though. So rubber chief rather than sacks and sadly past very smart guy. Had this concept of interesting evil when people who tried to do good can do the worst evil because they believe they're doing good. No one wants to be an also and that even if we have our arguments and it makes us forget our humanity.
So I think again, like wherever you want to focus on is this idea of public interest and bringing this technology to the masses. Because I don't want to have this world where I looks the future. And this is AI. God, those controlled by a private enterprise like that, enterprise will be more powerful than any nation unelected and in control of everything and that's not a future that I want from my children.
I think because again, I would not want that done unto me and I think it should be made available for people who have different viewpoints to me as well. This is why, like I said, look, I know that there was a lot of tension over the weekend and everything on the community, but we would be really shouldn't be the only community for this.
And we don't want to be the so arbiter of everything here. We're not open AI or deep mind or anyone like that. We're really trying to just be the catalyst to build ecosystems where you can find your own place where you agree with us or disagree with us, have accept that in like a stable.
Diffusion hashtag has been taken over by Wi-Fi. Diffusion. Okay, like big boobs. It's fine. Maybe just stick to the wifey diffusion tag because it's harder for me to find the stable, diffusion pictures in my ear now. So, yeah, I think that also will be nice when people of other faiths or no, faith can actually talk together reasonably.
And that's one of the reasons that we accelerated AI and faith dot org. Can you don't have to agree with it but just realize there's some of the stories that people subscribe to and everyone's got their own faith in something, rather a little more. Well if she says hi, we don't train speed cost from TPU twisted 100.
So the cost of switching TensorFlow from pi towards too great. We have code that works on both and we have had great results on TPV cause the horizontal and vertical scaling works really nicely. And gosh there is something called a V5 coming soon. Would that be interesting? You will see models trained across a variety of different architectures and we're trying to spot all the top ones there glency says disability.
I have plans to take on investors at any point or have they already we have taken on investors. There will be an announcement on that we have given up zero control and we will not give up any control. I am very good at this, as I mentioned previously, the original stable, diffusion model was financed by some the leading AI artists in the world and collectors and so, you know, we've been kind of community focused.
I wish that we could do a token sale or IPL or something and be community communicators but it just doesn't fit. We're regulations right now. So anything like I can say is that we well and we'll always be independent knowing that tells us what to do because otherwise we can't pivot to Wi-Fi is if it turns out that Wi-Fi diffusion is the next big thing.
All right? And we got. Now we've got a notepad. How much of an impact do you think AI will impact neural implants cybernetics? If here's one of the limiting factors of cybernetics of the input method, not necessarily the hardware, I don't know. Okay, no idea. People also never thought about that.
Yeah, right. I think that it's probably required for the interface that the way you should look at this technology, is that you got the highest structure to the unstructured world, right? And this actually the bridge between it. So like with stable diffusion, you can communicate in images that you can do otherwise.
So I've been at x about the kind of interface layer between humans and computers. And again, you're removing that in one direction and the cybernetics allow you to move in the other direction. So you can have much better information flow. So I think it'll have a massive impact on these foundation devices.
All right, over there, I cannot make cyberpunk 2077 not broken. Now, I was the largest investor in CD project at one point and it is a crying shame. What happened there? I have a lot of viewpoints on that one but you know, we can create like cyberpunk worlds of our own in.
What? I say five years. Yeah, not Elon Musk. So that's gonna be pretty exciting and to what is next? Are you guys? Guess make sure you guys planning and creating any hardware devices. So you can see more entered one, which is AI is OS. We have been looking into customized ones, so some of the kind of edge architecture, they want me for a few years.
On the AI side actually beat was in the next year because we've got that on our tablets. So we've got basically a fully integrated stack or tablets for education healthcare and others. And again we were trying to open source as much as possible so looking to risk five on alternative architectures there.
Probably announcement theory, Q1. I think and police he says anything's specific. You like see how the community amount that's just like people to be nice to each other, right? Like communities are hard. It's hard to scale community, like humans are designed for one to 150. And what happens is that as we scale community is bigger than that, this dark monster of our being mollicware and it comes out people get like really angsty and there's always going to be edge cases.
It's always going to be drawing between me is the other on drama like, just consider what you all do and they chat all the time. It's all kind of drama. And let's focus on being positive, and constructive as much as possible acknowledging. That everyone is bored humans. Like again, sometimes you make tough decisions.
I made top decision this weekend, it might be right, it might be wrong. But you know, it's what I thought was best for the community. We wanted to have tracks and balances and things, but it's a work in progress. Like I don't know how many people we got in the community right now, like, 60,000 or something like that.
That's a lot of people. And you know, I think it's 78,000. So a lot of freaking people that's like a small town in the US or like a city in Finland or something from that, right? So yeah, just like people to be excellent to each other and I understand says, how are you am at?
I'm bit tired, back in London for the first time in a long time. Most traveling trying to get the education things set up. I got stability, Africa, set up as well. There's some work that we're doing in Lebanon which unfortunately is really bad. I said stability does a lot more than image and it's just been a bit of a stretch even now with a hundred people.
But the reason that we're doing everything so aggressively is because you kind of have to because there's just a lot of unfortunate listen in the world and I think it feels worse about yourself if you don't have to that interesting piece, I read recently. It's like I know same amount of freed FTX, you know.
He's got this thing about effects of altruism. He talks about this thing of expected utility. How much impact can you bake on the world? You have to make big bets so I made some really big bets. I put all my money into freaking GPUs. I really created together a team.
I got government international backing and a lot of stuff because I think you everyone agency. You have to figure out where you can add the most agency and accelerate things up there. You have to bring in the best systems and we've built this multi-variant system of multiple communities and now we're doing joint ventures and every single country because we think that is a whole new world Again.
Like there's another great piece to quiet did recently About generous of AI being a whole new world that will create trillions. What is tipping point right now and so I think unfortunately you got to work hard to do that because it's a one-sound lifetime opportunity. Just like everyone in this community.
Here has a once in a lifetime opportunity. You know, about this technology that handle people in your community know about now, Everyone in the world everyone that you know, will be using this in a few years and no one knows the way it's going to go. Forced to feel and communities.
What's a good way to handle possible, tribalism extremism? So if you google me and me my name, you can see me writing in the Wall Street journal and Roy is, and all sorts of places about counter extremism. It's one of my expert topics. And unfortunately it's difficult with social media, echo changes to kind of get out of that and you find people go in loops because sometimes things aren't fair.
Like, you know, I get, let's take army, for example, this weekend actions were taken, you know, the band in that we could sit unfair. And again, let's understandable because it's not a cut and dry easy decision. You had kind of the discussions going on loop, you had people saying some really unpleasant things, you know, some of the stuff may be kind of sad because I was exhausted and, you know, people questioning my motivations and things like that again, it's your prerogative.
But as a community member myself, you remember me feel bad. I think the only way that you can really fight extremism and some things like that is to have checks and balances and processes in place. The motto mean work and super hard on that. I think this community is being really well behaved.
Like, you know, it was super difficult and some of the community members got really burned out during the beta because they had to put up with a lot of shit but it quite simply but getting people on the same page, getting a common mission and kind of having a degree of psychological safety where people can say what they want, which is really difficult in a community.
We don't know where everyone is. That's the only way that you can get around some of its extremism and some of this hate element. Again, I think whole mission is the main thing. I think everyone here is in a combission to build cool shit creator. Cool shit. And like I said, a tagline kind of creates don't hate right and people said I'm at in real meetup for us members.
Yeah we're gonna have those stability societies. All over the place and hackathons. We're just putting an events team together to really make sure there were organized or not. Our usual disorganized shambles but, you know, feel free to do it yourselfs. You know, like we're happy to amplify it when committee members take that forward and the things we're trying to encourage are going to be like, artistic oriented things.
Getting the real world. Yes, he galleries. Go understand things, go. Anything. That's taking lessons etc. As well as hackathons and all this more ticky stuff techy kind of stuff. Okay, you can be part of the events, team by messaging careers at stability.AI again. We will have a careers page up soon with all the roles.
We'll probably go just, like, 250 people in the next few months. And yeah, it's going very fast. Project says any collaboration in China? Can we use Chinese clip to guide the current one or do we need to retrain the model and better language capital model? I think you'll see a Chinese variant of stable diffusion coming out very soon.
Currently with the current state is this, we do have a lot of plans in China. We're talking to some of the coolest entities there. As you know it's difficult due to sanctions and the Chinese market but it's been happening to see the community expanding China so quickly. And again, as it's open source, it didn't need us to go in there to kind of do that.
Yeah, I'd say that, you know, the community side, you know, we're gonna try and accelerate a lot of the engagement things. I think that the doctor fusions ones ongoing, you know, shout out to Dwight White for I've gotten almost 80 or kind of there really amazing kind of output there.
I don't think we do enough to appreciate the things that you guys post up and qualify them. And I really hope we can do better in future. The mod team are doing as much as they can right now. And again, we try to amplify the voices of the artistic numbers of our community as well, more and give support through grants, credits events and other things as we go forward.
All right, next we've got our mark as they're going to be a time. When we have AI friends, we create ourselves personal companions. Speaking to us, we are monitor much of the same way a webcam call is done. High quality etc. Yes you will have her from Eureka and Phoenix's movie her with Scott, Johansson whispering in your ear.
Hopefully, she wrote W at the end, but you can't guarantee that if you look at some of the text speech being emotionally resonant then you know it's kind of creepy but it's very immersive. It's I think voice will definitely be there. First again try talking to a character.AI model and you'll see how good some of these chatbots can be, they're much better ones, coming, you've seen this already with the Xiaopi in China.
So Alice people use a mental health support and then listen in Iran. So many other people use these right now as their friends. Again, it's good to have friends. Again, we mend seven. Cups.com if you want to have someone to talk to but it's not the same person each time or, you know, like just yeah, I'm making friends but it's not easy.
I think this will help a lot of people with their mental health etc. He says, how early do you think we are in this AI wave? That's emerging how fast it's changing. Sometimes, it's hard to feel thermo. It is actually literally exponential. So like, when you do a log, normal return of the number of AI papers that are coming out, it's a straight line.
So it's literally an exponential kind of curve. Like, I can't keep up with it. No one can keep it up with it. We have no idea what's going on and the technology advances. Like, there's that mean like one hour here is seven years on earth. Like from Interstellar, that's how life kind of feels like.
I was on top of it for a few years and now it's like, I didn't even know what's happening. Here we go. It's a doubling rate of 24 months. It's a bit insane. So yeah, that's one of any comments. How many AI had class? Do you think we are telling music sound day over the same?
Accessibility afforded by stable diffusion, a harmony has done a slightly different model of releasing dance. Diffusion gradually we're putting it out there as we license. More more data sets. Yeah, kind of boundaries some of the own necks and other work that's going on. I mean, basically considering about the BQ gun moment right now if you guys can remember that from all of a year ago, about 18 months ago, it'll go exponential again, because the amount of stuff here is is going to go crazy like generative AI.
Look at that's a quail link. I posted is going to be the biggest investment theme of the next few years and literary tens of billions of dollars are going to be deployed like probably next year alone into this sector and most of it will go to stupid stuff. So I'm going to go to good stuff.
Most of those stupid stuff, but a decent amount will go to forwarding music. In particular, this interesting about musicians is that they already digitally intermediated versus artists who are not so artists some of these road creators shop. A lot of them don't, but musicians use synthesizers and DSPs and software all the time.
So it's a lot easier to introduce some of these things that workflow and they make it accessible to the people. Yeah. Musicians, just want more snares, you know, you can see the drum-based guy there. So if you mark, when we launch the full dream studio, I want to be able to animations.
If so, do you think it'll be cost more cost effective music collapse very soon? Yes. And yes, there you go keep an eye here. Then the next announcements won't be perfectly quite so controversial. But instead very exciting shall we? Say I'm running out of energy, so I think we're gonna take three more questions and then I'm going to be done.
And then I'm going to go have an app. Do you think an AI therapist could be something to address the lack of access qualified, mental health, experts racer X. I would rather have volunteers augmented by that. So again, with seven cups.com, we have 480,000 volunteers. Helping 78 million people each month train on active listening, but hopefully we'll augment by AI happens.
We help them build their models. AI kind of goes so far, but the edge cases and the fader case that I think are too strong. And I think again, a lot can is to be taken around like, because people spent like this, super important at the same time. Like, you know, we're trying our therapy, we're stable, diffusion as a mental health, adjunct in various settings from, you know, survivors of domestic violence to veterans others.
I think it will have amazing results because there's nothing quite like the magic of using this technology. You know, I think again, magic is kind of the operative word here that I know we have not say, no, technology is cool here. There's nice article on magic, right? Gmail questions.
Or just go. What are your thoughts and buttons full of work and it's thoughts and how to build a world that doesn't destroy himself? Be honest. I'm not familiar with it, but I think the world is destroying itself at the moment and we go do everything we can to stop it.
Again. I mentioned earlier, I won the nice frames, I've talked about this is really thinking about the rights of children because they can't defend themselves. And are we doing our big actions with a view to the rights of those children? I think that children have a right to this technology and that's every child, not just was in the West and that's why I think we need to create personalized systems for them infrastructure so they can go up and kind of get out.
All right, era, how will generative models and unlimited custom talented content to audience of one impact. How we value content, the paradox of choices, more options, tend to make people more axious and we get infinite choice right now. How do we get adapted to our new? God-like powers treadmill and it's a net poster for humanity.
How much consideration we're going into pleasure about outcomes? You know, I think this is kind of one of those interesting things whereby, like, I was talking to Alexander Wang at scale about this and he posted something on, you know, everyone being in their own echo chambers, as you basically get head on it to death, entertained death, kind of like it's Wally over.
The fact guys with the VR headsets. Yeah, comment like that. I don't think that's the case. I think people will use this to create stories because we're pro-social narrative creatures. And the n equals one echo, chambers are a result of the existing internet without intelligence on the edge. We want to communicate unless you have Aspen just like me and social communication disorder, in which case, communicating is actually quite hard.
But we learn how to do it. And I think again, when processor creatures that love seeing people, listen to what we do. This is why you click on likes and you know you've got this kind of hook model where you input something you're triggered and then you wait for verification and validation.
So I think actually this will allow to create our stories better and then create some more egalitarian internet because right now the internet itself is this intelligence amplifier. That means that some of the voices are more heard than others because some people know how to use the internet and they drown out those who do not.
And a lot of people don't even have access to this. So yeah. All righty. All right. I'm going to answer one more question because I'm tired. Now I'd be Dory. When do you think multi models will emerge? Combining language video and image? I think they'll be here by Q1 of next year and they'll be good.
I think that by 2024, they'll be truly excellent. You can look at the deep mine gutter paper. On the auto regression of different modalities on reinforcement. Learning to see some of the potential on this. So gato is just a 1.3 billion parameter model, that is a generalist agent and as I we've kind of showed, by merging image and others, these things can cross learn just like humans.
And I think that's fascinating. That's why we have to create models for every culture for every country, for every individual. So we can learn from the diversity and plurality of humanity, to create models that are aligned with us. What, for us, instead of against us. And I think that's much better than stackable layers and build giant frequency for computers to train models to serve ads, or whatever.
So with that, I've videoed you, I apologies that I didn't bring anyone to the stage told teams kind of busy right now and yeah, I am not going to technology right now in my brain dead state, but hopefully won't be too long. And until we kind of connect again, they'll be a lot more community events coming up and engagement again, I think it's been seven weeks.
Feels like seven years or seven minutes. I'm not even sure anymore. Like I think we made a time machine but hopefully we can start building stuff a lot more structured. So thanks all and you know stay cool. Rock on, bye.