月額料金なし、無制限の生成枚数でAIイラストをガシガシ描くなら、Stable Diffusionをローカル環境にインストールする「AUTOMATIC1111版Stable Diffusion WebUI」が必要です。
しかし、ローカル版AIイラストはグラフィックボードも必須です。
- VRAM容量が多くないとダメ
- RTX 4000シリーズが良い
- Radeonは絶対にNG
などなど・・・。いろいろな情報が飛び交っていますが実際のところはどうなのか?
(公開:2023/3/8 | 更新:2023/3/8)
この記事の目次 [閉じる]
AIイラスト(Stable Diffusion)におすすめなグラボを検証
検証方法:AIイラストの生成速度をテストする
AIイラスト(Stable Diffusion)に適したグラフィックボードをテストする方法はシンプルです。
実際にAIイラストを何枚か描かせて、処理にかかった時間と生成速度を記録します。AIイラストの生成速度が速いグラフィックボードが、AIイラストに適したグラボです。
今回のStable Diffusionベンチマークでは、以下の2つの数値を「性能」として扱います。
- ログに表示される生成速度(Iterations per Second)
- リザルトに表示される描写時間(Time taken)
生成速度は「ite/s」と表示され、1秒あたりのステップ試行回数らしいです。正直ちょっと直感的に分かりづらいので、よく分からない人は描写時間に注目しましょう。
リザルト画面に表示される「Time taken」は、スタートを押してからAIイラストの生成が終わるまでにかかった時間を示します。
たとえば、イラストを10枚描かせて62秒かかったなら、イラスト1枚あたり6秒の処理時間です。
テスト環境:使用したグラボとPCスペックを紹介
テスト環境 「ちもろぐ専用ベンチ機(2023)」 | |
---|---|
スペック | Raptor Lake |
CPU | Core i9 13900K |
マザーボード | ASUS TUF GAMING Z690-PLUS WIFI D4 |
メモリ | DDR4-3200 16GB x2使用モデル「Elite Plus UD-D4 3200」 |
グラボ | RTX 4090 24 GB RTX 4080 16 GB RTX 3090 24 GB RTX 3080 10 GB RTX 3070 Ti RTX 3070 RTX 3060 12 GB RTX 3050 RTX 2080 Ti RTX 2080 Super RTX 2070 Super RTX 2060 12 GB RTX 2060 6 GB GTX 1660 Ti GTX 1660 Super GTX 1650(GDDR6) GTX 1080 Ti GTX 1080 GTX 1070 Ti GTX 1060 6 GB GTX 1050 Ti GT 1030 RX 6800 XT RX 6700 XT RX 6600 XT RX 6500 XT RX 6400 RX 5700 XT RX 5600 XT |
SSD | NVMe 1TB使用モデル「Samsung 970 EVO Plus」 |
OS | Windows 11 Pro(22H2) |
ドライバ | NVIDIA 531.18 DCH(cuDNN 8.8.0) AMD Adrenalin 23.2.2 |
今回のStable Diffusionベンチマークで使用するテスト機のPCスペックです。
一応、CPUにCore i9 13900K(24コア32スレッド)、メモリ容量をたっぷり32 GBなど。グラフィックボードの足を引っ張らないスペックを使っています。
テストに使用したグラフィックボードは全部で29枚です。
筆者のお財布事情で揃えられていないグラボ(例:RTX 4070 Tiなど)がありますが、ベンチマークとして傾向を比較するのに不足しない量を揃えています。
【グラボ別】AIイラスト(Stable Diffusion)の生成速度
すべてのテストで共通の設定 | |
---|---|
Clip skip | 2 |
eta (noise multiplier) for ancestral samplers | 0.67 |
Hypernetwork | None |
Stable Diffusionベンチマークで使用した共通の設定は以上のとおりです。
- 512×512:ハローアスカベンチマーク
- 512×768:神里綾華ベンチマーク
- 512×768:神里綾華(LoRA)ベンチマーク
- 512×768:神里綾華(LoRA + ControlNet)
- 512×1024:刻晴(LoRA + ControlNet)
- 1024×1532:神里綾華(LoRA + アップスケーリング)
テストごとに使用したモデルやプロンプト、細かい設定やシード値はそれぞれのテストごとに記載します。
Stable Diffusionの起動オプション | |
---|---|
GeForceシリーズ(共通) | –xformers |
GTX 1600シリーズ | –no-half |
GeForceシリーズ VRAM:4~6 GB | –medvram |
GeForceシリーズ VRAM:4 GB未満 | –lowvram |
Radeonシリーズ(共通) | –no-half –always-batch-cond-uncond –opt-sub-quad-attention |
Radeonシリーズ VRAM:6~8 GB | –medvram |
Radeonシリーズ VRAM:2~4 GB | –lowvram |
グラフィックボードの仕様に合わせて、Stable Diffusionの起動オプションを調整しています。
「–xformers」はTensorコアを搭載するGeForceシリーズで生成速度の高速化が見込めるコマンドです。「–no-half」はGTX 1600シリーズの高速化設定。
「–medvram」と「–lowvram」は生成速度を犠牲にするかわりに、VRAM容量が少ないグラボでAIイラストの生成を可能にします。ただし、生成される内容の再現性がやや悪化します。
「–no-half –always-batch-cond-uncond –opt-sub-quad-attention」はRadeon RXシリーズ用のコマンドです。いろいろ試した中で、今回のテスト環境でもっとも安定してAIイラストの生成が可能でした。
なお、Radeon RXシリーズはVRAMの使用効率が非常に悪かったため、「–medvram」「–lowvram」を使うVRAM容量をGeForceよりも低めに設定しています。
テストに使用したStable Diffusion | |
---|---|
GeForce用 | AUTOMATIC1111 / stable-diffusion-webui (git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.) |
Radeon用 | AUTOMATIC1111 / stable-diffusion-webui / DirectML (git clone https://github.com/lshqqytiger/stable-diffusion-webui-directml && cd stable-diffusion-webui-directml && git submodule init && git submodule update) |
GeForce用のStable Diffusionは「CUDA」で動作するバージョンを、Radeon用は「DirectML」で動作するバージョンを、それぞれ別々に用意しました。
RadeonでPyTorchを動かせる「AMD ROCm」はWindows環境で(今のところ)動作しないため、今回はDirectML版をテストに使用します。
512×512:ハローアスカベンチマーク
- 使用するモデル:nai.ckpt
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | masterpiece, best quality, masterpiece, asuka langley sitting cross legged on a chair | ||
Negative | lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts,signature, watermark, username, blurry, artist name | ||
各種設定 | |||
sampling method | Euler | sampling steps | 28 |
Width | 512 | Batch count | 10 |
Height | 512 | Batch size | 1 |
CFG Scale | 12 | ||
Seed | 2870305590 |
「ハローアスカベンチマーク(Hello Asuka Benchmark)」は、NovelAIでAIイラストを生成した結果と一致した結果を得られるかを検証する方法です。
設定を揃えるとほとんどのグラフィックボードでまったく同じ結果を生成できるため、同じ条件で揃えて性能を比較するベンチマークに適しており、Stable Diffusionの定番ベンチマークとして扱われています。
ハローアスカベンチマーク(512×512)の生成速度をグラボ別に比較したグラフです。
予想通り、RTX 4090やRTX 4080が猛威をふるいますが、512×512程度の生成ならRTX 3060 12GBやRTX 2060 12GBなどミドルクラスのグラボでもそこそこのスピードで生成できます。
次は、ハローアスカベンチマーク(512×512)の描写速度をグラボ別に比較したグラフを見てみましょう。
こうして描写時間(10枚の生成にかかった時間)で見ると、RTX 3060 12GBとRTX 2060 12GBがかなりコスパの良いグラボだと評価できます。
もちろん、RTX 4090なら10枚の生成をわずか10秒+αで完了しますが、RTX 2060 12GBと比較して価格が6~8倍も高いです。
生成ガチャを大量に回すやり方ならハイエンドグラボが良いでしょうが、最近は狙ったイラストを高い確度で生成する手法が凄まじい勢いで整備されているため、512×512イラストの生成だけならRTX 2060 12GB~RTX 3060 12GBで十分です。
筆者も当然Radeonシリーズの異様な遅さに違和感を覚えて、起動オプションをいろいろ試したり、ドライババージョンを変更して性能差を比較したり手を尽くしました。
それでも目立った性能アップは無理でした。どうやら、Radeon用(DirectML版)はまだまだ最適化が進んでおらず、CUDAを使うGeForceシリーズほど速度を出せないようです。
VRAM容量の利用効率も非常に悪く、GeForceで3~4 GBで済んでいるイラスト生成が、Radeonだと8 GB全部使い切ってしまいます。
512×768:神里綾華ベンチマーク
- 使用するモデル:AbyssOrangeMix2_nsfw
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | masterpiece, best quality, soft lighting, absurdres, looking at viewer, solo, ponytail, kamisato ayaka, serafuku, kamisato ayaka (heytea), official art, official alternate costume, blunt bangs, hair bow, hair ribbon, red ribbon, school uniform, sailor shirt, sailor collar, pleated skirt, 1girl, skirt, black bow, cate, genshin, | ||
Negative | nsfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt, | ||
各種設定 | |||
sampling method | DPM++ 2M Karras | sampling steps | 20 |
Width | 512 | Batch count | 10 |
Height | 768 | Batch size | 1 |
CFG Scale | 7 | ||
Seed | 1091979662 |
ここからは筆者が作成したオリジナルベンチマークで、AIイラストの生成速度を比較します。
イラストサイズを512×768に変更して、特定のキャラクター(原神より:神里綾華)を呼び出すベンチマークです。なお、設定をきちんとコピーすると結果をほぼ再現可能です。
神里綾華ベンチマーク(512×768)の生成速度をグラボ別に比較したグラフです。
生成サイズが1.5倍(26.2万画素 → 39.3万画素)に増えたため、VRAM容量の少ないグラフィックボードは生成途中でVRAM不足エラーに陥りテストに失敗します。
RTX 4090とRTX 4080は相変わらずトップクラスの生成速度です。RTX 3060 12GBとRTX 2060 12GBも引き続き、ほぼ同じ性能で競っています。
描画時間(10枚分)を確認します。
RTX 4090とRTX 4080は512×768サイズですら15~20秒程度です。1枚あたり1.6秒で描画を終えており、やはり圧倒的です。
RTX 3060 12GBとRTX 2060 12GBはどちらもほぼ同じ処理時間です。1枚あたり5秒でイラストの生成が完了します。ガチャを大量に回さず、設定を詰めて高確率で狙うなら5秒で十分な速度では?
512×768:神里綾華(LoRA)ベンチマーク
- 使用するモデル:AbyssOrangeMix2_nsfw
- 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | masterpiece, best quality, soft lighting, absurdres, looking at viewer, solo, ponytail, serafuku, kamisato ayaka (heytea), official art, official alternate costume, kamisato ayaka, blunt bangs, hair bow, hair ribbon, red ribbon, school uniform, sailor shirt, sailor collar, pleated skirt, 1girl, skirt, black bow, cate <lora:kamisatoAyakaSpringbloom_v10:1> | ||
Negative | nsfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt, | ||
各種設定 | |||
sampling method | DPM++ 2M Karras | sampling steps | 20 |
Width | 512 | Batch count | 10 |
Height | 768 | Batch size | 1 |
CFG Scale | 7 | ||
Seed | 1091979662 |
先のテストでは、特定のキャラクター(原神より:神里綾華)を上手く生成できませんでした。狙ったキャラクターを生成するなら「LoRAモデル」の出番です。
生成速度を犠牲にするかわりに、ほぼ100%に近い確率※で狙ったキャラクターを生成できます。
※使用するモデルとLoRAモデルの組み合わせや、LoRAモデル自体の品質によって確率は大きく変わります。今回使った組み合わせと設定では、ほぼ100%に近い確率で神里綾華が出現します。
LoRAモデルを適用した結果、RTX 4000シリーズで平均33%、RTX 3000シリーズで平均18%、RTX 2000シリーズで平均13%の性能低下が見られます。
生成速度の速いグラボほど、LoRAモデルによる性能低下が大きいです。結果的に上位グラボとの性能差が縮まり、相対的にミドルハイ~ミドルクラスのコスパが上がっています。
ただし、RTX 4000シリーズはまだまだ最適化が進んでいない説もあります。使用するcuDNN(※AI向けのNVIDIAドライバ)のバージョンを最新版にするだけで処理性能が1.3倍になったため、今後のアプデ次第でさらに化けるかもしれません。
現時点の検証では、LoRAモデルを使うならRTX 4090のような超ハイエンドは割に合わないだけで、今後のアップデートで状況が変わる可能性があります。
10枚分の描画時間を確認します。
RTX 4090やRTX 4080が約26~27秒(1枚あたり3秒近い)に対して、RTX 3060 12GBとRTX 2060 12GBは約63~65秒(1枚あたり6秒半)です。
両者の価格差は5~8倍ですが、性能差はせいぜい2倍です。LoRAモデルで狙ったキャラクターを描かせるなら、RTX 3060 12GBの方がコストパフォーマンスに優れています。
512×768:神里綾華(LoRA + ControlNet)
- 使用するモデル:AbyssOrangeMix2_nsfw
- 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | masterpiece, best quality, soft lighting, absurdres, looking at viewer, solo, ponytail, serafuku, kamisato ayaka (heytea), official art, official alternate costume, kamisato ayaka, blunt bangs, hair bow, hair ribbon, red ribbon, school uniform, sailor shirt, sailor collar, pleated skirt, 1girl, skirt, black bow, cate <lora:kamisatoAyakaSpringbloom_v10:1> | ||
Negative | nsfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt, | ||
各種設定 | |||
sampling method | DPM++ 2M Karras | sampling steps | 20 |
Width | 512 | Batch count | 10 |
Height | 768 | Batch size | 1 |
CFG Scale | 7 | ||
Seed | 1091979662 | ||
ControlNet設定 | |||
Image | |||
Preprocessor | openpose | Model | controlnetPreTrained_openposeV10 |
次は狙ったキャラクターだけでなく、狙った構図やポーズを決めてAIイラストを生成します。
プロンプト(呪文)をどれだけ細かく指定しても、そのまま生成すると毎回ランダムな構図やポーズで描かれます。しかし、「ControlNet」を適用するといともかんたんにポーズを固定できます。
生成速度はやや犠牲になりますが、その分狙った構図やポーズを呼び出せるためトータルで見ると時短です。
ControlNetを適用した結果、RTX 4000~RTX 2000シリーズで平均20~23%の性能低下が見られます。
イラスト10枚分の描写速度を比較したグラフです。
RTX 4090やRTX 4080はやはり速いままです。10枚を描くのに30秒台(1枚あたり3秒強)で完了します。
ミドルクラスでコスパに優れるRTX 3060 12GBやRTX 2060 12GBだと、10枚で80~90秒(1枚あたり8秒半)です。
個人的に10枚で1分を大きく超えてくるとかなり遅く感じます。予算次第ですが、RTX 3070以上を候補に入れても良さそうです。
RTX 3060 12GBの約1.5倍の価格で、イラストの生成速度が約1.4~1.5倍になり、コストパフォーマンスはほぼ同じままです。WQHDゲーミングをこなせる性能で、ゲーミング用途との相性もいいです。
512×1024:刻晴(LoRA + ControlNet)
- 使用するモデル:Checkpoint Merger
YesMix v1.5(0.7)+ AbyssOrangeMix2_nsfw(0.3) - 使用するLoRAモデル:Keqing | 3in1 LoRA & LoCon
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | (Realistic painting style:1.1), masterpiece, best quality, absurdres, (1girl, solo:1.3), keqing (piercing thunderbolt) (genshin impact), keqing (genshin impact), (black pantyhose:1.3), pale purple hair, (twintails:1.0), cone hair bun, natural lips, medium breast, earrings, dress, pantyhose, black gloves, detached sleeves, braid, skirt, pink eyes, looking at viewer, long hair, sitting, white background, portrait, 100mm, bokeh, teasing smile:0.6, <lora:keqingGenshinImpact3in1_v10:1> | ||
Negative | nsfw, bare legs, (worst quality, low quality:1.4), worst face, huge breast, (zombie:1.1), text, bad_prompt, extra digits, | ||
各種設定 | |||
sampling method | DPM++ 2M Karras | sampling steps | 20 |
Width | 512 | Batch count | 10 |
Height | 1024 | Batch size | 1 |
CFG Scale | 7 | ||
Seed | 3724878326 | ||
ControlNet設定 | |||
Image | |||
Preprocessor | openpose | Model | controlnetPreTrained_openposeV10 |
「512×1024」サイズに、LoRAモデル(原神より:刻晴)とControlNetを適用して、高負荷なAIイラストベンチマークをテストします。
なお、Stable Diffusion Web UIには優秀なアップスケーリング機能が備わっています。大きいイラストを生成するなら、サイズはそのままにアップスケーリングを掛けたほうが良いです。
使用するモデルによっては、512×512より大きいサイズで生成するとイラストの内容が破綻したり、頭や腕が複数生えたり上半身と下半身が分裂したりと結果が安定しない場合があります。
あくまでも、ベンチマーク目的として「512×1024」サイズを試しただけです。
興味深いベンチマーク結果です。
512×768テストと比較して、RTX 4090はわずか3%の性能低下で済んでいるのに対して、RTX 4080では約10%も速度が下がります。
RTX 3000シリーズだと更に性能低下がひどく、平均で23%も下がります。VRAM容量が少ないグラボほど下落幅が大きいです。
RTX 2000シリーズでは平均28%も性能が下がってしまい、最新世代と旧世代の性能差が大きく開く結果になりました。
イラスト10枚分の描写時間です。
10枚を1分以内に描写できるグラボはRTX 4090 / RTX 4080 / RTX 3090 / RTX 3080 10GBの4つだけ。RTX 3080未満のグラボはすべて1分以上です。
RTX 3060 12GBとRTX 2060 12GBは10枚描くのに2分もかかっており、1枚あたり12秒も使います。1枚あたり10秒以上の生成時間を待てるかどうか、個人的にはちょっとつらいです。
これほどの性能差が開いても、RTX 4090はまだまだ高いですが、約17~21万円で買えるRTX 4080なら割に合う価格に入ってきます。
約4~5倍の価格で、イラストの生成速度が約3倍です。
1024×1532:神里綾華(LoRA + アップスケーリング)
- 使用するモデル:Checkpoint Merger
YesMix v1.5(0.7)+ AbyssOrangeMix2_nsfw(0.3) - 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
プロンプト(呪文)設定 | |||
---|---|---|---|
Positive | genshin impact, kamisato ayaka (flawless radiance), 1girl, official costume, arm behind head, arm up, bangs, ponytail, light blue hair, small breasts:0.5, cleavage:0.5, cowboy shot, blunt bangs, hair ribbon, red ribbon, hand up, holding, long hair, looking at viewer, parted lips, red background, navy eyes, mole under eye, solo, standing, skirt, zettai ryouiki:0.8, kote, kusazuri, underboob:0.7, japanese armor, <lora:kamisatoAyakaSpringbloom_v10:0.9> | ||
Negative | nsfw, (low quality:1.3), (worst quality:1.3),(monochrome:0.8),(deformed:1.3),(malformed hands:1.4),(poorly drawn hands:1.4),(mutated fingers:1.4),(bad anatomy:1.3),(extra limbs:1.35),(poorly drawn face:1.4),(signature:1.2),(artist name:1.2),(watermark:1.2) | ||
各種設定 | |||
sampling method | DPM++ 2M Karras | sampling steps | 20 |
Width | 512 | Batch count | 5 |
Height | 768 | Batch size | 1 |
CFG Scale | 7 | ||
Seed | 2010019905 | ||
アップスケーリング(Hires Fix)設定 | |||
Upscaler | Latent | Denoising strength | 0.6 |
イラスト生成時にアップスケーリングをかける便利機能「Hires Fix」を使って、1024×1536サイズの高解像度イラストを生成します。
今回はアップスケーラーに「Latent」、アップスケール倍率に「2.0」、ノイズ除去の強さを「0.6」に設定してテストを実行します。
結果、最新世代と旧世代でハッキリと性能差が出ます。
VRAM容量が24 GBあるRTX 3090ですら、RTX 4080(VRAM:16 GB)に約1.5倍も遅れています。RTX 4090が相手だと約1.7倍の性能差です。
イラスト5枚分の描画時間を比較します(※処理が非常に遅かったため5枚でテスト)。
RTX 4090は突出して処理が速く、わずか44秒で10枚(1枚あたり4.4秒)です。RTX 4080はギリギリ1分以内に10枚を描き、1枚あたり6秒でした。
ミドルクラスでコスパがいいRTX 3060 12GBとRTX 2060 12GBでは、10枚分で約200~210秒(1枚あたり20秒)もかかっています。
結局のところ、ネイティブに高解像度イラストを出すか、アップスケールで高解像度に変換するか。どちらを使っても処理が非常に重たいです。
512×512サイズで大量にイラストを生成して、特に気に入った1枚だけをアップスケールするなら、おそらくRTX 2060 12GBやRTX 3060 12GBで十分です。
逆に、高解像度なイラストを日常的に生成させるなら、RTX 3080やRTX 4080などハイエンドなグラフィックボードが要求されます。
もちろん、遅い生成時間でものんびりと待てる方は・・・、別に何を選んでもいいと思います。VRAM容量が8 GB以上あれば高解像度なイラスト生成自体は可能です。
まとめ:AIイラストにおすすめなグラボ【3選】
今回のStable Diffusionベンチマーク調査で、「AIイラストにおすすめなグラボ」がざっくりと判明しました。
RTX 3060 12GB:AIイラスト向け入門グラボ
AIイラスト入門におすすめなグラフィックボードが「RTX 3060 12GB」です。
RTX 2060 12GBとほぼ同じ値段で、AIイラスト生成性能も同等レベル。そしてゲーミング性能でRTX 2060を約1.2倍ほど上回ります。
低価格ながらVRAM容量が12 GBもあるおかげで、AIイラストの「学習」も可能です。モデルやツールの発展で学習に必要なVRAM容量は減りつつありますが、やはり12 GBあると嬉しいです。
RTX 4070 Ti 12GB:AIを教育する「学習」も対応可能
まだ実際に検証できていませんが、「RTX 4070 Ti」はRTX 3090やRTX 3080を軽く上回るAIイラスト性能が報告されています。
VRAM容量が12 GBもあり、高解像度なAIイラスト生成やアップスケーリングも快適です。LoRAモデルと–xformersコマンドの併用で「学習」も問題なく機能します。
ゲーミング性能も非常にパワフルで、RTX 3090以上です。4KゲーミングだとRTX 3090をわずかに下回りますが、半額の値段を考えればコストパフォーマンスの差は圧倒的です。
グラフィックボードで10万円台を出せるなら、今もっともベストなグラフィックボードです。
RTX 4080 16GB:最速ではないがコスパがいい
民生向け(業務向けを含まない)のグラフィックボードで、現行最速モデルが「RTX 4090 24GB」です。
他製品でまったく替えが効かない唯一無二の性能を誇る、文句なしの最強グラボです。予算に糸目をつけず最高のモノを買いたいなら、RTX 4090 24GBで決まりです。
ただし、今回のベンチマークを見る限りRTX 4090のコストパフォーマンスはイマイチ。アップスケーリングを含めた高解像度テストにおいて、RTX 4090はRTX 4080に対して1割強しか差がありません。
1.5倍以上の価格差を考えると、コストパフォーマンスは微妙です。24 GBの大容量VRAMで「学習」が非常に高速な可能性はありますが、まだ未検証ですので何とも言えません。
そもそも、RTX 4090に搭載されているCUDAコア数(約16000コア)に見合った性能が現時点で出せていない印象も強いです。
今後の最適化次第で大きく化ける可能性に期待できるものの、やはり現状のベンチマーク結果ではRTX 4080 16GBの方がおすすめしやすいです。
中古グラボなら:RTX 2060 12GBやRTX 2070なども
中古市場のグラボはマイニングあがりで経年劣化が進行しているリスクが高く、基本的に推奨できません。
リスクを承知の上で、とにかく安くAIイラスト用のグラフィックボードを買いたいなら、止めはしないです。
今回のベンチマーク結果だと、RTX 2060 12GBやRTX 2070~RTX 2070 Superが狙い目です。特にRTX 2060 12GBは中古だと2~3万円、RTX 2070 Superは3万円後半で買えます。
ゲーム性能で現行モデルに大きく劣る代わりに、AIイラスト生成はそれほど大きな性能差が無いです。AIイラスト用と割り切って買う分にはコスパの良い選択肢になるでしょう。
以上「【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】」でした。
今後の調査予定:「学習」の処理速度
今回のテストで使用したように、特定のキャラクターや、何らかの特徴(鉄道風景や線画風など)だけを正確に呼び出したいときにLoRAモデルがとても役に立ちます。
とはいえ、自分のニーズに合ったLoRAモデルが出回っていない場合も多々あります。無いならどうするか、自分で作れば良い・・・というわけで今後の調査予定はLoRAモデルの学習速度です。
RTX 4000搭載のおすすめゲーミングPC【解説】
RTX 3000搭載のおすすめゲーミングPC【解説】
これからAIイラスト用にパソコンを用意するなら、基本的にBTOパソコンを推奨します。手っ取り早く完成済みかつプロが組み立てたパソコンを入手できます。
すでにパソコンを持っている方は、「グラフィックボードの増設・交換ガイド」を参考に、新しく買ってきたグラボを増設・交換するだけでOKです。
- 2023/03/08:Stable Diffusion Web UIのGPUベンチマーク結果をアップ
詳細なデータありがとうございます。
最近の高性能CPUやGPUは私の使用目的では勿体なさ過ぎると感じていましたが、こういう使い方をする人にとってはわずかな出費の違いがパフォーマンスにものすごい差を示すのですね。
現在RADEON用にnod-ai SHARKが有るので
もう少ししたらまともに使える様になるかしれません
検証お疲れ様でした
赤と緑ではライブラリに雲泥の差が有り
AIに関してはcudaの牙城が大き過ぎますからね
AMDが一朝一夕に追いつける物ではない
AI用途だと3060(12GB)>3060Tiという下剋上が発生するのかと思いきや
「VRAMありき」と世間が言うほどでは無いみたいですね。
次回の学習編でそれが覆るのか楽しみです。
StableDiffusionは速度に関してはVRAM容量よりVRAM帯域幅とfp16演算性能が重要なので覆ることはないでしょう。
とはいえ3060はVRAM容量が大きい分解像度を上げたりBatch sizeを上げられるメリットがあります。
検証おつでした
ブルプロの時も思ったんですが1660と3050って結構差が出るんですねぇ
ゲームやベンチ的なのだと同等と思ってたので意外でした
RTX 3000シリーズはTensorコアが搭載されたので、こういった機械学習系の用途だと性能が伸びやすいですね。
今後のアップデートでRTコア(レイトレ用)の演算性能も活用できるようになるらしいので、まだまだ伸びしろがありそうです。
各グラボでBatch sizeを最大まで上げた場合の効率も知りたいです。
私はこれほど多くのGPUで比較できず感覚的で申し訳ないですが、Batch sizeが4程度に大きい方が1枚あたりの時間が短く、並列数を上げるにはVRAMがより必要、と理解しています。
特にRTX4090は伸び幅が大きいように思います(ハローアスカは5×2生成で9秒を割ります)
とても参考になる情報ありがとうございます。
実際にバッチ回数 x バッチサイズを変更して、いくつかベンチマークを試したところ、VRAM消費量が1~2 GBほど増える代わりに、イラスト10枚分の描写時間がかなり短縮できました。
特に「512×768:LoRA + ControlNet」では、約46%もの高速化で割りと衝撃的です。