【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】

月額料金なし、無制限の生成枚数でAIイラストをガシガシ描くなら、Stable Diffusionをローカル環境にインストールする「AUTOMATIC1111版Stable Diffusion WebUI」が必要です。

しかし、ローカル版AIイラストはグラフィックボードも必須です。

  • VRAM容量が多くないとダメ
  • RTX 4000シリーズが良い
  • Radeonは絶対にNG

などなど・・・。いろいろな情報が飛び交っていますが実際のところはどうなのか?

グラボが棚に30枚ほど
やかもち
グラフィックボードをなぜか30枚ほど所有している筆者が、実際にStable Diffusionを動かして徹底的に検証します。

(公開:2023/3/8 | 更新:2023/3/14

AIイラスト(Stable Diffusion)におすすめなグラボを検証

検証方法:AIイラストの生成速度をテストする

Stable Diffusion Web UI

AIイラスト(Stable Diffusion)に適したグラフィックボードをテストする方法はシンプルです。

実際にAIイラストを何枚か描かせて、処理にかかった時間と生成速度を記録します。AIイラストの生成速度が速いグラフィックボードが、AIイラストに適したグラボです。

今回のStable Diffusionベンチマークでは、以下の2つの数値を「性能」として扱います。

  1. ログに表示される生成速度(Iterations per Second)
  2. リザルトに表示される描写時間(Time taken)
ログに表示される生成速度(Iterations per Second)

生成速度は「it/s」と表示され、1秒あたりのステップ回数らしいです。正直ちょっと直感的に分かりづらいので、よく分からない人は描写時間に注目しましょう。

イラスト生成にかかった時間(リザルト画面)

リザルト画面に表示される「Time taken」は、スタートを押してからAIイラストの生成が終わるまでにかかった時間を示します。

たとえば、イラストを10枚描かせて62秒かかったなら、イラスト1枚あたり6秒の処理時間です。

テスト環境:使用したグラボとPCスペックを紹介

Stable Diffusion用のテストスペック
テスト環境
「ちもろぐ専用ベンチ機(2023)
スペックRaptor Lake
CPUCore i9 13900K
マザーボードASUS TUF GAMING
Z690-PLUS WIFI D4
メモリDDR4-3200 16GB x2使用モデル「Elite Plus UD-D4 3200」
グラボRTX 4090 24 GB
RTX 4080 16 GB
RTX 4070 Ti
RTX 3090 24 GB
RTX 3080 10 GB
RTX 3070 Ti
RTX 3070
RTX 3060 12 GB
RTX 3050
RTX 2080 Ti
RTX 2080 Super
RTX 2070 Super
RTX 2060 12 GB
RTX 2060 6 GB
GTX 1660 Ti
GTX 1660 Super
GTX 1650(GDDR6)
GTX 1080 Ti
GTX 1080
GTX 1070 Ti
GTX 1060 6 GB
GTX 1050 Ti
GT 1030
RX 6800 XT
RX 6700 XT
RX 6600 XT
RX 6500 XT
RX 6400
RX 5700 XT
RX 5600 XT
SSDNVMe 1TB使用モデル「Samsung 970 EVO Plus」
OSWindows 11 Pro(22H2)
ドライバNVIDIA 531.18 DCH(cuDNN 8.8.0)
AMD Adrenalin 23.2.2

今回のStable Diffusionベンチマークで使用するテスト機のPCスペックです。

一応、CPUにCore i9 13900K(24コア32スレッド)、メモリ容量をたっぷり32 GBなど。グラフィックボードの足を引っ張らないスペックを使っています。

テストに使用したグラフィックボードは全部で30枚です。

筆者のお財布事情と時間の都合で、すべてのグラフィックボードが揃っているわけではないものの、ベンチマークとして性能を比較するのに不足しない量を揃えています。

【グラボ別】AIイラスト(Stable Diffusion)の生成速度

すべてのテストで共通の設定
Clip skip2
eta (noise multiplier) for ancestral samplers0.67
HypernetworkNone

Stable Diffusionベンチマークで使用した共通の設定は以上のとおりです。

テストごとに使用したモデルやプロンプト、細かい設定やシード値はそれぞれのテストごとに記載します。

Stable Diffusionの起動オプション
GeForceシリーズ(共通)–xformers
GTX 1600シリーズ–no-half
GeForceシリーズ
VRAM:4~6 GB
–medvram
GeForceシリーズ
VRAM:4 GB未満
–lowvram
Radeonシリーズ(共通)–no-half –always-batch-cond-uncond –opt-sub-quad-attention
Radeonシリーズ
VRAM:6~8 GB
–medvram
Radeonシリーズ
VRAM:2~4 GB
–lowvram

グラフィックボードの仕様に合わせて、Stable Diffusionの起動オプションを調整しています。

「–xformers」はTensorコアを搭載するGeForceシリーズで生成速度の高速化が見込めるコマンドです。「–no-half」はGTX 1600シリーズの高速化設定。

「–medvram」と「–lowvram」は生成速度を犠牲にするかわりに、VRAM容量が少ないグラボでAIイラストの生成を可能にします。ただし、生成される内容の再現性がやや悪化します。

「–no-half –always-batch-cond-uncond –opt-sub-quad-attention」はRadeon RXシリーズ用のコマンドです。いろいろ試した中で、今回のテスト環境でもっとも安定してAIイラストの生成が可能でした。

なお、Radeon RXシリーズはVRAMの使用効率が非常に悪かったため、「–medvram」「–lowvram」を使うVRAM容量をGeForceよりも低めに設定しています。

テストに使用したStable Diffusion
GeForce用AUTOMATIC1111 / stable-diffusion-webui
(git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.)
Radeon用AUTOMATIC1111 / stable-diffusion-webui / DirectML
(git clone https://github.com/lshqqytiger/stable-diffusion-webui-directml && cd stable-diffusion-webui-directml && git submodule init && git submodule update)

GeForce用のStable Diffusionは「CUDA」で動作するバージョンを、Radeon用は「DirectML」で動作するバージョンを、それぞれ別々に用意しました。

RadeonでPyTorchを動かせる「AMD ROCm」はWindows環境で(今のところ)動作しないため、今回はDirectML版をテストに使用します。

記事を公開後、コメント欄にて「xformersとpytorchを最新版にビルドし直すとRTX 4000はもっと速いはず」と重要な情報をいただきました。

  • torch: 2.1.0.dev20230311+cu118
  • xformers: 0.0.17+b6be33a.d20230313
    (※2023年3月時点の最新版)

プログラミング知識ゼロながら知恵を絞ってなんとか上記の最新版にビルドし直したところ、大幅な性能アップに成功。記事中の比較グラフに「v17」と記載してデータを追加しました。

512×512:ハローアスカベンチマーク

512x512:Hello Asuka Benchmark
  • 使用するモデル:nai.ckpt
プロンプト(呪文)設定
Positivemasterpiece, best quality, masterpiece, asuka langley sitting cross legged on a chair
Negativelowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts,signature, watermark, username, blurry, artist name
各種設定
sampling methodEulersampling steps28
Width512Batch count10
Height512Batch size1
CFG Scale12
Seed2870305590

「ハローアスカベンチマーク(Hello Asuka Benchmark)」は、NovelAIでAIイラストを生成した結果と一致した結果を得られるかを検証する方法です。

設定を揃えるとほとんどのグラフィックボードでまったく同じ結果を生成できるため、同じ条件で揃えて性能を比較するベンチマークに適しており、Stable Diffusionの定番ベンチマークとして扱われています。

512x512:ハローアスカベンチマーク(Stable Diffusionのベンチ結果)

ハローアスカベンチマーク(512×512)の生成速度をグラボ別に比較したグラフです。

予想通り、RTX 4090やRTX 4080が猛威をふるいますが、512×512程度の生成ならRTX 3060 12GBやRTX 2060 12GBなどミドルクラスのグラボでもそこそこのスピードで生成できます。

512x512:ハローアスカベンチマーク(Stable Diffusionのベンチ結果)

次は、ハローアスカベンチマーク(512×512)の描写速度をグラボ別に比較したグラフを見てみましょう。

こうして描写時間(10枚の生成にかかった時間)で見ると、RTX 3060 12GBとRTX 2060 12GBがかなりコスパの良いグラボだと評価できます。

もちろん、RTX 4090なら10枚の生成をわずか10秒で完了しますが、RTX 2060 12GBと比較して価格が6~8倍も高いです。

生成ガチャを大量に回すやり方ならハイエンドグラボが良いでしょうが、最近は狙ったイラストを高い確度で生成する手法が凄まじい勢いで整備されているため、512×512イラストの生成だけならRTX 2060 12GB~RTX 3060 12GBで十分です。

初心者もち
あの・・・、Radeon RX 6800 XTが遅すぎません?さすがにRTX 3050に負けるなんて考えにくい。

筆者も当然Radeonシリーズの異様な遅さに違和感を覚えて、起動オプションをいろいろ試したり、ドライババージョンを変更して性能差を比較したり手を尽くしました。

それでも目立った性能アップは無理でした。どうやら、Radeon用(DirectML版)はまだまだ最適化が進んでおらず、CUDAを使うGeForceシリーズほど速度を出せないようです。

VRAM容量の利用効率も非常に悪く、GeForceで3~4 GBで済んでいるイラスト生成が、Radeonだと8 GB全部使い切ってしまいます。

やかもち
AIイラストでRadeonがまったく推奨されない理由がよく理解できました。特にWindows環境だとRadeonを選ばない方がいいです。

512×768:神里綾華ベンチマーク

512x768:Ayaka Benchmark
  • 使用するモデル:AbyssOrangeMix2_nsfw
プロンプト(呪文)設定
Positivemasterpiece, best quality, soft lighting, absurdres, looking at viewer, solo, ponytail, kamisato ayaka, serafuku, kamisato ayaka (heytea), official art, official alternate costume, blunt bangs, hair bow, hair ribbon, red ribbon, school uniform, sailor shirt, sailor collar, pleated skirt, 1girl, skirt, black bow, cate, genshin,
Negativensfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt,
各種設定
sampling methodDPM++ 2M Karrassampling steps20
Width512Batch count10
Height768Batch size1
CFG Scale7
Seed1091979662

ここからは筆者が作成したオリジナルベンチマークで、AIイラストの生成速度を比較します。

イラストサイズを512×768に変更して、特定のキャラクター(原神より:神里綾華)を呼び出すベンチマークです。なお、設定をきちんとコピーすると結果をほぼ再現可能です。

512×768:ベンチマーク(Stable Diffusionのベンチ結果)

神里綾華ベンチマーク(512×768)の生成速度をグラボ別に比較したグラフです。

生成サイズが1.5倍(26.2万画素 → 39.3万画素)に増えたため、VRAM容量の少ないグラフィックボードは生成途中でVRAM不足エラーに陥りテストに失敗します。

RTX 4090とRTX 4080は相変わらずトップクラスの生成速度です。RTX 3060 12GBとRTX 2060 12GBも引き続き、ほぼ同じ性能で競っています。

512×768:ベンチマーク(Stable Diffusionのベンチ結果)

描画時間(10枚分)を確認します。

RTX 4090は512×768サイズをなんと14秒ほどで完了。1枚あたり、わずか1.4秒で描写を終える圧倒的な性能です。

RTX 3060 12GBとRTX 2060 12GBはどちらもほぼ同じ処理時間です。1枚あたり5秒でイラストの生成が完了します。ガチャを大量に回さず、設定を詰めて高確率で狙うなら5秒で十分な速度では?

やかもち
VRAM容量の差で性能逆転が起きるかと思いきや、同じ世代だと意外とGPUの演算性能が反映された結果に。

512×768:神里綾華(LoRA)ベンチマーク

512x768:Ayaka LoRA Benchmark
  • 使用するモデル:AbyssOrangeMix2_nsfw
  • 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
プロンプト(呪文)設定
Positivemasterpiece, best quality, soft lighting, absurdres, looking at viewer, solo, ponytail, serafuku, kamisato ayaka (heytea), official art, official alternate costume, kamisato ayaka, blunt bangs, hair bow, hair ribbon, red ribbon, school uniform, sailor shirt, sailor collar, pleated skirt, 1girl, skirt, black bow, cate <lora:kamisatoAyakaSpringbloom_v10:1>
Negativensfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt,
各種設定
sampling methodDPM++ 2M Karrassampling steps20
Width512Batch count10
Height768Batch size1
CFG Scale7
Seed1091979662

先のテストでは、特定のキャラクター(原神より:神里綾華)を上手く生成できませんでした。狙ったキャラクターを生成するなら「LoRAモデル」の出番です。

生成速度を犠牲にするかわりに、ほぼ100%に近い確率※で狙ったキャラクターを生成できます。

※使用するモデルとLoRAモデルの組み合わせや、LoRAモデル自体の品質によって確率は大きく変わります。今回使った組み合わせと設定では、ほぼ100%に近い確率で神里綾華が出現します。

512×768:LoRAベンチマーク(Stable Diffusionのベンチ結果)

LoRAモデルを適用した結果、RTX 4000シリーズで平均27%、RTX 3000シリーズで平均20%、RTX 2000シリーズで平均17%の性能低下が見られます。

生成速度の速いグラボほど、LoRAモデルによる性能低下が大きいです。結果的に上位グラボとの性能差が縮まり、相対的にミドルハイ~ミドルクラスのコスパが上がっています。

それでもRTX 4000シリーズのAIイラスト性能はやはり優秀です。最適化ビルドでは、RTX 4070 TiすらRTX 3090を約30%超える生成速度です。

512×768:LoRAベンチマーク(Stable Diffusionのベンチ結果)

10枚分の描画時間を確認します。

RTX 4090は約18秒、RTX 4080が約22秒、RTX 4070 Tiが約25秒でした。RTX 3060 12GBとRTX 2060 12GBは約63~65秒(1枚あたり6秒半)です。

RTX 3060 12GBのコスパが光るかと思いきや、意外とRTX 4070 Tiといい勝負だったりします。

RTX 3060 12GBが約5.1万円から、RTX 4070 Tiは約12.9万円で価格差が2.5倍に対して、描写速度の性能差もほぼ同じ2.5倍です。

コスパで見ると大差ないので、もし予算が許すならRTX 4070 Tiを選んだほうが幸せ。

512×768:神里綾華(LoRA + ControlNet)

512x768:Ayaka Lora + ControlNet Benchmark
  • 使用するモデル:AbyssOrangeMix2_nsfw
  • 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
プロンプト(呪文)設定
Positivemasterpiece, best quality, soft lighting, absurdres, looking at viewer, solo, ponytail, serafuku, kamisato ayaka (heytea), official art, official alternate costume, kamisato ayaka, blunt bangs, hair bow, hair ribbon, red ribbon, school uniform, sailor shirt, sailor collar, pleated skirt, 1girl, skirt, black bow, cate <lora:kamisatoAyakaSpringbloom_v10:1>
Negativensfw, (worst quality, low quality, extra digits, male:1.4)), bad_prompt,
各種設定
sampling methodDPM++ 2M Karrassampling steps20
Width512Batch count10
Height768Batch size1
CFG Scale7
Seed1091979662
ControlNet設定
Image
PreprocessoropenposeModelcontrolnetPreTrained_openposeV10

次は狙ったキャラクターだけでなく、狙った構図やポーズを決めてAIイラストを生成します。

プロンプト(呪文)をどれだけ細かく指定しても、そのまま生成すると毎回ランダムな構図やポーズで描かれます。しかし、「ControlNet」を適用するといともかんたんにポーズを固定できます。

生成速度はやや犠牲になりますが、その分狙った構図やポーズを呼び出せるためトータルで見ると時短です。

512×768:LoRA + ControlNetベンチマーク(Stable Diffusionのベンチ結果)

ControlNetを適用した結果、RTX 4000~RTX 2000シリーズで平均22~25%の性能低下が見られます。

512×768:LoRA + ControlNetベンチマーク(Stable Diffusionのベンチ結果)

イラスト10枚分の描写速度を比較したグラフです。

依然として、RTX 4090やRTX 4070 Tiがトップクラスの速さです。RTX 4070 Tiだと、10枚を描くのに30秒(1枚あたり3秒)で事足ります。

ミドルクラスでコスパに優れるRTX 3060 12GBでは、10枚で82秒(1枚あたり8秒)です。

AIイラストを8000枚ほど作成させた経験から言うと、10枚で1分超えは遅く感じます。予算次第ですが、1分を切れるRTX 3070や、欲を言うならRTX 4070 Tiを検討したいです。

ちなみに、コストパフォーマンスを計算するとなんとRTX 4070 Tiの方が良好です。

RTX 3060 12GBとRTX 4070 Tiの価格差は約2.5倍ですが、性能差は約2.7倍に達します。価格差以上の性能を得られるのでRTX 4070 Tiを推したいです。

やかもち
LoRAとControlNetを同時に使うと、512×768でも負荷がかなり大きくなりました。

512×1024:刻晴(LoRA + ControlNet)

512x1024:Keqing Lora + ControlNet Benchmark
  • 使用するモデル:Checkpoint Merger
    YesMix v1.5(0.7)+ AbyssOrangeMix2_nsfw(0.3)
  • 使用するLoRAモデル:Keqing | 3in1 LoRA & LoCon
プロンプト(呪文)設定
Positive(Realistic painting style:1.1), masterpiece, best quality, absurdres, (1girl, solo:1.3), keqing (piercing thunderbolt) (genshin impact), keqing (genshin impact), (black pantyhose:1.3), pale purple hair, (twintails:1.0), cone hair bun, natural lips, medium breast, earrings, dress, pantyhose, black gloves, detached sleeves, braid, skirt, pink eyes, looking at viewer, long hair, sitting, white background, portrait, 100mm, bokeh, teasing smile:0.6, <lora:keqingGenshinImpact3in1_v10:1>
Negativensfw, bare legs, (worst quality, low quality:1.4), worst face, huge breast, (zombie:1.1), text, bad_prompt, extra digits,
各種設定
sampling methodDPM++ 2M Karrassampling steps20
Width512Batch count10
Height1024Batch size1
CFG Scale7
Seed3724878326
ControlNet設定
Image
PreprocessoropenposeModelcontrolnetPreTrained_openposeV10

「512×1024」サイズに、LoRAモデル(原神より:刻晴)とControlNetを適用して、高負荷なAIイラストベンチマークをテストします。

なお、Stable Diffusion Web UIには優秀なアップスケーリング機能が備わっています。大きいイラストを生成するなら、サイズはそのままにアップスケーリングを掛けたほうが良いです。

使用するモデルによっては、512×512より大きいサイズで生成するとイラストの内容が破綻したり、頭や腕が複数生えたり上半身と下半身が分裂したりと結果が安定しない場合があります。

あくまでも、ベンチマーク目的として「512×1024」サイズを試しただけです。

512×1024:LoRA + ControlNetベンチマーク(Stable Diffusionのベンチ結果)

512×786テストと比較して、全体的に生成速度が下がります。高解像度になるほどVRAM容量による性能差が大きくなる予感がしますが、データを見る限りそれほど関係がない様子です。

VRAMが大きく関係しそうな高解像度のAIイラスト生成であっても、実際に生成速度に影響が大きいのはグラボの持つ演算性能です。

512×1024:LoRA + ControlNetベンチマーク(Stable Diffusionのベンチ結果)

イラスト10枚分の描写時間です。

512×1024のイラスト10枚を1分以内に描写できたグラボは、RTX 4090、RTX 4080、RTX 4070 Ti、RTX 3090、RTX 3080 10GBの5つだけです。

RTX 3080未満はすべて1分以上かかります。

RTX 3060 12GBは10枚描くのに105秒(1分45秒)、1枚あたり約11秒もかかります。個人的に、1枚あたり10秒以上の生成時間を待つのは苦しいです。

512×1024イラストの生成ではRTX 4070 Tiを推したいです。約2.5倍の価格ですが、性能も同じく2.5~2.6倍でコスパに違いがありません。

やかもち
高解像度のAIイラスト生成では最新世代(RTX 4000)がめちゃ強いです。

1024×1532:神里綾華(LoRA + アップスケーリング)

1024x1536:Ayaka Lora + Hires Fix Benchmark
  • 使用するモデル:Checkpoint Merger
    YesMix v1.5(0.7)+ AbyssOrangeMix2_nsfw(0.3)
  • 使用するLoRAモデル:Kamisato Ayaka (Springbloom Missive)
プロンプト(呪文)設定
Positivegenshin impact, kamisato ayaka (flawless radiance), 1girl, official costume, arm behind head, arm up, bangs, ponytail, light blue hair, small breasts:0.5, cleavage:0.5, cowboy shot, blunt bangs, hair ribbon, red ribbon, hand up, holding, long hair, looking at viewer, parted lips, red background, navy eyes, mole under eye, solo, standing, skirt, zettai ryouiki:0.8, kote, kusazuri, underboob:0.7, japanese armor, <lora:kamisatoAyakaSpringbloom_v10:0.9>
Negativensfw, (low quality:1.3), (worst quality:1.3),(monochrome:0.8),(deformed:1.3),(malformed hands:1.4),(poorly drawn hands:1.4),(mutated fingers:1.4),(bad anatomy:1.3),(extra limbs:1.35),(poorly drawn face:1.4),(signature:1.2),(artist name:1.2),(watermark:1.2)
各種設定
sampling methodDPM++ 2M Karrassampling steps20
Width512Batch count5
Height768Batch size1
CFG Scale7
Seed2010019905
アップスケーリング(Hires Fix)設定
UpscalerLatentDenoising strength0.6

イラスト生成時にアップスケーリングをかける便利機能「Hires Fix」を使って、1024×1536サイズの高解像度イラストを生成します。

今回はアップスケーラーに「Latent」、アップスケール倍率に「2.0」、ノイズ除去の強さを「0.6」に設定してテストを実行します。

1024×1536:LoRA + Hires Fix x2ベンチマーク(Stable Diffusionのベンチ結果)

結果、最新世代と旧世代でハッキリと性能差が出ます。

VRAM容量が24 GBあるRTX 3090ですら、RTX 4080(VRAM:16 GB)に約1.5倍も遅れています。RTX 4090が相手だと約2倍もの性能差です。

1024×1536:LoRA + Hires Fix x2ベンチマーク(Stable Diffusionのベンチ結果)

イラスト5枚分の描画時間を比較します(※処理が非常に遅かったため5枚でテスト)

RTX 4090は突出して処理が速く、わずか40秒で5枚(1枚あたり8秒)です。RTX 4080はギリギリ1分以内に5枚を描き、1枚あたり12秒でした。

RTX 4070 Tiは1分を超えてしまいますが、RTX 3090より10秒速いです。

ミドルクラスでコスパがいいRTX 3060 12GBでは、5枚分で約200秒(1枚あたり40秒)もかかっています。

結局のところ、ネイティブに高解像度イラストを出すか、アップスケールで高解像度に変換するか。どちらを使っても処理が非常に重たいです。

512×512サイズで大量にイラストを生成して、特に気に入った1枚だけをアップスケールするなら、おそらくRTX 2060 12GBやRTX 3060 12GBで十分です。

逆に、高解像度なイラストを日常的に生成させるなら、RTX 4070 TiやRTX 4080などハイエンドなグラフィックボードが要求されます。

もちろん、遅い生成時間でものんびりと待てる方は・・・、別に何を選んでもいいと思います。

筆者が試した限り、VRAM容量が8 GB以上あればHires Fixを用いた高解像度なイラスト生成は可能※です。ただ待ち時間がどうして長くなります。

※VRAMエラーが出た場合は、起動オプションに「–medvram」を付けて、問題が改善されるか要チェック。

やかもち
ちなみに、アップスケーラーモデルで時間が変わります。なめらかな質感に仕上がる「Latent」や「SwinIR_4X」は恐ろしく処理が重たく、ガシガシと鉛筆っぽい「ESRGAN」などは軽いです。

まとめ:AIイラストにおすすめなグラボ【3選】

今回のStable Diffusionベンチマーク調査で、「AIイラストにおすすめなグラボ」がざっくりと判明しました。

RTX 3060 12GB:AIイラスト向け入門グラボ

5. GeForce RTX 3060 12GB
玄人志向 / ブーストクロック : 1777 MHz / ファン : デュアル内排気 / 厚み : 2スロット(41.5 mm) / TDP : 170 W(8 pin)

AIイラスト入門におすすめなグラフィックボードが「RTX 3060 12GB」です。

RTX 3060 12GBのAIイラスト性能はここ

RTX 2060 12GBとほぼ同じ値段で、AIイラスト生成性能も同等レベル。そしてゲーミング性能でRTX 2060を約1.2倍ほど上回ります。

低価格ながらVRAM容量が12 GBもあるおかげで、AIイラストの「学習」も可能です。モデルやツールの発展で学習に必要なVRAM容量は減りつつありますが、やはり12 GBあると嬉しいです。

やかもち
約5万円から買える(比較的)手頃な価格設定がありがたい、ミドルクラスのグラボです。生成と学習どちらもそれなりにこなせます。
【注意点】RTX 3060の8GB版を買わないで

Amazonで約4.5万円から買える「RTX 3060 8GB」に要注意です。

名前こそRTX 3060ですが、VRAMの容量が4GBもカットされた8GB版かつ、VRAMの性能も1秒あたり360 GBから1秒あたり240 GBに激減しています。

12GB版と比較して9割の性能です。AIイラスト用途だとVRAM容量はないよりも、あった方がいいので、余計に8GB版は罠です。

RTX 4070 Ti 12GB:実はRTX 3090よりも高性能

PNY RTX 4070 Ti
玄人志向 / ブーストクロック : 2610 MHz / ファン : トリプル内排気 / 厚み : 3.5スロット(62 mm) / TDP : 450 W(16 pin) / 保証 : 3年

10万円台でおすすめのAIイラストグラボが「RTX 4070 Ti」です。

RTX 4070 TiのAIイラスト性能はここ

今回のベンチマークでは、おおむねRTX 3090以上のAIイラスト性能を発揮します。

RTX 3090の新品価格は今でも20万円を超えているため、半額近い価格でRTX 3090以上の性能が手に入れられます。

価格が高い分コスパが悪いように見えて、実はRTX 3060 12GBとコスパはほぼ同じです。たとえば512×768サイズだと、2.5倍の価格で2.7倍の性能です。

生成するイラストサイズや、同時に使う拡張機能(LoRAやControlNet)次第で、RTX 3060 12GB以上のコストパフォーマンスに化けます。

AIイラスト用のグラボに予算10万円台を出せるなら、今もっともベストなグラフィックボードです。

やかもち
Yahooショッピングで還元込み(→ 解説)なら実質10.5万円~から買えます。RTX 4000シリーズは全体的に値上げが大きいですが、価格あたり性能を見ると従来世代をきちんと打ち負かします。

RTX 4090 24GB:価格差に見合った「最速のAIグラボ」

RTX 4090
GIGABYTE / ブーストクロック : 2535 MHz / ファン : トリプル内排気 / 厚み : 4スロット(75 mm) / TDP : 450 W(16 pin) / 保証 : 4年

民生向け(業務向けを含まない)のグラフィックボードで、現行最速モデルが「RTX 4090 24GB」です。

他製品でまったく替えが効かない唯一無二の性能を誇る、文句なしの最強グラボです。予算に糸目をつけず最高のモノを買いたいなら、RTX 4090 24GBで決まりです。

RTX 4090のAIイラスト性能はここ

高解像度イラスト(512×768に2倍スケーリング)の生成において、RTX 4080に対してなんと46%も高性能です。

RTX 4090の価格がおよそ27万円から、RTX 4080が19万円台です。価格差が約1.4倍で、性能は1.46倍(約1.5倍)に達し、さらに24GBもの大容量VRAMも付いてきます。

一般的にグラフィックボードは価格が高いほどコストパフォーマンスが悪化する傾向が強いですが、AIイラスト用途だと・・・、逆にコスパが高くなる傾向があります。

もちろん、これは予算を無視してコスパだけを考えた場合の話。実際には人それぞれ予算がありますので、買える範囲でベストなグラボを買いましょう。

RTX 4080
GAINWARD / ブーストクロック : 2505 MHz / ファン : トリプル内排気 / 厚み : 3.5スロット(69.7 mm) / TDP : 320 W(16 pin) / 保証 : 1年

予算の上限20万円なら「RTX 4080」がベストですし、10万円前半で済ませるなら先に紹介した「RTX 4070 Ti」がおすすめです。

やかもち
1つ下のRTX 4080は若干コスパが悪いように見えますが、同じ価格にいるRTX 3090と比較すると圧倒的な性能で、買ってもハズレにならないです。

中古グラボなら:RTX 2060 12GBやRTX 2070なども

RTX 2070 Super

中古市場のグラボはマイニングあがりで経年劣化が進行しているリスクが高く、基本的に推奨できません。

リスクを承知の上で、とにかく安くAIイラスト用のグラフィックボードを買いたいなら、止めはしないです。

今回のベンチマーク結果だと、RTX 2060 12GBやRTX 2070~RTX 2070 Superが狙い目です。特にRTX 2060 12GBは中古だと2~3万円、RTX 2070 Superは3万円後半で買えます。

ゲーム性能で現行モデルに大きく劣る代わりに、AIイラスト生成はそれほど大きな性能差が無いです。AIイラスト用と割り切って買う分にはコスパの良い選択肢になるでしょう。

やかもち
RTX 2060 12GBが、RTX 3060 12GBに匹敵するAIイラスト性能で驚いてます。

以上「【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】」でした。

今後の調査予定:「学習」の処理速度

今回のテストで使用したように、特定のキャラクターや、何らかの特徴(鉄道風景や線画風など)だけを正確に呼び出したいときにLoRAモデルがとても役に立ちます。

とはいえ、自分のニーズに合ったLoRAモデルが出回っていない場合も多々あります。無いならどうするか、自分で作れば良い・・・というわけで今後の調査予定はLoRAモデルの学習速度です。

やかもち
ベンチマーク用に学習データを用意するところから始まります。学習対象は自キャラ「やかもち」にする予定です。

RTX 4000搭載のおすすめゲーミングPC【解説】

RTX 3000搭載のおすすめゲーミングPC【解説】

これからAIイラスト用にパソコンを用意するなら、基本的にBTOパソコンを推奨します。手っ取り早く完成済みかつプロが組み立てたパソコンを入手できます。

すでにパソコンを持っている方は、「グラフィックボードの増設・交換ガイド」を参考に、新しく買ってきたグラボを増設・交換するだけでOKです。

記事更新内容
  • 2023/03/08:Stable Diffusion Web UIのGPUベンチマーク結果をアップ
  • 2023/03/13:RTX 4070 Tiのベンチマーク結果を追加
  • 2023/03/14:RTX 4000(最適化設定)の性能を追加(UPDATE !!)
Sponsored Link

39 件のコメント

  • 詳細なデータありがとうございます。
    最近の高性能CPUやGPUは私の使用目的では勿体なさ過ぎると感じていましたが、こういう使い方をする人にとってはわずかな出費の違いがパフォーマンスにものすごい差を示すのですね。

  • 現在RADEON用にnod-ai SHARKが有るので
    もう少ししたらまともに使える様になるかしれません

  • 検証お疲れ様でした

    赤と緑ではライブラリに雲泥の差が有り
    AIに関してはcudaの牙城が大き過ぎますからね
    AMDが一朝一夕に追いつける物ではない

  • AI用途だと3060(12GB)>3060Tiという下剋上が発生するのかと思いきや
    「VRAMありき」と世間が言うほどでは無いみたいですね。
    次回の学習編でそれが覆るのか楽しみです。

    • 3日前にAIをはじめて触ったんですけど
      rtx3070のvram8GBだと、容量が大きい学習モデル同士のマージでエラーが起きたり
      容量が大きい学習モデルを使用している場合、学習モデルの切り替えでエラーがおきたりと、VRAMを使い切ってエラーが発生するケースがわりとあって
      特に学習モデルのマージはAIイラストをやりこむ上でかかせないので
      VRAM8Gだと結構ストレスに感じます

    • StableDiffusionは速度に関してはVRAM容量よりVRAM帯域幅とfp16演算性能が重要なので覆ることはないでしょう。
      とはいえ3060はVRAM容量が大きい分解像度を上げたりBatch sizeを上げられるメリットがあります。

  • 検証おつでした
    ブルプロの時も思ったんですが1660と3050って結構差が出るんですねぇ
    ゲームやベンチ的なのだと同等と思ってたので意外でした

    • RTX 3000シリーズはTensorコアが搭載されたので、こういった機械学習系の用途だと性能が伸びやすいですね。
      今後のアップデートでRTコア(レイトレ用)の演算性能も活用できるようになるらしいので、まだまだ伸びしろがありそうです。

  • 私はこれほど多くのGPUで比較できず感覚的で申し訳ないですが、Batch sizeが4程度に大きい方が1枚あたりの時間が短く、並列数を上げるにはVRAMがより必要、と理解しています。
    特にRTX4090は伸び幅が大きいように思います(ハローアスカは5×2生成で9秒を割ります)

    • RTX 409010×15×22×51×10
      512×51213.089.358.787.18
      512×76816.1511.66
      512×768:LoRA26.3715.88
      512×768:LoRA + ControlNet33.6818.25
      512×1024:LoRA + ControlNet35.0124.91
      1024×1532:LoRA + アップスケーリング43.9338.33

      とても参考になる情報ありがとうございます。

      実際にバッチ回数 x バッチサイズを変更して、いくつかベンチマークを試したところ、VRAM消費量が1~2 GBほど増える代わりに、イラスト10枚分の描写時間がかなり短縮できました。

      特に「512×768:LoRA + ControlNet」では、約46%もの高速化で割りと衝撃的です。

  • グラボを30枚も持っているなんてすごいですね。自分も気になるのは買ってもいいのかと錯覚してしまいます。危ない。

  • 正直、本気でやるなら速度よりvramが大事
    解像度あげると絵のディティールもアップするし、アップスケーリングは違和感ある
    ただ3090はvramの熱問題あるから自分で分解してグリス塗り直してサーマルパッド交換、追加してヒートシンクくっつけてファンも取り付けられる人にしかおすすめしない
    結局バランスの4080か性能の4090か、コスパの4070になる

    • 3090もノーマルのままで大丈夫なモデルも割と普通にありそうですよ。
      4070Tiの12GBが選択肢に入る使い方なら、3080Tiもいけますね。

    • 入力ミスでした・・・。
      今回は「GTX 1650 Super」をテストしていないので、全部「GTX 1660 Super」が正しいです。間違ってるグラフを修正します。

  • RTX4系はワッパも書いた方がいいですよ
    特に4090と4080は値段差を電力効率で埋めてしまえる程ですので…

  • 検証記事を作成いただきありがとうございます。NVIDIA/AMD両陣営を横並びで比較した記事はあまり見かけないので、興味深く拝見させていただきました。

    1点気になったこととして、現在”–xformers”オプションでインストールされるxformers、およびデフォルトで使用されるPytorchはRTX4000番台(Ada Lovelace世代)に最適化されていないため、そのままでは本来より低い性能しか出ません。
    このコメント通りに新しいバージョンのxformers・Pytorchを導入すると、概ね1.5倍程度の性能を発揮するようになります。
    https://github.com/AUTOMATIC1111/stable-diffusion-webui/issues/2449#issuecomment-1404540735

    私の環境はi5-13600k + RTX4090(Powerlimit 75%)ですが、
    記事中のHello Asuka Testでは33.2it/s、Ayaka Benchmarkでは19.1it/s程度が安定して出ています。

    もちろん「インストールしたてのカスタムしない状態での比較検証」ということでしたら記事内容に誤りはないのですが、RTX4090を買うようなひとはきちんと最適化も行うのではないか。Ada Lovelace世代とそれ以前の世代の性能差を比較するという観点であれば、きちんと性能を発揮できる環境を整えて検証した方がいいのではないか・・・と考える次第です。

    差し出がましいことを申し上げました。今後も記事を楽しみにしております。

    • 参考になる情報ありがとうございます。
      AD世代の最適化設定はけっこう複雑ですね。cuDNNを置き換えただけで満足してた(これで約1.3倍)のですが、他にもあっととは。試してみて見て効果があれば、グラフに「4090 最適化設定」という感じで追記します。

      • ご返信ありがとうございます。記事のアップデートを楽しみにしています。

        ところで、sd-extension-system-info という拡張機能はご存じでしょうか。
        CPUやGPU、インストールされている各種ライブラリのバージョン情報などを確認するツールですが、
        ベンチマーク機能も搭載されており、ワンクリックするだけで画像生成の速度を計測することができます。
        自動的にバッチサイズを変えながら生成速度を計測できるほか、様々な要因でスコアが低下してしまう初回生成のみ計測結果から除外するウォームアップ機能、オンラインでのスコア投稿・閲覧機能などもあります。
        (有志が送信したスコアはこちらから一覧でき、CPUやGPU、使用するライブラリ等のバージョンから絞り込むこともできます https://vladmandic.github.io/sd-extension-system-info/pages/benchmark.html

        他の方のコメントで、バッチサイズを変えた場合のテスト結果を記事にまとめる・・・というようなことを書いていらっしゃるのをお見かけして、記事執筆のお役に立つのではないかと思い付いた次第です。
        よければお試しください。

        • コメントありがとうございます。
          教えていただいた情報をもとに、torchとxformersをビルドし直しました。
          ・torch: 2.1.0.dev20230311+cu118
          ・xformers: 0.0.17+b6be33a.d20230313
          結果、RTX 4090が28.7 it/s → 35.3 it/sまで性能アップ(約1.2倍)、16000コアに見合う性能に近づいた感じです。ここまで性能が上がると、RTX 4080よりRTX 4090の方が優位ですね。

          Web UI拡張ベンチマークはおいおい試してみます。

  • RX570 8GBで768×768で問題なく出力出来てますけど、6600XTだと何で落ちるんでしょうね?
    ちなみにRadeonでは–medvram等は今のところ効果が無いので、512×512でもVRAMエラーで落ちますね。
    ※RX570では–opt-sub-quad-attention –no-halfにしないと512×512も768×768もVRAMエラーで落ちました。(元々FP16非対応)
    ※xformars等もGeforce用なのでエラーの原因になる事があります。

    Ryzen APUの場合はBIOSのVRAM設定を512MBから2GBに変更しておかないとBSODになる等、いくつか注意点があります。(gitに注意書きがあります)
    あとはメモリを64GB増設しておけばVRAM32GBまで使えるので問題無いでしょう。
    グラボのVRAMをOSや他アプリに使わせたくない場合は、iGPU付きCPUを選択した方が良いです。
    そうしないとお絵描き中にYoutube等を開いたりするとVRAMが消費されますのでお絵描きがエラー落ちする原因になります。
    お絵描きをGPU割り当てする場合はPython.exeをWindowsのGPU割り当てでグラボに割り当てる事で可能です。
    firefox.exeやchrome.exeはiGPUに割り当てましょう。
    少しでもグラボのVRAMを空けることで落ちにくくなります。

    スタート→ゲーム→ゲームモード→グラフィック→アプリのカスタムオプション→アプリを追加する
    [特定のGPU: RX570] C:\Users\User名\AppData\Local\Programs\Python\Python310\python.exe
    [特定のGPU: RX570] C:\stable-diffusion-webui-directml\venv\Scripts\python.exe

    • 僕はLinux+ROCm環境ですが、こちらも–medvramの効果がありませんでした。(RX 5500 XTを使用)
      まさかmedvramもxformars同様にNVIDIA専用なのでしょうか? 公式レポジトリの引数解説にはそのような説明はありませんでしたが…

  • エンコードのために1060->1660superにしてしまったがAIお絵描きでは1060の方が優秀だったとは…FP16バグが憎い
    Loraあたりで学習編も期待してます
    主要なグラボだけでいいんで
    学習画像512×512,batch size 1での速度/512×512での最大batch数/batch size 1での最大サイズあたりがわかるといいんじゃないかなー

    • FP16バグを回避するために入れた起動オプション「–no-half」がかえって動作を不安定にしている気がします。
      GTX 1060は描写時間こそダラダラとかかりますが、VRAMエラーを吐かずに最後まで出力できます。ただ、これから買うならRTX 3060 12GBの方が良いと思います(※なお、8GB版は安いけどAI目的なら買わない)。

  • lora回してるとやっぱり12GBある方が安心感はあるよね。バッチ数とかを増やせるのは嬉しい。
    10万以上の資金を準備できないなら3060の12GBモデルを買うべきだと思う。

  • 検証お疲れさまでした。
    非常に参考になりました。
    先月末あたりから、ChilloutMixというリアル系高解像度AI画像生成モデルが出て1920などで生成するので、4090や3090/3090Tiの比較に役立つかと思われます。

  • 検証お疲れ様です。
    要望なのですがアホな自分のためにtorchとxformerをリビルドした流れをまとめてもらうと大変助かります。

  • My small addition to the 512×512 test with my RX 470 4gb with directml version of autmatic1111 (Win10) – Time taken: 20m 39.93s – 1239,93 seconds 😀 I really need to switch to nvidia and I’m thinking about buying a used 1070.

  • とても参考になる検証、記事をありがとうございます。
    12GBのグラボ購入をしてみたくなりました。
    技術的にわかっていないことが多くて恐縮ですが、12GBグラボを2枚差しにすればワットパフォーマンスは悪いですが、上位グラボに迫れるのではと妄想しました。
    スクリプト側がうまく対応できていないのかもしれないですが、いくつかの作業だけでも担えるなら価値はあるのかなと思いました。

  • コメントを残す

    メールアドレスが公開されることはありません。