👋
Z-Image Turbo 完全ガイド 2025:高速AI画像生成とLoRAトレーニング

2025/12/25に公開
lora
Qwen
zimage
tech
 🎯 コアハイライト (TL;DR)
Z-Image Turboは60億パラメータの画像生成モデルで、わずか8回の関数評価(NFEs)で1秒未満の推論を実現

16GBのVRAMを持つ消費者向けデバイスで効率的に動作し、フォトリアリスティックな品質と二言語テキストレンダリング(英語と中国語)を提供
リアルなキャラクターのLoRAトレーニングには70-80枚の高品質写真、4000トレーニングステップ、最適な肌のテクスチャのためのLinear Rank 64が必要

Decoupled-DMD蒸留アルゴリズムを採用し、DMDR(DMD + 強化学習)で強化されて優れたパフォーマンスを実現
AI Toolkitを使用してRTX 5090などのエンタープライズGPUでのトレーニングは30-40分のみ

 目次Z-Image Turboとは?
主な特徴と機能
モデルアーキテクチャ:S3-DiT
パフォーマンスベンチマーク
クイックスタートガイド
背後の技術:Decoupled-DMD
DMDR:強化学習との融合
完全なLoRAトレーニングガイド
ベストプラクティスとヒント
よくある質問

 Z-Image Turboとは? {#what-is-z-image-turbo}Z-Image Turboは、Z-Image基盤モデルの蒸留版であり、効率的なAI画像生成における画期的な進歩を表しています。Tongyi-MAI(アリババのAI研究部門)によって開発されたこのモデルは、前例のないスピードと効率でエンタープライズグレードの画像品質を提供します。

 Z-ImageモデルファミリーZ-Imageエコシステムは3つの専門的なバリアントで構成されています:


モデルバリアント
パラメータ数
主な用途
主な利点


Z-Image-Turbo
60億
高速生成
8回のNFEs、1秒未満の推論

Z-Image-Base
60億
ファインチューニング基盤
非蒸留、完全なポテンシャル

Z-Image-Edit
60億
画像編集
指示に従った編集

💡 プロフェッショナルインサイト

Z-Image Turboは、従来の拡散モデルで通常50ステップ以上必要とされることを、わずか8回の関数評価で達成し、2025年で最も高速な本番環境対応の画像生成器の1つとなっています。

 主な特徴と機能 {#key-features}
 📸 フォトリアリスティックな品質Z-Image Turboは、優れた美的品質を維持しながら、フォトリアリスティックな画像の生成に優れています。このモデルは、ポートレートから複雑なシーンまで、様々な被写体で強力なパフォーマンスを発揮します。


例:多様な被写体と照明条件を示すフォトリアリスティック画像生成

 📖 正確な二言語テキストレンダリングZ-Image Turboの際立った特徴の1つは、中国語と英語の両方で複雑なテキストを正確にレンダリングする能力です。この機能は特に以下の用途で価値があります:
多言語テキストを含むマーケティング資料
教育コンテンツの作成
ソーシャルメディアグラフィックス
ブランディングとロゴの統合


例:生成された画像での正確な二言語テキストレンダリング

 💡 プロンプト強化と推論統合されたプロンプトエンハンサーは、Z-Imageに推論能力を与え、以下を可能にします:
文字通りの説明を超えた暗黙的なコンテキストの理解
プロンプトを強化するための世界知識の適用
文脈に適した詳細の生成
抽象的な概念の視覚的解釈


例:推論能力を示すプロンプト強化

 🧠 クリエイティブな画像編集 (Z-Image-Edit)Z-Image-Editバリアントは、二言語編集指示の強力な理解を示し、以下を可能にします:
自然言語ベースの画像修正
スタイル転送と芸術的変換
オブジェクトの追加/削除
コンテキストに応じた調整


例:指示に従ったクリエイティブな画像編集

 モデルアーキテクチャ:S3-DiT {#architecture}
 スケーラブルシングルストリームDiT (S3-DiT)Z-Imageは、従来のデュアルストリームアプローチと比較してパラメータ効率を最大化する革新的なシングルストリーム拡散Transformerアーキテクチャを採用しています。
アーキテクチャコンポーネント:
入力ストリーム(連結):
├── テキストトークン
├── 視覚的セマンティックトークン
└── 画像VAEトークン
     ↓
[統一Transformer処理]
     ↓
生成された画像出力


図:統一入力ストリーム処理を示すS3-DiTアーキテクチャ
✅ ベストプラクティス

シングルストリームアーキテクチャは、すべてのモダリティを統一的に処理することで、より効率的なトレーニングと推論を可能にし、品質を維持しながら計算オーバーヘッドを削減します。

 パフォーマンスベンチマーク {#performance}
 Eloベースの人間の好み評価Alibaba AI Arenaでの評価によると、Z-Image Turboは主要な商用およびオープンソースモデルに対して非常に競争力のあるパフォーマンスを示しています。


パフォーマンス比較:Z-Image Turboはオープンソースモデルの中で最先端の結果を達成

 パフォーマンス指標

指標
Z-Image Turbo
業界平均


推論ステップ
8回のNFEs
25-50ステップ

VRAM要件
16GB
24GB+

推論時間 (H800)
<1秒
3-5秒

モデルサイズ
60億パラメータ
20-120億パラメータ

テキストレンダリング
二言語(英/中)
限定的/なし

⚠️ 重要な注意事項

パフォーマンス指標はH800 GPUベンチマークに基づいています。コンシューマーハードウェア(RTX 4090、RTX 5090)は異なる絶対速度を示しますが、相対的な効率の優位性は維持されます。

 クイックスタートガイド {#quick-start}
 インストール要件まず、Z-Imageサポートにアクセスするために、ソースから最新バージョンのdiffusersをインストールします:
pip install git+https://github.com/huggingface/diffusers
💡 なぜソースからインストールするのか?

Z-Imageサポートは、プルリクエスト#12703と#12715を通じて追加され、最新のdiffusersリリースにマージされています。ソースからインストールすることで、最新の機能を確実に入手できます。

 基本的な使用例import torch
from diffusers import ZImagePipeline

# 1. パイプラインをロード
# サポートされているGPUで最適なパフォーマンスを得るためにbfloat16を使用
pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

# [オプション] アテンションバックエンド
# DiffusersはデフォルトでSDPAを使用します。より良い効率のためにFlash Attentionに切り替え:
# pipe.transformer.set_attention_backend("flash")    # Flash-Attention-2を有効化
# pipe.transformer.set_attention_backend("_flash_3") # Flash-Attention-3を有効化

# [オプション] モデルコンパイル
# DiTモデルをコンパイルすると推論が高速化されますが、初回実行は時間がかかります
# pipe.transformer.compile()

# [オプション] CPUオフロード
# メモリ制約のあるデバイスでCPUオフロードを有効化
# pipe.enable_model_cpu_offload()

prompt = "若い中国人女性が赤い漢服を着て、精巧な刺繍。完璧なメイクアップ、赤い花の額の模様。精巧な高い髷、金色の鳳凰の頭飾り、赤い花、ビーズ。女性、木、鳥が描かれた丸い扇子を持つ。ネオンの稲妻ランプ(⚡️)、明るい黄色の輝き、伸ばした左手のひらの上。柔らかく照らされた屋外の夜の背景、シルエットの層状の塔(西安大雁塔)、ぼやけたカラフルな遠くの光。"

# 2. 画像を生成
image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9,  # これは実際には8回のDiTフォワードになります
    guidance_scale=0.0,     # Turboモデルではガイダンスは0にする必要があります
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("example.png")

 最適化オプション

最適化
影響
使用ケース


Flash Attention 2/3
20-30%の高速化
FlashをサポートするハイエンドGPU

モデルコンパイル
15-25%の高速化
本番環境(初回実行は遅い)

CPUオフロード
8-12GB VRAMを有効化
メモリ制約のあるコンシューマーGPU

bfloat16
2倍のメモリ削減
bfloat16をサポートするすべての最新GPU


 背後の技術:Decoupled-DMD {#decoupled-dmd}
 分布マッチング蒸留の理解Decoupled-DMDは、Z-Image Turboの8ステップパフォーマンスを可能にするコアの少数ステップ蒸留アルゴリズムです。この画期的なアプローチは、2つの独立したメカニズムを特定し最適化します:

 1. CFG増強 (CA) - エンジン 🚀蒸留プロセスの主要な推進力
従来のDMD手法では見過ごされていた
主な加速の利点を提供

 2. 分布マッチング (DM) - レギュラライザー ⚖️生成品質の安定化装置として機能
出力の一貫性と美的品質を確保
アーティファクトを防ぎ、一貫性を維持


アーキテクチャ:CFG増強と分布マッチングメカニズムを分離するDecoupled-DMD

 主要なイノベーションこれらのメカニズムを独立して分離し最適化することで、研究チームは以下を達成しました:
少数ステップ生成パフォーマンスの大幅な改善
蒸留ダイナミクスのより良い理解
より安定したトレーニングプロセス
従来の50ステップ以上に対する8ステップでの優れた品質
📚 研究引用

Liu, D., et al. (2025). "Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield." arXiv:2511.22677

 DMDR:強化学習との融合 {#dmdr}
 蒸留を超えて:強化学習の追加**DMDR(分布マッチング蒸留 + 強化学習)**は、少数ステップモデル最適化の次の進化を表しています。このアプローチは相乗的に組み合わせます:
効率的な蒸留のためのDMD
品質最適化のためのRL

 相乗効果
 RLがDMDパフォーマンスを解放 🚀強化学習はDMDが以下を達成するのを助けます:
より良いセマンティックアライメント
強化された美的品質
改善された構造的一貫性
より豊かな高周波数の詳細

 DMDがRLを正則化 ⚖️分布マッチングは以下を提供します:
トレーニングの安定性
一貫した出力品質
モード崩壊の防止
バランスの取れた最適化


アーキテクチャ:分布マッチング蒸留と強化学習を組み合わせたDMDR
✅ 技術的優位性

DMDRは、完全な再トレーニングを必要とせずにトレーニング後の改善を可能にし、継続的なモデル強化のためのコスト効率の高いソリューションとなります。
📚 研究引用

Jiang, D., et al. (2025). "Distribution Matching Distillation Meets Reinforcement Learning." arXiv:2511.13649

 完全なLoRAトレーニングガイド {#lora-training}
 LoRAトレーニングとは?**LoRA(低ランク適応)**を使用すると、最小限の計算リソースでZ-Image Turboをファインチューニングして、特定のキャラクター、スタイル、または被写体を生成できます。このセクションでは、リアルなキャラクターLoRAを作成するための決定的なガイドを提供します。

 トレーニング概要

側面
仕様


データセットサイズ
70-80枚の高品質写真

トレーニング時間
30-40分 (RTX 5090)

必要なVRAM
24GB(最適化により16GBで動作可能)

総ステップ数
4000ステップ

Linear Rank
64(肌のテクスチャに重要)

ツール
AI Toolkit(ローカルまたはRunPod)


 ステップ1:トレーニング写真の収集
 写真の要件数量: 最低70-80枚の画像
品質分布:

高品質クローズアップ: 40-50%(顔の詳細、表情)

ミディアムショット: 30-40%(上半身、異なる角度)

全身ショット: 10-20%(ポーズ、服装)
多様性チェックリスト:
✅ 複数の角度(正面、横顔、3/4ビュー)
✅ 様々な表情
✅ 異なる照明条件
✅ 複数の衣装(該当する場合)
✅ 自然なポーズと演出された写真
⚠️ 品質への影響

データセットの品質は、出力品質を直接決定します。粒子の粗い入力写真は、粒子の粗い生成結果を生み出します。クリーンで高解像度の画像は、プロフェッショナルな結果を生み出します。

 ステップ2:データセットのクリーニング
 必須のクリーニングステップ不要な要素を削除:
ウォーターマークとテキストオーバーレイ
フレーム内の他の人々
気を散らす背景(必要に応じて)
トリミングと再フレーミング:
被写体に焦点を当てる
一貫したフレーミングを使用
過度の空白スペースを削除
解像度の標準化:

最長辺1024ピクセルでエクスポート
アスペクト比を維持
高品質のエクスポート設定を使用

 推奨ツール
Adobe Lightroom - プロフェッショナルなバッチ処理

Windows フォト - クイッククロップ

Topaz Photo AI - 品質向上(オプション)

 ステップ3:オプションの品質向上低品質のソース画像の場合:
Topaz Photo AI設定:
アーティファクトを避けるために顔のみの強化を有効化
全画像強化を避ける(プラスチックのような髪を作成する可能性)
適度なシャープニング設定を使用
自然な肌のテクスチャを保持
💡 プロのヒント

本当に低品質の画像のみを強化してください。過度の処理は、モデルが学習し再現する不自然なアーティファクトを導入する可能性があります。

 ステップ4:データセットのキャプション付け
 命名規則シンプルで効果的なアプローチ:
a photo of [被写体名]
珍しい要素の場合:
a photo of [被写体名] with [特定の特徴]
例:
✅ "a photo of Wednesday"
✅ "a photo of Wednesday with ponytail"
✅ "a photo of Wednesday without face"(体のみのショット用)
✅ ベストプラクティス

キャプションをシンプルに保ちます。モデルは、明示的なタグ付けなしで一貫した特徴(特徴的な衣装など)を自動的に学習します。

 ステップ5:AI Toolkit設定
 トレーニングパラメータ# コア設定
model: Tongyi-MAI/Z-Image-Turbo
training_adapter: V2 (必須)
trigger_word: none (不要)

# パフォーマンス設定
low_vram: false (RTX 5090では無効化)
quantization_transformer: none (強力なGPU用)
quantization_text_encoder: none (強力なGPU用)

# より性能の低いGPUの場合:
# quantization_transformer: float8
# quantization_text_encoder: float8

# LoRA設定
linear_rank: 64  # リアルな肌のテクスチャに重要
# 16または32を使用しないでください - 結果が悪くなります

# トレーニングスケジュール
total_steps: 4000
save_every: 250ステップごと
checkpoints_to_keep: 6-7 (ステップ2500-4000)

# オプティマイザ設定
optimizer: adam8bit
learning_rate: 0.0002
weight_decay: 0.0001
timestep_type: sigmoid  # 重要!

# データセット設定
training_resolution: 512  # より高い解像度はあまり利点を追加しません
sample_generation: false  # 時間を節約するために無効化

 ビジュアル設定リファレンス

例:完全なAI Toolkitワークフロー設定

 ステップ6:トレーニングプロセス
 タイムラインステップ 0-1000:    初期学習(使用不可)
ステップ 1000-2000: 基本的な特徴が現れる
ステップ 2000-3000: 使用可能な品質を達成
ステップ 3000-4000: スイートスポット - 最適なバランス
ステップ 4000+:     過学習のリスク

 チェックポイント選択保存を推奨するチェックポイント:
ステップ 2500(早期オプション)
ステップ 2750
ステップ 3000(通常良好)
ステップ 3250
ステップ 3500(しばしば最適)
ステップ 3750
ステップ 4000(最終)
💡 テスト戦略

各チェックポイントでテスト画像を生成して、精度と柔軟性の最適なバランスを見つけます。

 ステップ7:LoRAの使用
 生成設定# LoRAをロード
pipe.load_lora_weights("path/to/your_lora.safetensors")

# 生成パラメータ
prompt = "a photo of [被写体名], [希望するシーン/アクション]"
num_inference_steps = 9
guidance_scale = 0.0  # Turboモデルでは0に保つ
lora_scale = 0.7-1.0  # 強度を調整

 プロンプト例# 基本的な生成
"a photo of Merlina, professional portrait, studio lighting"

# 特徴的な衣装付き
"a photo of Merlina, school uniform, outdoor setting"

# クリエイティブなシナリオ
"a photo of Merlina, wearing elegant evening dress, at gala event"

 トレーニング結果の例





例:一貫したキャラクター特徴を示す高品質LoRA生成結果

 ベストプラクティスとヒント {#best-practices}
 画像生成用
 プロンプトエンジニアリング✅ すべきこと:
詳細で説明的なプロンプトを使用
照明と雰囲気を指定
スタイルキーワードを含める(フォトリアリスティック、シネマティックなど)
中国語テキストのために二言語機能を活用
❌ すべきでないこと:
極端に短いプロンプトを使用(意図的でない限り)
ネガティブプロンプトのみに依存
Turboモデルでguidance_scale > 0を使用

 ハードウェア最適化

GPU
推奨設定


RTX 4090/5090
bfloat16、Flash Attention、CPUオフロードなし

RTX 4080/4070 Ti
bfloat16、必要に応じてCPUオフロード

RTX 4060 Ti 16GB
float8量子化、CPUオフロード

RTX 3090
bfloat16、適度なバッチサイズ


 LoRAトレーニング用
 データセット品質チェックリスト
 70-80枚の高品質画像を収集

 ウォーターマークとテキストを削除

 画像をトリミングして再フレーミング

 解像度を1024px最長辺に標準化

 多様な角度と表情を含める

 シンプルで一貫したキャプションを適用

 トレーニング最適化より高速なトレーニングのために:
RTX 5090を搭載したRunPodを使用
サンプル生成を無効化
float8量子化を使用(わずかな品質のトレードオフ)
最高品質のために:
Linear Rank 64を使用
完全な4000ステップをトレーニング
量子化を使用しない(VRAMが許せば)
複数のチェックポイントをテスト

 一般的な問題と解決策

問題
解決策


粒子の粗い出力
より高品質のトレーニング画像を使用

過学習
より早いチェックポイントを使用(3000-3500ステップ)

顔の詳細が悪い
データセットで顔のクローズアップを増やす

一貫性のない特徴
トレーニングデータにより多様な角度を追加

VRAMエラー
CPUオフロードを有効化またはfloat8量子化を使用


 🤔 よくある質問 {#faq}
 Q: Z-Image TurboはSDXLやFluxと比較してどうですか?A: Z-Image Turboはいくつかの利点を提供します:

速度: 8ステップ vs 25-50ステップ(3-6倍高速)

VRAM: 16GBで動作 vs 24GB+の要件

テキストレンダリング: ネイティブ二言語サポート(英/中)

品質: SDXLと競合、Flux品質に近づく
ただし、Fluxは特定の芸術的スタイルと極端な詳細シナリオでまだ優位性を持つ可能性があります。

 Q: Z-Image Turboを商用利用できますか?A: Hugging Faceモデルページで公式ライセンスを確認してください。2025年時点で、多くのTongyiモデルは商用利用に適したライセンスを持っていますが、常に具体的な条件を確認してください。

 Q: LoRAトレーニングにLinear Rank 64が必要なのはなぜですか?A: Linear RankはLoRAアダプターの容量を決定します:

Rank 16: 制限が多すぎ、肌のテクスチャなどの細かい詳細を失う

Rank 32: より良いが、リアリズムで妥協

Rank 64: リアルな肌のテクスチャと微妙な特徴を捉えるための最適

Rank 128+: 収穫逓減、トレーニング時間が長い、ファイルサイズが大きい

 Q: LoRAトレーニングに70-80枚の写真は多すぎますか?A: これはコミュニティで議論されています:

より少ない写真(20-30): トレーニングが速い、過学習のリスク、多様性が少ない

70-80枚の写真(推奨): より良い汎化、より堅牢な結果

100枚以上の写真: より長いトレーニングが必要な場合があり、希釈の可能性
最適な数は、写真の品質と被写体の複雑さに依存します。70-80から始めて、結果に基づいて調整してください。

 Q: コンシューマーハードウェアでLoRAをトレーニングできますか?A: はい、最適化により:

16GB VRAM: float8量子化 + CPUオフロードを使用

12GB VRAM: 積極的な最適化で可能、トレーニング時間が長い

8GB VRAM: 推奨されません、RunPodなどのクラウドサービスを使用

 Q: 「CUDA out of memory」エラーを修正するにはどうすればよいですか?A: これらの解決策を順番に試してください:

pipe.enable_model_cpu_offload()を有効化
float8量子化を使用
バッチサイズを削減(該当する場合)
トレーニング解像度を512pxに下げる
グラディエントチェックポイントを使用
クラウドGPUレンタルを検討

 Q: Z-Image-TurboとZ-Image-Baseの違いは何ですか?A:

Z-Image-Turbo: 速度のために蒸留(8ステップ)、推論用に最適化

Z-Image-Base: 非蒸留基盤、ファインチューニングとカスタム開発に適している
本番/生成にはTurboを使用し、研究と広範なカスタマイズにはBaseを使用してください。

 Q: 複数のLoRAを組み合わせることはできますか?A: はい、Z-Image Turboは複数のLoRAを同時にサポートします:
pipe.load_lora_weights("character_lora.safetensors", adapter_name="character")
pipe.load_lora_weights("style_lora.safetensors", adapter_name="style")
pipe.set_adapters(["character", "style"], adapter_weights=[0.8, 0.6])
影響のバランスを取るために重みを調整します。

 Q: Turboモデルでguidance_scaleを0にする必要があるのはなぜですか?A: Z-Image Turboは、ガイダンスがモデルに焼き込まれた状態で蒸留されています。guidance_scale > 0を使用すると:
品質が低下
アーティファクトを導入
生成を遅くする
予期しない結果を生み出す
Turboバリアントでは常にguidance_scale=0.0を保ってください。

 結論と次のステップ
 重要なポイントZ-Image Turboは、効率的なAI画像生成における重要な進歩を表し、以下を提供します:
✅ 本番環境対応の速度、8ステップ生成

✅ コンシューマーフレンドリーな16GB VRAM要件

✅ プロフェッショナルな品質、より大きなモデルに匹敵

✅ ユニークな機能、二言語テキストレンダリングなど

✅ 柔軟なカスタマイズ、LoRAトレーニングを通じて

 推奨アクションプラン初心者向け:
クイックスタートガイドを使用して基本的な画像生成を開始
異なるプロンプトとスタイルを試す
コミュニティの事前トレーニング済みLoRAを試す
プロンプトエンジニアリング技術を学ぶ
上級ユーザー向け:
完全なガイドに従って最初のキャラクターLoRAをトレーニング
Linear Rankとトレーニングステップを試す
特定のハードウェアに最適化
コミュニティに発見を貢献
開発者向け:
Z-Image Turboをアプリケーションパイプラインに統合
Decoupled-DMD研究論文を探索
diffusersライブラリの改善に貢献
カスタムツールとワークフローを構築

 リソースとダウンロード
公式モデル: Hugging Face - Z-Image-Turbo

Diffusersライブラリ: GitHub - Hugging Face Diffusers

AI Toolkit: GitHub - Ostris AI Toolkit

RunPodテンプレート: RunPodで「Ostris AI Toolkit」を検索

 コミュニティとサポート
Reddit: r/StableDiffusion - アクティブなコミュニティディスカッション

Discord: Hugging FaceとDiffusersコミュニティサーバーに参加

GitHub Issues: バグを報告し、機能をリクエスト

研究論文: オリジナルのDecoupled-DMDとDMDR論文を読む
最終更新: 2025年12月

記事バージョン: 1.0

ターゲットキーワード: z image turbo, z-image turbo ガイド, 高速 ai 画像生成, lora トレーニング ガイド, decoupled dmd, stable diffusion 代替, 効率的な画像生成 2025
Z-Image Turbo 完全ガイド 2025
モデルバリアント	パラメータ数	主な用途	主な利点
Z-Image-Turbo	60億	高速生成	8回のNFEs、1秒未満の推論
Z-Image-Base	60億	ファインチューニング基盤	非蒸留、完全なポテンシャル
Z-Image-Edit	60億	画像編集	指示に従った編集
指標	Z-Image Turbo	業界平均
推論ステップ	8回のNFEs	25-50ステップ
VRAM要件	16GB	24GB+
推論時間 (H800)	<1秒	3-5秒
モデルサイズ	60億パラメータ	20-120億パラメータ
テキストレンダリング	二言語(英/中)	限定的/なし
最適化	影響	使用ケース
Flash Attention 2/3	20-30%の高速化	FlashをサポートするハイエンドGPU
モデルコンパイル	15-25%の高速化	本番環境(初回実行は遅い)
CPUオフロード	8-12GB VRAMを有効化	メモリ制約のあるコンシューマーGPU
bfloat16	2倍のメモリ削減	bfloat16をサポートするすべての最新GPU
側面	仕様
データセットサイズ	70-80枚の高品質写真
トレーニング時間	30-40分 (RTX 5090)
必要なVRAM	24GB(最適化により16GBで動作可能)
総ステップ数	4000ステップ
Linear Rank	64(肌のテクスチャに重要)
ツール	AI Toolkit(ローカルまたはRunPod)
GPU	推奨設定
RTX 4090/5090	bfloat16、Flash Attention、CPUオフロードなし
RTX 4080/4070 Ti	bfloat16、必要に応じてCPUオフロード
RTX 4060 Ti 16GB	float8量子化、CPUオフロード
RTX 3090	bfloat16、適度なバッチサイズ
問題	解決策
粒子の粗い出力	より高品質のトレーニング画像を使用
過学習	より早いチェックポイントを使用(3000-3500ステップ)
顔の詳細が悪い	データセットで顔のクローズアップを増やす
一貫性のない特徴	トレーニングデータにより多様な角度を追加
VRAMエラー	CPUオフロードを有効化またはfloat8量子化を使用
Discussion

ログインするとコメントできます