【nunchaku版】Krita-ai-diffusionがQwen-Imageに対応した話②【FLUX Kontextも使う】
はじめに
前回の記事のつづきです。
Krita-ai-diffusionにQwen-Imageが統合されて、実際にどの程度使い物になるのかを確認しました。
ローカルアイドルを生成
Qwen-Imageは、FLUX.1と比べると、日本語プロンプトで、日本的な画像を簡単に生成できます。
※ 日本語を利用する場合は、Krita-ai-diffusionの翻訳機能をOFFにするか、ENにする必要があります。日本語翻訳機能がONになっていると、強制的に英語に変換されてしまいます
- 3人の日本の地方アイドル(ロコドル)が古く寂れた田舎の商店街の舞台でコンサートする
- アイドルをアップで表示する
Qwen-Imageの弱点は、日本的なものを生成するとカタカナだらけになる事です。中国と日本漢字の区別が難しいので、ステレオタイプにしているのだと思います。ちなみに韓国的にするとハングルだらけになります。(日本と違い漢字を使わないので正しいのかもしれませんが)
看板を変えてみる
Qwen-Image-Editの参照機能での合成を試しましたが、上手くできませんでした。
仕方がないので、古典的な手法で文字を入れます
貼り付けただけのクソコラ感を無くすためにEditモデルを利用します。
漢字を認識できてしまうからでしょうが、Qwen-Imageでは浮いた感じを消す事ができません。
ちなみにGoogle Nano-bananaです。リアルな看板感を出すのは大したものです。
髪型を変える
Change her hair style to ponytail
ツインテイルに変更します
Change her hair style to short twintails
しかし、ペイントソフトウェアのレイヤー機能が利用できるので、
レイヤーを半透明にして、頭部を合わせます
文字を修正する
中国漢字になりますが、Qwen-Imageは漢字を利用できます。
Change letter to "駄菓子"
Apply a distressed or weathered effect to all characters on the Japanese lantern.
全体を調整して完成
まとめ
Qwen-Image-Editは、画像文脈を理解し、より複雑で大きな変更が可能ですが、デメリットは(オリジナルを活かした)部分編集が苦手で工夫が必要になる事です。
簡単な変更はオリジナルに忠実で高速に処理できるFLUX.1 Kontext、複雑で大きな変更はQwen-Image-Editが基本になりそうです。
また、FLUX.1でも言える事ですが、一般的なミドルレンジ・ゲーミングPC環境において、複雑なControlNetを駆使したりLoraを作ったりするのは現実的ではありません。特に、インタラクティブな試行錯誤を行う場合に、一つの処理で数分かかるようでは使い物になりません。
高速に動作するnunchaku版のEditモデルは、それらのほとんどを解決してくれる可能性を秘めています。
以下、関連する記事の【PR】です。



コメント