文脈理解力の比較:T5xxl エンコーダー

2025年1月11日 19:28

Flux.1[shnell] による生成を繰返していたら、Flux.1[dev] のプロンプトに対する理解力の足りなさに気付き始め、Flux.1[dev] の方が高品質と言われているのに何故そうなるのか不思議に思っていた。それが最近、その仕組みに関わる情報を知ることができて今回の投稿に結び付いた。そのきっかけは下記の「きままさん」の記事で、色々と参考にさせてもらった（感謝）。

そんな訳で、数種類ある T5xxl エンコーダーを使って、同じプロンプトでFlux.1[shnell] と Flux.1[dev] の生成結果を比較して自分なりに結論を導いた。分かりやすい結果になったので参考になると思う。

仕込み

まず、使用するプロンプトは下記。

#画像
Cinematic photography.

#状況
A peaceful moment,Greetings with a smile.A wide variety of creatures from space and earth gather together to have a fun party.

##配置
${cha_SAKURA}
SAKURA is foreground of {left|right} side.

#カメラ
medium close-up of {body|face} {|from {low|heigh|side}-angle}.

#背景
Background:
A mysterious spaceship hangar,control tower,and large radar site in tokyo
#近景
Additional scenes:
{220.1::       ←確率上げて順番に生成していく
stairs to basement.
(The word "stairs" displayed on bottom left of screen)
|0.1::
hamburger shop, hamburger and coke.
(The word "hamburger" displayed on bottom left of screen)
|0.1::
underground parking lot.
(The word"parking" displayed on bottom left of screen)
|0.1::
have a drink in a office bar.
(The word "drink" displayed on bottom left of screen)
|0.1::
disembarking from a huge spaceship.
(The word "spaceship" displayed on bottom left of screen)
|0.1::
convenience store.
(The word "convenience" displayed on bottom left of screen)
}

#変数
${cha_SAKURA=Her name is SAKURA, a 26yo slender Japanese aesthetics woman with deep brown eyes and hair, smilinge.}

このプロンプトでは、#状況 #背景 #近景の文章構成の部分で理解力を測る。具体的には背景（遠景）を維持しながら状況＋近景をどう構成しているかのチェックになる。ちなみに「宇宙や地球からさまざまな生き物たちが集まり..」の文章は結構な差が出る部分だった。
※以下は機械翻訳

#状況
やすらぎのひととき、笑顔でご挨拶。宇宙や地球からさまざまな生き物たちが集まり、楽しいパーティーを繰り広げます。
#背景
東京にある謎の宇宙船格納庫、管制塔、大型レーダーサイト
#近景（６種）
・地下への階段
・ハンバーガーショップ、ハンバーガーとコーラ
・地下駐車場
・オフィスバーで一杯飲む
・巨大な宇宙船から降り立つ
・コンビニエンスストア

生成結果はそれぞれ最初の1枚を使用、テキスト表示も指示しているので、それが表示されない場合のみ再生成してる。ちなみに Flux.1[dev] はテキスト表示してくれなかったので、再生成はなし。
・Flux.1[shnell] は全てEuler/Simple Steps:4 Guidance:0
・Flux.1[dev] は全てEuler/Simple Steps:20 Guidance:3.5

Flux.1[shnell] 生成結果

エンコーダー: t5xxl_fp8_e4m3fn
・宇宙人？
・楽しい？
・ハンバーガー？
・地下駐車場？
・巨大なピンク？

エンコーダー: t5xxl_fp8_e4m3fn_scaled
・宇宙人？
・楽しい？
・ハンバーガー？

エンコーダー: t5xxl_fp16
・宇宙人？
・楽しい？
・階段？

エンコーダー: flan_t5_xxl_fp16
・コンビニ？

エンコーダー: flan_t5_xxl_fp32
・ハンバーガー？

Flux.1[dev] 生成結果

エンコーダー: t5xxl_fp8_e4m3fn
・楽しい？
・宇宙人？
・階段？
・ハンバーガー？
・地下駐車場？
・コンビニ？

エンコーダー: t5xxl_fp8_e4m3fn_scaled
・楽しい？
・宇宙人？
・階段？
・地下駐車場？
・ドリンク？
・大型宇宙船？

エンコーダー: t5xxl_fp16
・楽しい？
・宇宙人？
・階段？
・地下駐車場？
・コンビニ？

エンコーダー: flan_t5_xxl_fp16
・楽しい？
・宇宙人？

エンコーダー: flan_t5_xxl_fp32
・楽しい？
・宇宙人？
・地下駐車場？

自分なりの結論

現状、モデルはGGUF形式、エンコーダーはflan_t5_xxl_fp32の一択。この選択の為にメモリを64GBに増設、VRAMは12GBで諦めてる。自分はアートよりストーリーテリングの要素に重きを求めるので、文脈に対しての反応が鈍い Flux.1[dev] に物足りなさを感じたのだと思う。
※Flux.1[schnell] ＋ Flux.1[dev] マージ系もあるので、またテストしたい。

いいなと思ったら応援しよう！

きまま / Easygoing 2025年1月12日 00:12

こんばんは、記事をご紹介いただきありがとうございます。
私は Flan-T5xxl と T5xxl_v1.1 の直接比較はしなかったので、とても参考になりました。
また、Flux.1[shnell] の方が Flux.1[dev] よりプロンプトの追従性が良いというのも意外でした。
Long-CLIP-L については、昨年の10月にComfyUI がネイティブデサポートしたので、Zer0int 氏がデフォルトの DualCLIPLoader ノードを使えば良いとアナウンスしています。
https://github.com/zer0int/Long-CLIP
https://huggingface.co/zer0int/LongCLIP-GmP-ViT-L-14/discussions/6
ただ、デフォルトの DualCLIPLoader ノードだと 77トークン以上は処理できないとエラーログが表示されますが・・・
私はエラーログが表示されるだけだろうと考えて無視して使用しています。

matataByy 2025年1月12日 04:24

こちらこそ、紹介していただきありがとうございます。
技術的な理解不足のままいじっているので、きままさんの記事は大変勉強になります。

Long-CLIP-L はやってみたらうまくいった（エラー出ない）的な対応なのでいい加減ですが、下記条件でノードを構成しています。

LongCLIPTextEncodeFlux には、longclip-L.pt、又は Long-ViT-L-14-BEST-GmP-smooth-ft を入れてます。
DualCLIPLoader には、Long-ViT-L-14-GmP-SAE-full-model を入れてます。
↓続く

matataByy 2025年1月12日 04:25

↓続き
下記条件でエラーの発生を確認しています。
・LongCLIPTextEncodeFlux に clip_l を入れる
・LongCLIPTextEncodeFlux に Long-ViT-L-14-GmP-SAE-full-model を入れる
※上記構成以外なら、双方に同じものを入れてもエラーは出ない。
※ネイティブを期待した構成ではエラーが出る。
※あくまでエラー無しで画像もそれなりという基準です。

こんな感じです、ご参考になれば幸いです。

matataByy 2025年1月20日 13:09

DualCLIPLoader ノードにLongClip用のエンコーダー入れて生成したら、エラー出力なしでちゃんと生成されました。無駄な事してました、、

コメントするには、ログインまたは会員登録をお願いします。

文脈理解力の比較:T5xxl エンコーダー

仕込み

比較に使用するエンコーダー

比較に使用するモデル

その他の環境

Flux.1[shnell] 生成結果

Flux.1[dev] 生成結果

自分なりの結論

いいなと思ったら応援しよう！

コメント

ChatGPT o1とGemini 2.0の性能を比較してみた

Amazon Aurora MySQL 3にアップグレードしました

【Excel】マニアも唸る、綺麗なドーナツグラフの作り方★

SNSアプリを消したら、1ヶ月で16冊本が読めてしまった

19種類の手帳を試した私の結論！手帳会議2026

【実演あり】GPTsの力でブログ執筆を圧倒的に楽にする方法(プロンプトも公開)

メールが信用できないこんな世の中じゃ…だから私は各種連絡先に対応した送信用フォームを作りました

Microsoft Ignite 2023で発表されたCopilot Studioについてまとめ

育休明けの「浦島太郎」不安をAIで解消したら心がスッと軽くなった話

“今年やりたいことリスト”が書けない方へ、ふせんで叩き台作りのススメ

NHKWORLD国際放送番組Wild Hokkaido!にて写真提供しました。

18時間で作ったAIプロダクトが3日で3,000人に使われた話

3300円で1000万円相当の業務システムをゲットした話

【初心者向け】スマホ3Dスキャンマスターガイド

米国連邦政府におけるクラウド戦略 - クラウドセキュリティをどう担保するか

あなたの睡眠をプロテクト！「おやすみボタン」をiPhoneのショートカットとNFCタグで作りました

たった3ステップで差がつく、AI活用の教科書〜ChatGPT-4o対応・現場で使える実践テクニック集〜

移動体験から超ワクワクを創る ~ NOT A HOTEL SOFTWARE

ChatGPT(4-vision)を自宅冷蔵庫に連携した話

時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。

スケジュール管理が壊滅的に苦手だった私が、「マルチタスクの権化」になれた方法

ChatGPTの新機能「GPT Builder」を使ってライターGPTを作ってみた

Claude Codeで実用的なWebサービスを作る

🛤 Rails 8はSQLiteで大幅に強化された「個人が扱えるフレームワーク」（翻訳）

データアナリストのためのLLM時代のSQL作成術

ポッドキャストの字幕付きショート動画の作り方

vol.2 仕事が忙しい社会人におすすめ-てがき手帳だからできる管理術でミス予防

サイバーセキュリティ？冗談でしょ？

【ミニマリスト】紙を減らして快適に！紙の断捨離のススメ

無料でチケット予約フォームを作る方法

在宅フリーランスが体験！宮古島＆アメリカで学んだワーケーションのTips

【カテゴリ別】賑やかし帯（タイ）保管庫。

「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました

北米ソフトウェアエンジニアのインタビュー選考ってこんな感じだよ

共催で技術系イベントを開催する際の企画書テンプレートと段取りのHow

スタートアップの競争力を高める 技術的負債との戦略的な向き合い方

スタートアップの競争力を高める技術的負債との戦略的な向き合い方