↓技術理解が誤っている内容を,素人が堂々と話さないで欲しいです. SDやGPT-4o等に用いる「CLIP的なMM基盤モデルは,Visual-Textの合同潜在空間に,画像情報が「埋め込み」されます. 例えば「ピカチュウ画像」1枚学んだだけでも,多様なピカチュウ(※姿勢や服装など)で生成できてしまいます (続)
Quote
平屋軽はずみ
@hirayakarohazu
同様に「モデルの情報量を使用イラスト枚数で割ると、イラスト1枚あたり数バイトにしかならない」ということを知ってる人と知らない人でかなり温度差が産まれてると思う。「痛烈に批判されてるから、ただ単に既存の絵をパクってるんだと思ってた」って人は多い。 x.com/abura_dev/stat…