(cache)まさき| CVML-EG 管理人 on X: "↓技術理解が誤っている内容を，素人が堂々と話さないで欲しいです． SDやGPT-4o等に用いる「CLIP的なMM基盤モデルは，Visual-Textの合同潜在空間に，画像情報が「埋め込み」されます．例えば「ピカチュウ画像」1枚学んだだけでも，多様なピカチュウ(※姿勢や服装など)で生成できてしまいます (続)" / X

↓技術理解が誤っている内容を，素人が堂々と話さないで欲しいです． SDやGPT-4o等に用いる「CLIP的なMM基盤モデルは，Visual-Textの合同潜在空間に，画像情報が「埋め込み」されます．例えば「ピカチュウ画像」1枚学んだだけでも，多様なピカチュウ(※姿勢や服装など)で生成できてしまいます (続)

Quote

平屋軽はずみ

@hirayakarohazu

Oct 8

同様に「モデルの情報量を使用イラスト枚数で割ると、イラスト1枚あたり数バイトにしかならない」ということを知ってる人と知らない人でかなり温度差が産まれてると思う。「痛烈に批判されてるから、ただ単に既存の絵をパクってるんだと思ってた」って人は多い。 x.com/abura_dev/stat…

4:11 PM · Oct 8, 2024

18.1K

Views

Bookmarks

Post

Conversation