2025/07/31
やらないことリスト2508
前の記事から2か月。いろいろ来たよね。仕分けして「やらない」ことで消耗を避けよう。
(元気な人はなんでもやったほうがいいと思うけどね)
(元気な人はなんでもやったほうがいいと思うけどね)
Wan2,2で作った動画のスクショ。
まだいまいち激しく動かすコツを掴めていない。
やらないルール
禁止
・ガチャへの課金
・使わないハードを買うこと
・最終的に手作業を続けないといけないこと
非推奨
・他の人がやってくれそうで、それで済むこと
・100万円以上のお金がかかること
ローカルLLM
クラウドLLMは散々で、geminiはサイレントナーフでかなりの劣化を感じるし、
YouTube動画の要約機能が使えなくなったことについてかなり困っている。
Claudeは時間制限が激しくなって定額課金のコスパがかなり悪くなるようだ。
ガチャしないと動くコードが手に入らないが、従量課金はしたくない。
なので特定企業に依存するリスクを強く懸念しはじめている。
ローカルではQwen3 2507シリーズと、Coder 480Bが出ました。
235Bを触った感じはgemini 2.5 flashに近い品質に感じる。
UD-Q2_K_XLでもバグった応答にはならずに動くコードを生成できた。
30B-A3Bは性能低そうなので試してない。
ROCmはflash attentionの対応がまだ(MI300とかだけ対応)なのでKV量子化ができない。
なので最安値の選択肢であるRyzen AI 395のVRAM 96GB設定が活きない。
112GBとかでも設定できれば良かったんだけど。
256Kコンテキスト使えるモデルを32Kで我慢できるんなら収まる感じだと思う。
どうせ速度が遅いので短いコンテキストで使うしかなさそうでもある。
OpenRouterで無料でクソデカモデルを試している感じだと、
DeepSeek R1 0528、Kimi K2あたりも、使い物にはなりそう。
ナーフされたとはいえgeminiはタダなのでメインで使いやすい。
gemini 2.5 flash liteは使わずに済んでるけど1日1000回使える。
さすがに32Bよりは品質が高いので、32Bはもう試すモチベが無い。
DGX Sparkは性能低い疑惑があるのと出荷遅れがひどいので、全然期待できない。高いし。
ローカルSLM
gemma3n E4B、すなわち「スマホで動くレベル」のモデルをSLMと呼ぶことにする。
なんか使い道考えたら賞金出るコンテストが開かれている。
ネタを一個思いついたんだけど今からだと締め切りに間に合わないなー。
そもそもAndroidスマホはollamaもClaude Codeも動くっぽい。
そもそもAndroidスマホはollamaもClaude Codeも動くっぽい。
性能的には安物ゲーミングPCと同じことが出来るのだろう。
でもまあLLMに関してはクラウドのほうがいいんじゃねって思ってしまう。
でもまあLLMに関してはクラウドのほうがいいんじゃねって思ってしまう。
動画生成→やる
Wan2.2は思ったよりは良さそうなので掘り下げていきたい。
5Bなら4090だと3分で生成できるので、これをメインに使う。
AIにガチャをやらせて内容をチェックする仕組みを作る。
VACEとかが対応してきたらそっちを掘る感じかしら。
配信を480pから720pに高画質化することができる。
リアルタイム動画生成
H100で出来るようになったらしい。
そのうち劣化版が4090でも出来るようになるだろう。
VTuberやるのにLive2Dモデルや3Dモデルが要らなくなる時代が来たってこと。
あと「台本が全く練られていない低品質なアニメ」なら作れるようになったってことでもある。
これを超えるアニメを発表するなら、せめて台本を練るくらいのことはしたいよね。
やりたい動画生成のイメージ
配信くるるちゃんの体験で言うなら、こんな感じ。
リスナー「開脚前転できる?」
くるる「やってみるから待っててね!」
くるる『開脚前転してる女の子を生成してください』
動画生成AI「生成中(3分)」
動画認識AI「これは女の子が開脚前転している健康的なアニメです」
くるる「できたー開脚前転します!」
リスナー「おおー(パンツ見えねえー!)」
この3分のとこが1分とか10秒とか0秒とかになれば尚良い。
具体的にはガチャ成功率が98%以上になったらやります。
(2時間の配信で40本の動画を作って見苦しいのが1本あるかないかってこと)
framepackは5秒動画作るのに6分かかったので既にかなり速くなった。あとはガチャ品質。
画像編集
FLUX.1 kontextは手元のcomfyで試せてて、およそ1分で元画像を加工してくれます。
言うこともわりと聞いてくれる。(動画生成よりマシ)
OmniGen2は試してないけど、HiDream E1は試した。
品質がFLUXより微妙な気がするけど、ライセンスが自由なので今後に期待である。
LoRAを学習する方法がまだ無いっぽいので、
ライセンス問題は回避できるけどまだ使いこなせる環境が整っていないなあ。
配信はすでに静止画から動画に移行してしまったので、静止画に戻すつもりは無い。
「ビキニに着替えてから開脚前転して」ってケースも、動画生成AIでやるのがいいはず。
ちなみに「着替える」動画もまだうまく生成できません。
まあリアルに動きを作れたら着替えシーンだけでコンテンツになっちゃうよね。
逆に静止画の着せ替えだけならSDXLでも普通にできるので新規性が無い。
音声合成AI
そろそろ凄いのが来る、みたいな話になってるんだけど、
みんなが新しいのに乗り換えるほどのインパクトになってないように見える。
まあこれはStyleの自動認識が出来れば一旦はsbv2でいいのかも知れない。
BGM/SE生成とあわせて、「自作アニメを作る」モチベじゃないとたぶんやらないな。
ハードウェアの購入
地味に惹かれてるのが Radeon RX 7900 XTX 24GB だ。TDP 355Wで3slot。
いまさら中古のRTX3090を狙うよりは高性能だし良い。
でも5060Ti 16GBのほうがワッパは良いな・・・。
PCIe 4.0x1が8スロットあるマザーボードとか誰か安く出してくんないかなあ~
モデル学習
画像生成のLoRA作るくらいは必要に応じてやる。
LLMは32BにFTするよりgemini使ったほうがマシだろうからやらない。
動画はH100x1でも足りないらしいので無理。
将来的には脱SDすることを頭の片隅に置きつつ、SDXLのマージモデルを作りたい。
画像生成モデル更新
将来的には脱SDすることを頭の片隅に置きつつ、SDXLのマージモデルを作りたい。
そろそろ最終形態に近いと思うので決定版みたいなモデルを持っておきたい感じ。
でもあんまり大きな不満はないのでやらなくてもいいかも。
AI VTuber系→やる
くるるちゃんをお嬢様設定から「高貴なメイドロボ」設定に変える。
自分がロボットであることを設定に織り込む。
昔のAIのように「AIアシスタントっぽい喋り方」をさせることにする。それが好きだから。
それを踏まえてWan2.2で動く配信とかそのうち出来たらいいね、と思っている。
AI小説
構造的な問題があることがわかってきた。
コーディングと同じで、Aは書けても、AとBの絡みが書けない。
だから使い捨てのシチュものだけを割り切って出すか、逆に世界観とか設定考えるのに使うかだと思う。
ブログ執筆
最近なんというか人間の言論の質が良いとは感じなくなってきたので、
成果物を得られる人は社会貢献度の高い人とか、お金を払った人だけのほうがいい気がしてきた。
自分が儲けるためというより、民度を高く保つためにお金を取ったほうがいいという考え方。
アメリカのAIもたぶんそういう考え方でこんな値段設定にしてるんだと思う。
すると別にブログ頑張る必要も無いわけで、まあ有料記事中心にやろうかな。
やりたいこと
・Coder CLI管理AI
・AIマイクラ
・Wan2.2ガチャマシーン→配信
・メイドロボ設定
それ以上のことはAIが賢いこと出来るようになってからでいいかなー。
コメント