Age verification
Are you 18 or older?
This page may feature content that is inappropriate for people under the age of 18.
pixivFANBOX has updated the Privacy Policy as of May 28th, 2024.[Revision history]

【第1回】「EasyWan22」でイラストを動画に◆カンタン環境構築から操作の基本まで

August 5th, 2025 11:04・All users
こんばんは、スタジオ真榊です。今回は、最新のローカル動画生成モデル「Wan2.2」の環境構築が簡単にできるパッケージツール「EasyWan22」の特集シリーズ第1回です。以前特集した「EasyWanVideo」と同様に、静止画の動画化(image2video)や最終フレームの画像指定など、一通りのことがかなり高品質にできるようになっています。

Wan2.1に比べて動作や四肢、細部の破綻も格段に少なくなっていますが、VRAM負担と生成時間は増大傾向にあり、VRAMが16GBないとなかなか快適な動画生成とは言いがたいかなという感じ。今回はシリーズ第1回として、導入方法から要求スペック、実際の生成画面の見方やプロンプト記述法までを詳しく見ていきたいと思います。

ComfyUIの画面説明など、以前のEasyWanVideo特集(▼)と重なるところも多いのですが、今回初めてローカル動画生成に触れる方も多いと思いますので、はしょらず特集していきたいと思います。【約1万4500字】

<この記事は、2025/09/11付アップデートver.のEasyWan22に準拠しています>
記事執筆現在、EasyWan22は連日精力的なアップデートが進められており、記事中に掲載したワークフローのスクリーンショットなどに旧環境のものが混じる可能性があります。アップデートに合わせて追記や修正を都度行っていますが、手元の環境と異なる場合、公式の更新告知をご確認ください

目次

「Wan2.2」&「EasyWan22」概要
  ・low noiseモデルとhigh noiseモデル
  ・要求スペック
  ・寛容なライセンス
  ・ComfyUIに苦手意識があっても大丈夫
「EasyWan22」インストール方法
  ・ERRORが出たら?
  ・ブラウザキャッシュエラーにご注意
ComfyUI起動画面
  ・最低これだけ!ComfyUIの使い方
  ・メニューバーの5つのボタン
ワークフローの基本
  ①Save群
  ②ImageInputノード群
  ③VideoOutputノード群
  ④Prompt(プロンプト)ノード群
  ⑤Preset&Modelノード群
  ⑥PostProcess(後処理)ノード群
  ・一般的な後処理の流れ
  ⑦AutoMosaicノード群
プロンプトの書き方
  ・Wanシリーズ向けプロンプトの基本
  ・熟練者向け
  <プロンプトが効かないときは>
EasyWan22・トラブルシューティング
  ・生成途中でうんともすんとも言わなくなった
  ・生成途中で謎のエラーを起こした
  ・アップデート後、生成ができなくなった
  ・以前生成したwebpを読み込んだが、同じ生成ができなくなった
  ・普段生成できていたはずのサイズでフリーズした
  ・環境を入れ直すときはOutputロストに注意!
小括~第2回は「実践編」
<その後のEasyWan22特集>


「Wan2.2」&「EasyWan22」概要

まずはツールの概要から。Easyreforgeなどのかんたん導入ツールで有名なZuntanさん(@zuntan03)が公開している「EasyWan22」は、2025年7月公開の中華製動画生成モデル 「Wan 2.2」をComfyUIベースで動かせる簡易導入パッケージです。

「Wan2.2」は、前モデル「2.1」の品質をさらに向上させつつ、特殊効果生成やLoRA学習の利便性を劇的に改善したのが特徴。動画生成につきもののフラッシュ(画面全体がなぜかピカッと光ったり、色の付いた光が差し込む現象)やジャンプ(無理矢理整合性を取ろうとして連続性が失われる)が起こりにくくなったほか、キャラクターの一貫性もかなり正確に保持できるようになっており、キャラクターの背面や側面を推論する回転動画などもかなり安定して生成できるようになっています。

・low noiseモデルとhigh noiseモデル
Wan2.2のもう一つの特徴は、「high noise(高ノイズ)」モデルと「low noise(低ノイズ)」モデルを分けて、二段構えの構成にしていることです。
 ▲Fast版とBase版にそれぞれ「High」と「LoW」2種類のモデルが使われている

動画生成の前半ステップでは、high noiseモデルでノイズが多めの状態のまま、まずプロンプト通りの動きを作り出すことを優先します。続いて後半ステップでは、被写体を正確に描きだすのが得意なlow noiseモデルで連続性を持って仕上げるーという工程を踏むことで、よりプロンプトに忠実かつ自然な動画生成を可能にしています。

WanシリーズはComfyUI(A1111やForge系とは全く違うノード管理型の生成webUI)で快適に使うことができるのですが、ComfyUIに慣れていないユーザーでも簡単に環境構築できるようにしてくれたオールインワンパッケージが、今回紹介する「EasyWan22」というわけです。ただWan2.2で生成できるようにしてくれるだけでなく、量子化(ファイルサイズを小さくしてメモリ使用量を削減)・高速化済み・プロンプト翻訳機能付きでNSFW対応もばっちりな優れたワークフローをサンプルつきで構築してくれるので、本当は大変ヘヴィなWan2.2を軽快に動かすことができます。

・要求スペック
Wan2.2シリーズには、テキスト指示で動画をつくる軽量t2vモデル「Wan2.2-5B-ti2v」や、画像を動画化できるi2vモデル「Wan 2.2 I2V-A14B」、両方できるハイブリッドモデル「Wan2.2-TI2V-5B」などがあります。末尾についているBは「billion=10億」のことで、14Bならパラメータ数140億という意味。EasyWan22ではこうした標準モデル(safetensors)をそのまま使うのではなく、量子化によって軽量化したもの(GGUF)に高速化LoRAを焼き込んだものを使えるワークフローになっているので、VRAM使用量と処理時間を劇的に減らすことができます。

「Wan 2.2 I2V-A14B」の量子化モデルで生成を行うEasyWan22は、メインメモリ32GB以上、かつ最低VRAM8GBのRTX30XX以降のグラボを備えたWindowsPCで動作します。ただ、これは動画の品質やサイズを落とした場合の話。細部もきれいな動画を生成したい場合は、最低VRAM12GB、できれば16GB、さらにメインメモリも64GBは欲しいところです。

静止画生成と違い、動画生成ではVRAMだけでなく、メインメモリも充実していることを求められる点に注意が必要。メモリはグラボほど高くないので、個人的にはこのためだけに増設して良いレベルだと思います。ちなみに、自分のPCのメインメモリ容量は、タスクマネージャーから確認できます。
      ▲メインメモリ64GB、グラボはRTX4080(VRAM16GB)

グラボ比較記事といえばちもろぐさん。さっそくWan2.2を踏まえたおすすめグラボ比較検証をリリースしてくださっているので、大いに参考にしましょう。


・寛容なライセンス
Wan2.2は「Apache-2.0」ライセンスで公開されています。
配布や改変、商用利用、サブライセンスが可能なオープンソースライセンスで、著作権表示とライセンス文書の同梱義務がありますが、それ以外はStableDiffusionなどのCreativeML Open RAIL++と比べてもかなり寛容な内容となっています。利用目的による制限を一切設けていませんので、R-18生成なども技術的に禁止していません。下記リンク先から日本語訳を確認できますので、一読しておきましょう。

「本ライセンスの条項に従って、各コントリビューターはあなたに対し、ソース形式であれオブジェクト形式であれ、成果物および派生成果物を複製したり、派生成果物を作成したり、公に表示したり、公に実行したり、サブライセンスしたり、頒布したりする、無期限で世界規模で非独占的で使用料無料で取り消し不能な著作権ライセンスを付与します」(リンク先より引用)
(※もちろん、名誉毀損や実在人物の性的な姿態を生成するなど、現地法に反する用途に使えば、それによって生じた刑事・民事責任はユーザーが負わなくてはなりません)


・ComfyUIに苦手意識があっても大丈夫
ComfyUIは「ノード」と呼ばれる作業ブロックを線でつないで「ワークフロー」を構築する、やや上級者向けの画像・動画生成用webUIです。このFANBOXでは、PC知識がない人でもグラボさえ買えば生成を楽しめるレベルを想定しているので、ComfyUIではなくForge系のUIを中心に解説していますが、EasyWanシリーズを使えば、Forgeとは別にComfyUI環境を簡単に構築することができます。

導入は簡単ですし、複雑なワークフローは既に完成した状態で構築されていますので、我々は一部の設定値をちょこっと操作するだけで高品質な動画を思い通りに生成できます。前置きはこのくらいにして、さっそくインストール方法を見ていきましょう。


「EasyWan22」インストール方法

基本的には公式に書いてある解説の通りにすればさほどつまづかずに導入できるはずです。まずはこちらの公式リポジトリにアクセス。

下記に引用したインストール案内が非常に親切ですので、熟読しましょう。こちらに書かれている通り、「EasyWan22Installer.bat」を右クリックし、「リンク先を名前を付けて保存」します。
(▲ https://github.com/Zuntan03/EasyWan22 からスクショ引用)

保存先は十分空き容量に余裕のあるドライバの浅い領域を指定します。私は「G:\EasyWan22」フォルダを作成し、そこにbatファイルを保存しました。必要ファイルだけで40GBは食うので、動画LoRAや生成動画の容量を考えると、100GB以上の余裕があるドライバを指定したいところです。

あとは上記に書かれている通り、EasyWan22Installer.batをダブルクリック。このような警告画面が出たら「実行」します。

「WindowsによってPCが保護されました」と表示されたら、「詳細表示」ボタンを押してから「実行」します。(下記はEasyWanVideoの警告文スクショです)
Microsoft Visual C++ 2015-2022 Redistributableのインストールが必要になり「このアプリがデバイスに変更を加えることを許可しますか?」と表示されたら「はい」とします。

続いて黒いコマンドプロンプト画面が開き、最初にこう聞かれるので、自らが成人であることを誓いつつ、「y」と入力し、ENTER。

するとこのようにずらずらと導入が始まりますが、すぐに停止して「Civitaiのアカウント設定からAPI Keyをコピー&ペーストしてください」と要求されます。これは、「必要なファイルをCivitai上からDLしてきてあげるから、あなたのアカウントの許可を示すパスワードを入力してください」という意味です。(Civitaiは、画像・動画系生成AIのファイル共有プラットフォームです)

ここを読んでいる方でCivitaiのアカウントをまだ持っていない方はいないと思いますが、まだの方はアカウントを開設した上で、「https://civitai.com/user/account」にアクセス。下の方へスクロールすると、API Keysというタブがあるので、「+Add API Key」ボタンを押します。
APIキーの名前をつけてくださいと言われるので、適当な文字列を入力して「Save」。すると、数十文字のランダムな文字列からなるAPI Keyが生成されます。この文字列をコピペし、さきほどの黒いコマンドプロンプト画面の「Civitai API Key: 」のあとに打ち込んでください。(API Keyは誰とも共有しないように!)
あとは必要なインストールがずらずらと続きますので、しばらく放っておきましょう。

・ERRORが出たら?
途中でこのようなERRORが出た場合、「君が指定したAPI Keyが間違ってて、CivitaiからのファイルDLに失敗したけど?」という意味です。
「API Key:」以降に打ち込むのは、さきほど自分で決めたAPI Keyの名前でなく、その次に表示されたランダム文字列のほうです。こうなってしまったら、さきほど作ったフォルダを開いてみましょう。"EasyWan22\EasyTools\Civitai\CivitaiApiKey.txt"というテキストファイルを開くと、そこにさきほど間違って入力したキーが保存されているので、正しいAPIキーの値に直して、再び黒い画面でENTERキーなどを押してみてください。

インストールが終了すると、コマンドプロンプト画面は自動で消えます。あとは、インストールしたフォルダ内にできた「ComfyUi.bat」ファイルを実行するだけ。今後はこのbatファイルでEasyWan22を起動するので、デスクトップなどにショートカットを作っておきましょう。

・ブラウザキャッシュエラーにご注意
これも公式で警告されている通りですが、以前ComfyUIやEasyWanVideoをインストールして使ったことがある方は、初回起動時にブラウザキャッシュにある過去のワークフローが自動で呼び出され、エラーを起こす場合があります。これは異常ではないので、そのワークフローを閉じてもう一度起動しなおせばOKです。

いったんコマンドプロンプト画面を閉じたら、ComfyUI.batと同じフォルダ内にある「Update.bat」ファイルを実行。こうすると、最新版にアップデートすることができます。記事執筆現在、EasyWan22はZuntanさんによって精力的なアップデートが続いていますので、公式リポジトリの更新告知をチェックしてこまめにUpdateするようにしましょう。

ComfyUI起動画面

アップデートが終わったら、「ComfyUi.bat」をもう一度実行します。インストールとアップデートに成功していれば、このような感じでComfyUIの起動画面が開かれます。記事執筆時点のEasyWan22では、ComfyUIの「v0.3.55」が採用されています。


・最低これだけ!ComfyUIの使い方
ComfyUIでは、上のようなごちゃごちゃの配線が並んだものを全体で「ワークフロー」と呼びます。配線(リンク)でつながれている枠は、それぞれ役割を持った「ノード」です。複数のノードの組み合わせからなるワークフローは、拡張子「.json」のファイルで保存・読み込み・共有ができるようになっているので、自分でゼロからワークフローを組む必要はありません。画面はマウスホイールで拡大/縮小でき、主に赤か緑の入力欄に必要な画像やプロンプトを入力して、画面最下部の「実行」を押すと、生成が始まる仕組みです。
実行ボタンの隣にある数字はバッチ数。ここを「2」にすると2回、「4」なら4回同じ設定のキューが入ります。順次一つずつ生成されますので、SEED値がちゃんとランダムになっているか確かめてから押さないと、同じ動画が4つできてしまいます。ここは静止画生成と全く同じですね。

隣の「×」ボタンで実行中の生成を中止、右の「▢」ボタンでキューリストにある保留中のタスクをクリアできます。プロンプトが固まってガチャしたとき、途中で満足いく生成結果が出たら「中止▶タスククリア」で次に行きましょう。

ワークフロー画面はとかく広くていまどこを見ているかわからなくなります。実行ボタンのすぐ下の「ミニマップ」上をドラッグすることで、全体像を確認しながら画面を動かすことができます。
横の「+」「ー」でズームイン・ズームアウト。四角いボタンでワークフロー全体を表示します。その他のボタンでノードを繋ぐリンク(線)を見えなくしたり、ミニマップを非表示にしたりできます。


・メニューバーの5つのボタン
画面の左側にはこのようなメニューバーがあります。5つのボタンで「キュー」「ノードライブラリ」「モデルライブラリ」「ワークフロー」「テンプレート」の一覧を開けます。

・キュー:生成待ち/生成中/生成終了した動画が時系列順に並んでいる画面。各動画を右クリックして「ワークフローを読み込む」を押すと、生成時の設定を呼び出せる。上図に「2」とあるのは、「2つの動画生成キューが入っていて順次処理中」という意味。失敗したキューや生成待ちのキューは右クリックから削除できる。生成中でも生成ストップして削除可能。
・ノードライブラリ:登録されているさまざまな「ノード」を個別に呼び出すところ。上級者は自分でこれを組み合わせてワークフローを作りますが、我々は既に完成したワークフローをありがたく使わせてもらいましょう。
・モデルライブラリ:内蔵されているモデル一覧。主にLoRAなどを管理する。
・ワークフロー:ほかの人がノードを組み合わせて作ってくれた、さまざまなことができるワークフロー群。まずここから「何をしたいか」を選ぶ。EasyWan22では、「Easy」フォルダに使いやすいワークフローが始めから用意されている。普段i2vに使うのは「00-I2v_ImageToVideo.json」で、古いバージョンのワークフローは「Deprecated(廃止)」フォルダに収められている。「Kijai」にはさまざまな熟練者向けワークフローが入っているので、知識のある人はこちらも活用しよう。
・テンプレート
ComfyUIのアップデートで追加された新しいボタン。既に構築されたワークフローのテンプレートを目的・種類別に検索することができる。EasyWan22で初めてComfyUIをインストールした人も、こちらから必要なワークフローを探すことでForgeなどと同様に静止画生成やインペイントなどの作業を行える。そのまま使うというよりは、自分でワークフローを構築したいときに0からノードを並べるのではなく、これらをテンプレとして改造する用という感じ。

初めて読み込んだワークフローでは基本的に「必要なモデルがComfyUIのフォルダにない」という趣旨のエラーが出るので、ダウンロードボタンからDLするか、指定されているフォルダに同名で保存しよう。

ワークフローの基本

さて、動画生成に必要なファイルは既に揃っていますので、さっそく静止画を動画化するimage2video(i2v)動画生成を試してみましょう。EasyWan22は連日精力的な更新作業が続いていますので、事前にアップデートを忘れずに。(以下のスクリーンショットも古いものが混じっている可能性があります)

画面左のバーからファイルの形をしたボタンを押し、ワークフローを呼び出します。「Easy」というフォルダ内を開きましょう。記事執筆現在のバージョンでは、この「00-I2v_ImageToVideo.json」というワークフローがimage2video生成用に用意されたEasyWan22のスタンダードなワークフローです。
EasyWan22のアップデートによってここに入っているワークフローは日々変化していますので、最新情報は公式のアップデート情報をご覧ください。
さて、こちらが「00-I2v_ImageToVideo.json」ワークフロー(9/11付アプデver,)を開いたところです。ComfyUIのワークフローは基本このようなスパゲッティ状態でなにがなんだかわかりませんが、Zuntanさんが上部の黄色いウィンドウに親切な説明書きを残してくださっているので、まずは左上から熟読しましょう。

説明にあるとおり、動画生成時にいじるのは下図に移っている赤色と緑色のノードだけです。赤色のノードは生成に最低限必要な最重要設定、緑色のノードがその他ユーザーが操作できるパラメータになります。よく分からなくても、赤色のノード(生成する動画の大きさ、最初のフレーム、Seed値、プロンプト)だけ入力して「実行」すれば問題なく動画生成を行うことができますので、そこまで身構えなくても大丈夫です!
さっそく、それぞれの働きを左側から順番に見ていきましょう。


①Save群

まず最初に見るべきは、左上の「Save」ノード群です。緑の固まりの中の「Save」ノードに、三つの「Enable〇〇」が並んでいます。

これらは、動画生成時に「動画の最終フレーム画像」「ワークフロー情報を含むwebpファイル」「動画ファイル(mp4)」をそれぞれ保存するかどうかを設定する重要ノード。ON(yes)にしたものは、easywan22\Outputフォルダ内に日付別に出力されます。
webpファイルはアニメーション付きの静止画形式で、そのままでは視聴や共有がしづらいのですが、軽量なため動画生成フローには最適。通常はwebp段階でプロンプトの「ガチャ」をし、良い結果が出たらアップスケールなどの後処理を施して、最終的にmp4を出力してSNS等に投稿するのが基本です。
「SaveEndFrame」 をオンにすると、動画の最終フレームを静止画として保存します。これを次の開始フレームとして使えば動画の続きを生成できますし、視点・終点を固定したまま中間動作だけを変える応用も可能です。

・「SaveMp4 Notfication」
mp4の保存時に通知音を鳴らす機能をオン・オフできます。ブラウザ設定によっては通知が鳴らないこともありますので注意。

<これ以降は、意味がわかる人だけ操作する青いノード。他の項目でも、青いノードは慣れるまでいじらず、必要を感じたら調整してみましょう>

・「WebpQuality」:Webpの精度を設定できます。初期値は85ですが、90まで上げられます。
・「WebpLossless Heavy」:デフォルトでfalse。trueにすると、webp動画の劣化を防ぐことができますが、重くなります。
・「Mp4Crf」:出力するmp4の圧縮率を変えられます。 デフォルトは28なので、ファイルサイズを軽くしたい場合は圧縮率を最大35まで上げましょう。ファイルサイズにこだわらず、動画の品質を上げたい場合は20まで下げられます。(※SNSによってはファイルサイズが重すぎると勝手に圧縮されます)

②ImageInputノード群

次は、i2vする静止画を指定するImageInputノード群です。基本的には「StartImage」に動画の最初のフレーム(以降、開始フレーム)を入力して、動画の大きさと秒数を指定すればOK。逆に、動画の最後のフレーム(以降、最終フレーム)だけを指定したり、最初と最後を両方指定することも可能です。最初と最後が同じ画像なら、ループ動画を作ることができます。
・Use EndImage(最終フレーム指定)
デフォルトでは「no」になっていますが、「Enable Endimage:yes」にすると、開始画像だけでなく動画の行きつく最後のフレームも「終了フレーム(Endimage)」として指定することができます。開始フレームと同じにすると、ループ動画を作れます。
基本的に、開始フレームのみ(もしくは最終フレームのみ)で生成したほうが動画の品質はよくなるのが普通ですが、Wan2.1に比べて格段に安定するようになっています。ただ、開始フレームと整合性のない画像を最終フレームに指定すると、無理矢理つなげようとして品質が悪くなりがち。画像の色がおかしくなったり、謎の光(フラッシュ)が発生したり、連続性を失って場面がジャンプしたりします。

・SwapStartEnd(開始フレームと最終フレームを交換)
yesにすると、「StartImageに読み込んだ画像を最終フレーム扱い」します。ちょっと分かりにくいですが、要するに動画の最後のフレームだけを指定したいときだけONにする機能です。例えば、着地した画像を最終フレームにしておいて、空中から落ちてくる動画を作ったりできます。ある一瞬をとらえた画像から過去の5秒と未来の5秒を作ってつなげれば、1枚のフレームから前後10秒を推論できて大変便利です。(詳しくは特集第4回参照)

・StartImage(開始フレーム指定)
これからi2vしたい静止画を開始フレームとして読み込みます。上の図では、「Use EndImage」がnoになっているので、すぐ下の「End Image」は暗く表示されています。過去に入力したことのある画像は履歴として保存されており、「画像」と書いてある部分をクリックか「◀▶」ボタンでいつでも呼び出せます。

・LoadImageFrom
入力画像をフォルダ指定できるノードです。EnableFromFolderに変更すると、隣のノードで指示されている「EasyWan22\Input\Load」フォルダから入力画像を読み込みます(フォルダ変更も可)。その下のノードが「randomize」だとランダムに選択し、「increment」としてvalueを0にすると、生成するたびにフォルダ内のものを順番に開始フレームとしてチョイスしていきます。外出中にさまざまな入力画像で大量生成したいときに便利。

③VideoOutputノード群

ここからは、出力する動画のサイズや秒数を具体的に指定する作業に入ります。動画の秒数やサイズは生成物のクォリティ、そして生成時間も大きく左右する非常に重要な設定ですので、自分のPCで最高のパフォーマンスが出せるよう設定を練りましょう。

・Size type
「入力したサイズを正方形にした場合の面積で指定するモード」「長辺のピクセル数を直接指定するモード」かを選び、Size pxで指定します。ちょっと難しいので、よく読んで理解しましょう。
デフォルトの「Enable SquareSide(面積指定モード)」だと、まず指定した辺の長さの正方形の面積を自動計算し、入力画像を基に同じくらいの面積(近似値を取るのでぴったりではない)になるサイズを計算します。つまり、どんなアスペクト比の入力画像でも、同じピクセル数を指定すれば動画の面積やVRAM負担は一定になるわけです。「Enable Long side(長辺指定モード)」はもっと分かりやすく、アスペクト比と関係なく、長辺を指定したピクセル数に固定します。この場合、短辺は読み込ませた画像のアスペクト比をもとに自動で決定されます。

長辺指定モードのほうが直感的に分かりやすいのですが、長辺の長さが一定でも短辺の長さが変われば面積も変わるわけですから、このモードでは開始フレームとした画像が細長いか正方形かでVRAM負担が大きく変わります。入力画像のアスペクト比によっては、長方形のサイズならギリギリVRAM容量いっぱいで生成できるはずだったのに、正方形に近かったのでRefiner時に溢れてしまった…といった予想外のトラブルも引き起こしがちです。一方、正方形モードだと、どんな画像を読み込ませても同等のVRAM負担になるようサイズが自動調整されますが、長辺・短辺が何pxになるか直感的に分かりにくくなるのがデメリットです。

・Size px
これから生成する動画のピクセル数。デフォルトは416px(面積指定モード)となっていて、VRAM12GBなら面積指定モード528px、長辺指定モード640pxが推奨されています。

<動画サイズは最重要パラメータ>
静止画生成と同じで、全く同じSeed値・設定でも、サイズによって動画の内容や画質、動きのクォリティは変化します(重要)。基本的には、大きくすると高品質になり、VRAMへの負担が大きくなります。辺の長さを2倍にすると、消費VRAMもおおよそ4倍になるとのこと。
それぞれのPCスペックと相談しつつ、640、768、960、1024、1280などと32の倍数で刻みながら大きくしてみて、自分のPCの限界を探るのが良いと思います。参考として、RTX4080(VRAM16GB)環境では長辺768pxの4秒動画に約2分40秒、長辺1024pxの5秒動画に約4分20秒掛かりました。(後処理なし)
            ▲長辺640pxだと画質はこれくらい

詳しくは後述しますが、VRAM12~16GB環境なら、基本は「長辺640px程度でたくさん生成▶良いwebpをチェリーピックしてRefinerで1.5倍」が一番安定しているように思います。キャラクターの顔立ちが変化しすぎる場合はRefinerのSTEPを落とすか、「長辺1024px(VRAMの限界値サイズ)で生成▶フレーム補間60FPSで後処理のみ」も良いでしょう。

・Seconds(秒数)
生成する動画のおおよその秒数で、デフォルトの「3」だと3秒動画が生成されますが、推奨値は5秒。秒数が2倍になるとVRAM負担も2倍になります。長い秒数になるほど(正確にはフレーム数が増えるほど)動きがおかしくなりやすいようで、動作が逆回しになって開始フレームに戻ろうとしたり、フラッシュ(謎の光)が生じたりする確率が上がります。

④Prompt(プロンプト)ノード群

次は、読み込ませた静止画をどのような動画にしてほしいかを入力するプロンプト用のノード群です。非常にごちゃごちゃしていますが、慣れるまではSeedを-1にしてPositivePromptを入力するだけで大丈夫です。

・Seed(シード値)
静止画生成と同じで、同じ設定でもSeed値がランダムなら毎回違う動画が生成される。「Randomize Each Time」を押して「-1」(ランダム生成) を指定するのが基本。過去に生成したwebpなどからワークフローを再現した場合、seed値が知らないうちに固定されていることがあるので注意しましょう。

・PositiveInput(ポジティブプロンプト)
プロンプト欄。Wan2.1よりかなり安定して指示が効くようになっています。基本的には英語の自然言語で指示するのがいいようですので、ChatGPTやGrokなどのLLMに日本語で指示して「自然言語の英語プロンプトにして」と頼むのがいいでしょう。次の「SelectPrompts」機能を使うことで、隣の「TranslateInput」欄に記入した日本語を自動で英訳してもらうこともできます。
{smile|angry}のように入力すると、生成のたびにランダムで片方が選択されます。冒頭に#をつけるとメモ書きができます(入力してもプロンプトに反映されませんので、よく使うプロンプトやトリガーワードなどをメモ書きしておくと便利)
    ▲デフォルトでは女の子がダンスするプロンプトが入力されている

・SelectPrompts
Google翻訳やローカル拡張機能を使って、プロンプトにまつわるいろいろな設定を操作できます。
「LoRAPresetTrigger」は、動画LoRAのトリガーワードをプリセットから自動で読み込むかどうかを選択するもの。こちらは後で説明します。
「Translate Input」をyesにすると、下図の「TranslatePrompt」ノードに入力した文を自動で翻訳したり、拡張したりして、ポジティブプロンプトに追記してもらえます。つまり、PositiveInput欄が空白でも、ここに日本語でどんな動画にしたいか書き込んでおけばOK。もちろんPositiveInput欄とダブルで書き込んでも構いません。
「LocalTranslateEn」をオンにすると、この欄に入力した言語(日本語)をローカル作業で英訳してくれます。「GoogleTranslateEn」「GoogleTranslateCn」で、日本語で入力した文章を英語か中国語にGoogle翻訳してくれます。「ImageToPrompt」は、入力した開始フレームを基に英語プロンプト化してくれるものですが、抽出される文章量はごく短めなので、ちょっと不便。「LocalExtendEn」「LocalExtendCn」は、翻訳ではなくプロンプト欄の入力内容を基に自動でプロンプトを付け加えてくれる機能。指示していないことが起きてほしくないときはOFFでも良いです。

SelectPromptsによる追記の結果、最終的にプロンプトがどうなったかは、実行後にFinalPositivePrompt欄で確認することができます。最初にPromptInput欄に入れたものが反映され、その後順次翻訳や拡張機能による追記が続きます。
このように中国語や英語が入り乱れ、同じことを何度も書き直してあっても、Wan2.2では意外と良好な生成結果が得られます。Wan2.2が中国発のモデルということもあり、Zuntanさんも「翻訳もプロンプト拡張も中国語のほうがよく効く気がする」とコメントされています。

・Rewrite(リライト機能)
SelectPromptsでできたプロンプトは上図のようにごちゃごちゃしがち。Rewrite機能を使うと、できたプロンプト全体をQwen(ローカルLLM)でリライトできます。デフォルトでは「NoRewrite」がyesの状態=機能オフになっています。LoRA のトリガーワードが消えてしまうと困るので、そういうときは「PositiveInput」欄 に記載しておけばOK。ただ、現状あまりリライトの精度は高くないようで、意味不明な動画になってしまうことも多いです。
・NegativePromptInput
生成してほしくない内容を書き込むネガティブプロンプト欄。「NegativePreset」ノードから、あらかじめ用意されているセットのどれをONにするか選択できます。 デフォルトでは勝手に口パクしてしまうのを抑制するための「Talk」プリセットと、中国語のテンプレートセット「CnTemplate」プリセットがONになっています。
「Talk」と「CnTemplate」をオンにすると、下記のようなネガティブプロンプトが自動で指定されます。
それぞれ日本語にすると「口が動く、しゃべる、話す」と、「色調が鮮やかすぎる、露出過多、静止画、詳細が不明瞭、字幕、スタイル、 作品、絵画、画面、静止、全体的に灰色がかっている、最悪の品質、低品質、JPEG圧縮の残留、醜い、欠損した、余分な指、下手な手の描き方、下手な顔の描き方、奇形、顔の損傷、形態の奇形な四肢、指の融合、静止した画面、雑然とした背景、三本足、背景に多くの人が映っている、逆向きに歩く」となります。

とりあえずこのプリセットを使いつつ、望まない結果が出るようならそれを中国語(か英語)でNegativePromptInputに追記すると良いでしょう。もちろん、口パクさせたいときはTalkをオフにする必要があります。

ちなみに、英語テンプレート(EnTemplate)の内容も中国語とほぼ同じです。逆に言うと、後ろに進んだり、静止画のまま動かなかったりといったミス生成が起こりがちであることが分かります。

【コラム】口パクがどうしても直らないときは?
ローカル動画生成モデルとしては非常に取り回しがよく、評判の高いWan2.2ですが、「プロンプト指示にかかわらずキャラクターが口パクをしてしまいがち」という弱点があります。特に量子化などで軽量化されたモデルはネガティブプリセットで「talking」を設定していてもお構いなしにパクパクするので、抑制したい場合はより重めのベースモデルを使うか、口パクしない立ち絵系LoRA(Live Wallpaper Style、EasyWan22のプリセットにあります)を使う手法があります。
▲「Live Wallpaper Style」LoRA。いわゆる「キャラ待機絵」風の動画になるため、口パクが抑制できる


④Preset&Modelノード群

次は、動画生成に使用するモデルや動画用LoRAの適用を指定する二列のノードです。量子化されたWan2.2のFastMix(快速カスタム)モデルか、Base(ベースモデル)のどちらかを選べる仕様になっています。

Presetノード群には、Zuntanさんチョイスの(主に成人向けの)LoRAが多数取り揃えられており、オンにするだけでさまざまなシチュエーションを再現することができます。Wan2.2は基本的にLoRAなしでも言うことをかなり聞いてくれるので、LoRAを使う場面はNSFW動画の生成をしたいときがメインかなと思います。
Wan2.2用のLoRAには、Hiノイズ段階で適用する「HiNoiseLoRA」と、Lowノイズ段階で適用する「LowNoiseLoRA」があります。ManualLoRAノードでは、それぞれ「lora0~4」の欄からWanシリーズ用LoRAを選択し、強度をstrength欄で指定します。Wan2.2用のLoRAはまだあまり出回っていませんが、Wan 2.1のLoRAを2.2に適用しても、そこそこの効果は期待できるようです。

・プリセット「TierS」「Nashikore」「NsfwPresets」「SFW」
ZuntanさんオススメのLoRAプリセットが多数取り揃えられており、タテに4つの欄に整理されています。上三つはNSFW(成人向け)LoRAプリセット。「TierS」は高性能なおすすめLoRAプリセットで、「Nashikore」はNashikore氏がUPしたNSFWLoRA群、NsfwPresetsはその他HなLoRA群です。「SFW」は一般向け動画LoRAで、「ダンス」や「ライブ壁紙」などがあります。「ライブ壁紙」はソシャゲ風の待機アニメが作れるLoRAで、口パクの抑制に役立ちます。

・「PresetHighStrength&PresetLowStrength」
それぞれのプリセットLoRAを使う場合に、LoRAを適用する重みを設定できる。デフォルトは1で、動きが足りないと思ったら1.2程度、動きが暴れて破綻してしまう場合は0.8程度に調整しよう。

H動画系LoRAについては、「第3回」のNSFW特集をご覧ください。

プリセットにない動画LoRAを自分で入手して使う場合は、隣の「Model」ノード群で設定します。

・EnhanveMotion for FastMix(スピード強化)
FastMixモデルを使って動画生成する場合に、スピードの速さを調整できるノード。デフォルトは0で、プラス方向に調整すると動作が早く、もしくは激しくなる。マイナス方向に調整すると、動作が静かになり、一貫性が保たれる。
・Boost1stStep(動き強化)
スピードではなく動作の大きさを強調するためのノードで、デフォルトでONになっている。
・TextEncoder
プロンプトをAIが理解できる形式に変換するのが「テキストエンコーダー」。プロンプトをどのように解釈し、動画として仕上げるかが変わります。以前は高精度なテキストエンコーダ「Native」がデフォルトでしたが、8/12アプデから安定した「Kijai」がデフォルトになりました。Nativeは「VRAM周りのトラブルが起きがち」とのことですので、好みで使い分けましょう。
・TorchCompile(トーチコンパイル・青ノード)
デフォルトでONになっており、基本的に触らない。「Geforce RTX 20x0以前などの古い GPU で、コンパイル最適化を正常に利用できない場合に無効化します」とのこと。
・SelectModel(モデル選択・青ノード)
動画生成に使用するWan2.2系モデルの種類を変更できる。デフォルトは快速カスタム版の「FastMix」が選ばれているが、より高品質だが動作の重い「Base」に変更することもできる。
・BlocksToSwap(VRAM消費量効率化・青ノード)
デフォルトは40。それぞれのグラフィックボードの持つVRAM容量に余裕がある場合、数値を減らすことで余剰分のVRAMを有効活用できる。余剰分を何に使うかは、下の「ModelLoader」欄内から設定できる。
・ModelLoader(モデルの読み込み・青ノード)
LoRAを含めた、動画生成に使うモデルを選ぶノード。プリセットにないLoRAをCivitaiなどから手に入れた場合、こちらから「High」と「Low」それぞれのLoRAを読み込んで使う。トリガーワードも自分で「PositivePrompt」ノードに入力する必要があります。例えば、汎用挿入プリセットで適用できる「GeneralNSFW」LoRAなら、「ntsfsks」と入力する(※ぶっちゃけ、入力しなくても効くようだ)

<wan2.2用LoRAにはHigh用とLow用がある>
Wan2.2モデルはHighとLowの二段構えで生成するため、モデルも違っていると紹介しましたが、wan2.2用の動画LoRAにもHigh用とLow用の区別があります。主に動画の動きを司るHiNoiseノードだけにLoRAを設定しても十分な効果が得られるようですが、HiNoiseとLowNoiseの両方にLoRAを設定するとさらに良い結果になるということですので、試してみましょう。一方「LowNoise」だけにLoRAを設定すると、後半ステップのみに動画LoRAが適用されるので、当然やんわりした効き方になります。理屈の上では、動きを司るLoRAはHiNoiseノードに、細部の描画を司るLoRAはLowNoiseノードに読み込ませるとより良い結果が得られるはずです。

⑥PostProcess(後処理)ノード群

生成した動画のアップスケールやフレーム補間(ヌルヌル化)、モザイク処理など、仕上げ段階処理を行うノードです。動画生成には大きなVRAM負担と時間が掛かるので、基本的には毎回後処理を行うことはせず、試行錯誤で良いwebpが出せてから、最後に高品質にするやり方が効率的です。

・「PostProcess」(後処理をする内容)
ポストプロセス全体のオンオフを切り替えるノード。よいwebpが得られて、それを高品質化したい場合にオンにします。

・「MosaicWork」(モザイク処理)
モザイクを掛けたいときは「MosaicWork」をオンにします。PostProcessがオフの状態でも、MosaicWorkだけオンにすることができます。

・「PostProcessSource」(後処理を施すソース)
後処理を施す動画を2つの選択肢から選ぶノードです。オフの状態ではこれから生成する動画に後処理を続けて掛けますが、「LoadWebpVideo(ロードしたWebp動画)」をオンにすると、「PostProcess LoadWebpVideo」欄でアップスケールなどを施したい Webp 動画を読み込んで後処理から作業を始めることもできます。(その場合、同じWebp動画をワークフローの何もないところにドラッグアンドドロップし、同じ動画を生成できるワークフロー設定にする必要があります。画面上部の黄色い説明書き参照のこと)

・「Upscale」(アップスケール)
yesにすると、ソースに指定した動画を指定したアップスケーラーで縦横2倍のサイズにアップスケールします。静止画生成におけるHiresのようなものですので、その分時間が余計に掛かります。jpg劣化のような、生成時の低劣なブロックノイズをきれいに整える力はありますが、Refinerのように線を動かす力はない(侵襲的な変化はしない)ため、もとの動画が崩れている場合の修正には限界があります。

使用するアップスケーラーはワークフロー左上にあるGenerateノードの中にある「拡大モデルを読み込む」から変更することができます。2倍にするか4倍にするかは「UpscalerRescale」で指定します。


・Refiner(リファイナ)
アップスケーラーを使った機械的な高解像度化(Upscale)ではなく、動画を拡大しつつLowNoiseモデルで細部を仕上げる工程。静止画生成で言うところのimage2imageアップスケールに似た機能で、Upscaleに比べて変容度が高い。デメリットとして、Wan2.2のマスピ顔寄りになってしまったり、細部が変更されることがあります。

「Enable Refiner」をyesにすると発動し、下記のような設定ができます。
・「Steps」:Refinerによる書き換え量を調整する。ステップが多くなるほど元の動画から離れるかわりに、画質が向上する。デフォルトは2で、最大6程度。
・「UseUpscaler」:Refinerを掛ける際にアップスケーラーを掛けるかどうか指定するノード。デフォルトはON。
・「LongSide」:拡大後の動画のサイズ(長辺の長さ)を倍数で指定。デフォルトは「a * 1.5」で1.5倍になっている。数字部分を「2.0」などと調整してもよいし、「960」「1280」のように直接サイズ指定することもできる。
「AdditionalSeed」:Refineで用いる追加シード。fixed(固定)、increment(+1)、decrement(-1)、Randamize(ランダム化)の4種。fixed以外だと、Refineするたびに結果が変化する。

・TrimStartFrames/TrimEndFrames
数値を設定すると、冒頭か終わり際の数フレームをトリミング(除去)することができます(デフォルトは0で発動せず)。開始・最終フレームを両方指定したときに、それぞれのフレーム付近で急激に色合いや顔立ちが変化してしまうことがあるので、この機能で簡易に調整することができます。

・ColorMatch(色調マッチング)
開始フレームを参照して色合いに統一感を出せる神ノード。特に最終フレームを指定した生成の場合、色味が大きく変化してしまうことがあるので、こちらをONにしてポストプロセスを掛けることで右の動画のように色合いに統一感を持たせられる。
TrimStartFramesで冒頭をトリミングした場合は、ColorMatchReferenceノードから色合いを参照する画像を「image0」(トリミング後の最初のフレーム)に変更しましょう。
注意点として、上のメイドさんの例のように開始フレームから最終フレームまで同じ被写体がずっと映り続ける場合はよいのですが、別のキャラクターにパンするなど違う画像になった場合、参照した画像の色に寄ったカラーリングになってしまいます。例えば、マリオからルイージに移り変わる映像を生成したときに、ColorMatchで開始フレームを参照するとルイージが赤っぽくなってしまうので、その場合はオフにしましょう。特にループ動画を作りたいときに有用なノードです。

・ColorCorrect(色調補正)
こちらも色調補正ノードで、開始フレームの色調を参照するColorMatchと異なり、自分で明るさやコントラスト、色温度などを増減・調整するタイプ。詳しくはこちらを参照のこと。
・RepeatFade
動画の末尾で先頭とクロスフェードする機能。ループ動画でない動画を連続再生すると、最終フレームから開始フレームにぱっと切り替わるのでやや不自然に見えるが、「RepeatFade」することで自然にフェードアウト&フェードインさせることができる。「RepeatFadeFrames」はクロスフェードするフレーム数のことで、減らすと一瞬しかフェードしません。デフォルトでは7フレーム分クロスフェードします。

・Detailer(部位検出・高精細化)
顔などをピンポイントで高精細化する、StableDiffusionの「ADetailer」のような機能。動画生成時に、狭い範囲に描画された顔や手は形状が破綻したり、低品質になったりしがちだが、この機能を使って部分的に高解像度にできる。

「Steps」:Refinerによる書き換え量を調整する。ステップが多くなるほど元の動画から離れるかわりに、画質が向上する。デフォルトは2で、最大6程度。
「Upscaler」:Detailerを使う際にアップスケーラーを適用して画質を補うか決める。デフォルトでONになっている。生成時間が伸びるが、さほどリスクなく品質が向上するので有効推奨。
「Timing」:DetailerとRefinerの両方を掛ける場合、どちらを先にするかを設定可。先にDetailer を掛けた場合、書き換え範囲の境界線が残ってしまっても、後から適用されるRefiner が目立ちにくくしてくれる。(Refiner の後に Detailer を掛けた場合、区域別のプロンプト指示結果を残しやすくなり、Detailerを先に掛けた場合、区域別のプロンプト指示結果を残しやすくなります)
「LongSide」:拡大後の動画のサイズ(長辺の長さ)を倍数で指定。デフォルトは「a * 1.5」で1.5倍になっている。数字部分を「2.0」などと調整してもよいし、「960」「1280」のように直接サイズ指定することもできる。
「AdditionalSeed」:Refinerで用いる追加シード。fixed(固定)、increment(+1)、decrement(-1)、Randamize(ランダム化)の4種。fixed以外だと、Refineするたびに結果が変化する。Detailerによる境界線が目立つ場合はランダムにしてガチャする。
「Detector」:動画のどの部分を何か所まで検出するか、優先順位をどうするかなどを決める検出器。部位別にプロンプト指定することで表情を変更したりもできるが、上級者向け。あまり多くの部分を抽出していちいち高画質にすると非常に生成時間が伸びるので注意。


★「FrameInterpolation」(フレーム補間)
Yesにすると、動画を細切れの静止画(フレーム)にしたときの中間部分を補って、滑らかにしてくれます。中間部分を補ってフレーム数を増やすので、完成した動画は再生速度がゆっくりに見えますが、動画編集ソフトなどで速度調整するとヌルヌル動いて見えるというわけです。
1秒間60フレームになるよう補ってくれる「60FPS」、その上で1.3倍速にする「60FPS x1.3 Speed」、1秒間30フレームになるよう補ってくれる「30FPS」の3種類があります。
かなり生成時間が伸びるのと、その後の速度調整の手間が掛かるので、使用するかは慎重に考えましょう。フレーム数が多ければ気持ちのよい動画になるわけではなく、動画のスタイルによってはフレームを間引くと逆に小気味よくなることもあります。(このあたりは映像編集知識と好みに依るところも大きいです。ドット絵動画ならカクカクさせたいですし、エロはヌルヌル動くと嬉しいですね)

・一般的な後処理の流れ

まずはPostProcessをオフにした状態で、Seed:-1で良い結果が出るプロンプトとSeed値を探ります。試行錯誤を繰り返して良いwebp動画ができたら、まずそのwebp動画を生成できたワークフローを呼び出しましょう(重要、忘れがち)。キュー画面やOutputフォルダから、そのwebpをComfyUIの何もないところにドラッグアンドドロップすると、そのときのワークフローを呼び出せます。
そうしたらPostProcessノード群から「PostProcessSource」を「LoadWebpVideo」にし、隣の「PostProcess LoadWebpVideo」にもう一度同じwebp動画を読み込ませます。(キュー欄からノードにドラッグアンドドロップするか、Outputフォルダ内から指定すればOK)
最後にRefinerやDetailer、FrameInterpolationのなどをEnableにして「実行」!…という流れで、いま読み込ませた動画の高品質化を図ることができます。

毎回生成のたびに後処理をしたい場合は、「GeneratedVideo」を選んでUpscaleなどをEnableにすればOKですが、生成時間が余計にかかってしまいますのでおすすめしません。

・動画生成に無理は禁物
もともと大きいサイズで生成した動画をさらに後処理で高品質にしようとすると、VRAMがすぐ一杯になってフリーズするかエラーが発生します。具体的な目安としては、Refinerを使う場合は長辺640pxくらいまでにしておかないと、VRAM16GBでもきつい印象。「640pxで生成▶Refinerオン(STEP4&1.5倍)・フレーム補間60FPSで後処理」が一番安定しているように思います。キャラクターの顔立ちが変化しすぎる場合はSTEPを落とすか、「1024pxで生成▶フレーム補間60FPSで後処理」も良いでしょう。

いつまでたっても作業終了しない場合はタスクマネージャーから「パフォーマンス」タブを確認して、VRAM(専用GPUメモリ)が100%に張り付いて共有GPUメモリにも漏れだしていたら、無理な作業をさせてしまったと判断しましょう。(この状態で粘るより、少し控えめな品質設定にしてやり直した方が時間が無駄になりません)
 ▲正常例。専用GPUメモリ(グラボのVRAM容量)の範囲で生成が行われている

  ▲途中から共有GPUメモリに漏れ出しており、作業速度が激遅になる例

⑥AutoMosaicノード群

H動画を生成する際に、局部を検知して自動モザイクを掛けてくれるノード群です。「PointMosaic」「MaskMosaic」「AutoMosaic」の3つの欄に分かれており、それぞれ任意指定・半自動検出・自動検出でモザイクを掛けられます。こちらもアップスケールと同様、毎回モザイクを掛けると大変ですので、完成品(それもR-18の…)を作るときだけONにしましょう。

・「PointMosaic」
ユーザーが任意の位置を指定して半自動でモザイク処理ができるモード。「Point Editor」を使って緑の点を指定すると、そこにモザイクが掛かります。赤い点にはモザイクがかからないようにできます。「Shift+左クリック」で緑の点を追加、「Shift+右クリック」で赤い点を追加。(説明書ではCtrl+クリックになっていますがShiftです)
「点を増やしすぎると精度が落ちるので、3~4個ぐらいに抑えるのが推奨」とのことです。「New Canvas」ボタンでポイント指定のリセット、右クリックで「Load/Clear Image」が可能。 「PointMosaicGrow」に入れる数字を増やすことで、検出した範囲を少し広げることもできます。

・「MaskMosaic」
マスクを使って任意の位置にモザイクを掛けるモード。こちらはモザイク位置が完全固定です。「MaskMosaicImage」で静止画を開き、右クリックから「Open in MaskEditor」 でマスクを掛けたい範囲を指定します。 当然、被写体が大きく動くと見えてしまうので注意。

・「AutoMosaic」
AIによる自動モザイクを施せるモード。「AutoMosaicTargets」で指定した対象に、「AutoMosaicTakeCount」で指定した数を上限に自動でモザイクを掛けます。繰り返しの動きの場合は割とうまくモザイクできますが、ちらつきが生じることがあります。

それぞれの詳しい使い方はこちらで解説しています。


プロンプトの書き方

さて、ここまで見てきたノード群の役割が理解できたら、あとは開始フレームを指定してプロンプトを用意し、生成開始するだけです。その前に、静止画生成とはちょっと違う動画プロンプトの書き方についても触れておきます。

・Wanシリーズ向けプロンプトの基本
Wan2.2のプロンプトの基本は「主題(Subject) + シーン(Scene) + 動き(Motion)」とされています。主題とは、基本的には主人公となるキャラクターのこと。シーンとはキャラクターが置かれている状況。最後がキャラクターの取る動きです。ミナちゃんが画面から「よっこらしょ」と飛び出してくる動画の場合、以下のような構成となります。

主題:「An anime girl with a ponytail tied with a mint green scrunchie, red glasses, and wearing a sailor school uniform with a grey cardigan」
シーン:「...is sitting inside a window-like frame on a green background.」
動き:「She is reading a book calmly, then suddenly notices the viewer. She smiles warmly and waves with one hand. Then she closes her book, places both hands on the green border of the frame, and says "yoisho!" as she pulls herself up.」

ここでは英語で表記しましたが、自動翻訳ソフトを使って中国語にしても構いません。基本的には作りたい動画の内容をChatGPTやGrokなどに日本語で依頼すれば、簡単に作ってくれるはず。ただ、中国語だと間違いに気付きにくく、また気軽に書き直しもできないので、個人的には英語がよいかなと思います。

・熟練者向け
動画生成に慣れてきたら、「主題(+外見の描写) + シーン(+環境描写) + 動き(+動きの特徴) + 美的制御(Aesthetic Control) + スタイライズ(Stylization)」というプロンプト構成が推奨されています。要するに、いきなり女の子がこのように動いて…と書くのではなく、まずは開始フレームとして入力した静止画に描かれている内容を忠実に文字起こしするところから始めるべきということですね。どういう女の子がどういう場所にどんな表情やポーズでいて、これからどういう動きをするのか、どんな画風で、どんな雰囲気で、ライティングやカメラの動きはどうなのか…という順で詳しく書き込んでいくと良いようです。

個人的な主観ですが、Wa2.1はシンプルなプロンプトのほうがよく、余計なことを書くとそれに誤った反応をして破綻してしまうようなことが割とあったのですが、2.2はかなり空気を読んだ解釈をしてくれるようになっています。まずはLLMに英語プロンプトを組んでもらい、生成された動画を見て、微修正を加えていくやり方が効率的ではないかと思います。

<プロンプトが効かないときは>
例えば、キャラクターにくるりと一回転してほしいのに途中で止まって逆回しになってしまうとか、口パクしてほしくないのに口パクしてしまう、バク宙してほしいのにうまくできない…といったことはwan2.2でも引き続き起こります。まずはプロンプトをネガティブプロンプト欄も含めて見直して、LLMの力を借りながらより具体的に、誤解が生じないように書くことがファーストステップですが、それでも効かないときは、プロンプトではなく動画サイズや秒数などの設定が邪魔をしている可能性もあることを覚えておきましょう。

手元環境で起きた例では、長辺720px・5秒の動画でメイドさんが回転する動画を作ると、何度やってもこちらに背中を向けたところでストップして逆回転してしまうところ、長辺1024px・5秒にしてやり直したら、ほぼ毎回きれいに1回転する結果になりました。
もちろん、映像データセットでの学習が足りない事象については再現もできないのは当然です。そういうときは、静止画生成と同じで動画LoRAの出番になります。


EasyWan22・トラブルシューティング

よくある困りごとや陥りがちなミス、注意ポイントをまとめました。

・生成途中でうんともすんとも言わなくなった
たいていはVRAM容量がいっぱいになってフリーズしている状態です。VRAM使用量が100%にはりついていないかどうか、タスクマネージャーを確認しましょう。実行ボタンのところの「×」を押してもなかなかフリーズから脱しないなら、プログラムを終了してbatファイルを再起動するしかありません。

・生成途中で謎のエラーを起こした
コマンドプロンプト画面のログを見てみましょう。ERRORが出ていれば、ログをコピーして(Ctrl+Aで全体を選択し、Ctrl+Cでコピー)、ChatGPTなどに投げてみるとたいていは解決します。よくあるのは、指定したLoRAがその場所にないとか、必要な入力画像がブランクになっているといった単純ミスです。過去のワークフローをwebpから呼び出したときなどに、今のComfy環境とフォルダ構成が異なっていてエラーを起こしがちです。

・アップデート後、生成ができなくなった
ComfyUIは前回生成したワークフローを自動で読み込むので、アップデート後の環境に適していないワークフローになっている可能性があります。画面左のワークフロー一覧から最新のi2v用ワークフローを読み込んで、もう一度生成を試してみてください。それでもエラーが出るようなら、上記のようにChatGPTに聞いてみます。最悪の場合環境の入れ直しということになりますが、たいていは凡ミスです。

・以前生成したwebpを読み込んだが、同じ生成ができなくなった
webpやmp4動画をComfyUI上の何もないところ(ノードを避けた余白部分)にドラッグアンドドロップすると、ファイルに記録されている生成当時のワークフローが再現されます。が、アップデートなどでComfyUI(EasyWan22)のファイル構成が当時と変化していた場合、当然同じ動画を生成しようとしてもエラーが起こりがちです。
全く同じ生成はできませんが、現在使用している最新のi2vワークフローで同様の生成を行いたい場合は、入力画像やプロンプト、Seed値などを当時のワークフローと同じにして生成し直す必要があります。

・普段生成できていたはずのサイズでフリーズした
例えば、960pxや1024pxサイズでぎりぎりVRAM上限いっぱいで生成できていたのに、今日はなぜかスムーズに生成できない…ということがあります。そういうときはタスクマネージャーを見てみると、VRAM使用量が100%に張り付き、共有メモリにも漏れ出していることがほとんどです。
理由はいくつか考えられますが、まずチェックしたいのはサイズ設定が「Long side」ではなく「Square side」になっていないか。長辺1024pxのつもりが、長辺短辺の平均が1024pxになっていると、もっと大きなサイズを要求していることになってしまいます。
そのほかに考えられるのは、後処理をオフにしていたつもりがどこかがオンのままになっていて、非常に大きな最終サイズでアップスケールやRefinerを要求しているケース。後処理のソースを「GeneratedVideo」と「LoadWebpVideo」で取り違えているケースもよくあります。

・環境を入れ直すときはOutputロストに注意!

EasyWan22で生成した動画や最終フレーム画像は、インストールフォルダ内の「Output」フォルダに保存されます。
しかし、このOutputフォルダは見た目上は「EasyWan22」フォルダ内にあるように見えても、実際にはWindowsのジャンクション機能によって常に同じ場所(easywan22\ComfyUI\output)を参照しています。そのため、親フォルダの名前を変えたり場所を移動しても、参照先は変わりません。この仕様を理解しておかないと、Outputフォルダを丸ごとロストしてしまう危険性があるので、よく覚えておきましょう。
例えば、「EasyWan22」フォルダに必要環境をインストールして、楽しく動画生成していたところ、アップデートに失敗するなどしてその環境が壊れてしまったとします。壊れてしまった環境を「EasyWan22_old」などとリネームしてバックアップしておき、新しい「EasyWan22」フォルダにもう一度環境を作り直したとしましょう。

その場合、「EasyWan22_old」の中に大事に保管されていたはずのOutputフォルダに入っていたこれまでの生成動画はすべて消滅します。

なぜなら、新しく作った環境でも古い環境でも、参照するOutputフォルダは同じ「easywan22\ComfyUI\output」だからです。新環境の初回起動時やUpdate.bat実行時に、「出力フォルダを空にする」「キャッシュを削除する」といった処理が自動で走るようで、新環境が初期化をかけた時点で、旧環境で使っていた同じOutputフォルダ内の過去ファイルが全部消え、まっさらな新環境が用意されてしまいます。

環境を作り直すときは、「easywan22\ComfyUI\output」フォルダそのものを別の場所にコピーアンドペーストして保存しておきましょう。


小括~第2回は「実践編」

かなり長くなってしまったので、いったんここまでで「導入編」は終わりにします。ここまで説明したことを踏まえ、次回は「実践編」ということで、キャラクターの回転動画やクロマキー合成のやり方、R-18動画の生成などについて詳しく見ていきたいと思います。

以前、EasyWanVideoでWan2.1に初めて触れたときに思ったのは、「やっぱりローカルっていいなあ!」ということでした。オンライン動画生成では、Hなのはだめ、水着はだめ、胸が揺れたらだめ、銃を撃ったり爆発したりしたらだめ、と制限が多すぎますし、それなりにお高いお月謝を支払っているのに、意味不明な失敗動画が生成されて有償ポイントを無駄に食われてしまうことも多発。時間とVRAMが許す限り、これまで生成してきたAIイラストを好きなだけ(Hに!)動かせるようになったことには感謝しかありませんでした。

とはいえ、ローカル生成には技術的限界もあり、オンライン生成と同様にちらつきやフラッシュ、ジャンプとの戦いは避けられなかったわけですが、Wan2.2はかなりそのあたりの面倒が取り払われ、思った通りの動画生成ができるようになっています。

こちらのファンアートは、スタート/エンドフレームに同じ画像を指定して、ChatGPTに頼んで作ってもらったプロンプトでほぼ一発生成したものです。
最後のほうにわずかにフラッシュが起きていますが、動画編集ソフトなどで該当フレームを取り除けば気にならなくなるレベルかと思います(現在はColorMatch機能が追加されたので、よりきれいにできそうですね)。服がわずかに動いたり、呼吸の描写がわずかにあったり、扇風機が首振りしたりするのも指定通り。髪が大きく揺れるからといって、体や背景が勝手に大きく動いたりはせず、「静止すべきところは静止し、動かすところは動かす」ができるのがWan2.2の素晴らしいところですね。

狙った通りの生成結果が出せるようになると、動画編集ソフトを使ったクロマキー合成(グリーンバックを透過する手法)など、既存の映像編集技術との組み合わせがますます捗るようになります。次回はそのあたりも詳しく触れつつ、R-18生成の実力検証に入っていきます。

それでは今回はこのへんで。スタジオ真榊でした。

<その後のEasyWan22特集>
Likes 33
Comments 9
Comments
9
Please Log In to comment
tifa00001
本日導入し、起動まではしました。起動した状態でそのまま実行を押せばサンプル動画ができると思うのですが、highnoise sampler #2で実行エラーで止まってしまいます。解決としてはどうすればよいのでしょうか。 実行画面キャプと実行時のcmdを添付します。 https://xgf.nu/pEPtR
4 months ago
Reply
JO5WVp9hX4g7kd5
batファイルを起動しようとすると、一瞬だけウィンドウが立ち上がり、すぐに消えてしまってインストールが進みません。 pythonのバージョンを変えて試してもダメでした。解決法をご存じありませんか?
5 months ago
Reply
AIイラストが理解る!【スタジオ真榊】
うーん、それだけでは何とも分かりませんが、インストール先のフルパスに空白や日本語が入っているとか、ウイルス対策ソフトが反応しているとかではありませんか?Win + Rからcmdを開いて、batファイルをドラッグ&ドロップしてEnterすると、画面が消えずにエラーを読むことができるかもしれません。
5 months ago
Reply
A EA
こんにちは。真榊さんが昨年からおっしゃっていた通り、今年は動画の年になりましたね。 wan2.2、とてもすごいのですが、少し顔が変わったり、何フレームかだけ修正したいなあ,惜しいなあと思うボツ動画がたくさんあり、捨てきれないでいます。なんか動画のインペイントなんてできないですかね。(笑) 真榊さんならではの微調整、修正のhow toとかお持ちであれば、どこかの記事で伝授していただければ嬉しいです。
6 months ago
Reply
AIイラストが理解る!【スタジオ真榊】
分かります、顔立ちだけはどうしても変わりがちですね。あと、動きが激しくなるほどぼやけたり、品質低下したりするのは避けられないです。動画のインペイントは次の記事に書くために今いろいろ試してるのですが、やはりいったんフレームにバラしてi2iやadetailerしてまた動画に戻すのが良いかなあと思っています。
6 months ago
Reply
TS
これは楽しそう。暇なタイミングでトライします。
6 months ago
Reply
AIイラストが理解る!【スタジオ真榊】
めっちゃ楽しいです!
6 months ago
Reply
すんすんおろろ
おかげさまで動画デビューできました!SDの方もこのファンボのおかげで始ようと思い立つことができており、いつも助かっています!
6 months ago
Reply
AIイラストが理解る!【スタジオ真榊】
良かったですー!読んで下さって、ありがとうございます!
6 months ago
Reply
Show more posts
プレミアムパス
スタジオ真榊FANBOX上の全ての投稿を見ることができます。 Premium Pass: Get full access to all posts on Studio Masakaki FANBOX.
スタジオ真榊FANBOX上の全ての投稿を見ることができます。 Premium Pass: Get full access to all posts on Studio Masakaki FANBOX.
プレミアムパス+
いわゆる投げ銭用のプラン。「プレミアムパス」プランと閲覧できる内容は変わりません。役に立つ記事がありましたらぜひ。 Premium Pass Plus : This is a support plan for fans of the doujin circle “Studio Masakaki.” It offers the same content as the “Premium Pass” plan. If you found any of our posts helpful, we’d really appreciate your support!
いわゆる投げ銭用のプラン。「プレミアムパス」プランと閲覧できる内容は変わりません。役に立つ記事がありましたらぜひ。 Premium Pass Plus : This is a support plan for fans of the doujin circle “Studio Masakaki.” It offers the same content as the “Premium Pass” plan. If you found any of our posts helpful, we’d really appreciate your support!