映像内の犬を猫に変えられるAI　テキストのみで動画編集が可能　Googleなど「Dreamix」開発

ITmedia NEWS / 2023年2月13日 8時5分

（左）入力映像、（右）ウミガメの泳ぐ方向を変え、サメを泳がせた様子

　Google ResearchとイスラエルのThe Hebrew University of Jerusalemに所属する研究者らが発表した論文「Dreamix: Video Diffusion Models are General Video Editors」は、テキストに応じた動画編集ができる拡散モデルを提案した研究報告である。

　テキストから画像を生成する拡散モデルと同様に、テキストから動画への変換モデルも近年提案されている。だがテキストに応じて動画編集できる拡散モデルは現状ではほとんどない。

　この研究では、入力動画をテキストプロンプトで高度に編集できる拡散モデルを用いた手法「Dreamix」を提案する。動画とプロンプトが与えられると、Dreamixは被写体のテクスチャやサイズ、色、姿勢、カメラのポーズ、背景などをテキストに応じて忠実に再現しながら動画を編集し、時間的に一貫した新しい映像を作成する。

　例えば、被写体の猿を熊に変える、ウミガメの泳いでいる向きを変える、背景である庭に火をつけて燃やすシーンに変えるなど、さまざまな編集がテキストだけで容易に行える。

　提案手法は、2つの主要なアイデアにより、ビデオ拡散モデルが元映像をある程度保持しつつ、テキストプロンプトに忠実な合成ビデオ生成を可能にする。まず入力動画の解像度をダウンサンプリングし、ノイズを加えてさらに劣化させる。

　次に元映像上で生成モデルの微調整を行うことで、補正された低解像度ビデオをテキストに一致する高解像度ビデオにマッピングする。その結果、ビデオ拡散モデルは劣化した入力映像から得られる低解像度情報を利用することで、テキストプロンプトの指示に応じる調和した映像を合成する。

　さらにビデオ拡散モデルを活用して、画像1枚から、その画像をベースとしたアニメーション生成のための新しいフレームワークを提案する。これは、画像内のオブジェクトや背景のアニメーション、ダイナミックなカメラの動き、新たな被写体を増やして動かすなど、画像のみからテキストに応じた動画を生成できる。

　さらに、同じオブジェクトが写った複数枚の画像を用い、テキストプロンプトで写ったオブジェクトをアニメーション化するフレームワークも提案する。

　Source and Image Credits: Molad, Eyal, Eliahu Horwitz, Dani Valevski, Alex Rav Acha, Y. Matias, Yael Pritch, Yaniv Leviathan and Yedid Hoshen. “Dreamix: Video Diffusion Models are General Video Editors.”（2023）.

　※テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: ＠shiropen2

映像内の犬を猫に変えられるAI テキストのみで動画編集が可能 Googleなど「Dreamix」開発

この記事に関連するニュース

トピックスRSS

ランキング

ITトピックス ITトピックスFeed

映像内の犬を猫に変えられるAI　テキストのみで動画編集が可能　Googleなど「Dreamix」開発