(cache)Google、新AIモデル「Veo」でテキストから動画生成

米Googleは5月14日（現地時間）、本社近くで開催したハイブリッド形式の年次開発者会議「Google I/O 2024」で、テキストから動画を生成する新しいAIモデル「Veo」を発表しました。このモデルは1080pの1分以上の動画を生成できるとされています。

Veoの専用サイトのウェイティングリストは同日公開され、登録することでプライベートプレビューに参加できる可能性があります（提供開始時期は不明）。

米OpenAIが2月に発表した動画生成AI「Sora」は現在、一般公開の予定はありません。

公式ブログによると、Veoは自然言語を高度に理解し、「タイムラプス」や「航空写真」などの用語を理解できるとされています。一貫性のある映像を作成でき、人や動物、物体がリアルに動くことが特徴です。公式ブログでは、雨の夜のアスファルトやサファリを歩く手編みの象のぬいぐるみ、海中を遊泳するくらげなど、Veoで生成した動画が紹介されています。

Google I/Oでは、映像作家と協力して実施したVeoのテストの動画が公開されました。さらに、マスク編集機能もあり、動画とテキストプロンプトにマスク領域を追加し、動画の特定の領域を変更することができます。

また、Veoはテキストではなく画像を入力して動画を生成することもできるマルチモーダルな機能を持っています。画像をテキストと組み合わせてプロンプトに入力することで、Veoは画像のスタイルを参照した動画を生成します。

Googleは、将来的にはVeoの機能の一部をYouTubeショートなどにも導入する計画です。

AI ジャーナル

Google、新AIモデル「Veo」でテキストから動画生成