【検証】Gemini 3×Googleの新兵器「Antigravity」。3時間の講義動画をフルテロップ化してみた(SRTファイル作成)
高性能AIを持て余していた僕
「Gemini 3になって、性能が爆上がりしたらしい」
界隈ではそんな噂が飛び交っていますが、正直なところ、僕自身はそこまでヘビーに使い倒す機会に恵まれていませんでした。宝の持ち腐れ感は否めない。
そんな折、とある動画編集の依頼が舞い込みました。
内容は3時間ほどの講義動画。編集作業自体は淡々と進めていたのですが、ふと「これ、フルテロップを入れたら親切だよな」という考えが頭をよぎりました。
しかし、3時間です。文字起こしをして、タイミングを合わせて……と考えただけで気が遠くなります。依頼内容にも含まれていないし、見なかったことにして妥協しかけたその時、Geminiの最大の武器を思い出しました。
「あいつ、動画を見れるじゃん。。。」
壁:ブラウザ版Geminiの限界
2024年12月現在、主要な汎用型生成AIの中で、動画ファイルを直接アップロードして解析できるのはGeminiの大きな特徴です。
「これ、テロップ作成も全自動でいけるんじゃね?」
善は急げ、ということで早速試してみました。 しかし、ここで壁にぶつかります。普段みんなが使っているブラウザ版のGemini(チャット画面のやつ)では、3時間もの高画質動画はデータ量が大きすぎて、処理しきれなかったのです。
救世主「Antigravity」
そこで引っ張り出してきたのが、Google発の次世代開発環境「Antigravity(アンチグラビティ)」です。
ここで、読者のために少し解説を挟みます。
【用語解説:Antigravityとは?】
Googleが発表した、「AIエージェントファースト」を掲げる新しい統合開発環境(IDE)です。 本来はプログラマーがコードを書くためのツールですが、最大の特徴はGemini 3 Proなどの最新モデルを、制限の緩い環境で、しかも無料で使えること。
「AIの中に開発環境がある」というコンセプトで作られていて、僕らがやるべきことは「指示(プロンプト)」を出すことだけ。あとはAIエージェントが自律的に動いてくれます。まさに「重力(作業の重み)」から解放されるツールです。
文系的翻訳をすると、
Antigrabityを使えば、geminiがゴリゴリにハイテクな処理をしてくれると、いうことです。
実際の作業フロー
僕が行った手順は以下の通りです。
基本的には「動画を作る」→「Antigravityのエージェントに投げる」→「戻す」の3ステップ。
動画編集(ここは人力) まずは通常通り動画を編集します。カット割りや整音など、クリエイティブな部分は人間が頑張ります。
動画をローカルに格納 編集ソフトから動画ファイル(.movなど)を書き出し、PC内のフォルダに保存します。
Antigravityを起動 Antigravityを立ち上げ、対象の動画ファイルがあるフォルダを開きます。
プロンプト(指示出し) Antigravityのチャット欄に、以下のプロンプトを入力しました。
「冒頭書き起こし用.mov この動画を解析し、文字起こしをしてください。その後、フィラー(「えー」や「あー」など)や言い間違いを修正し、SRTファイル形式で書き出してください」
ここで重要なのが「SRTファイル」という指定です。これはYouTubeやPremiere Proなどの編集ソフトが読み取れる、時間情報付きの字幕データのこと。単なるテキストではなく「何分何秒にこの言葉を表示する」というデータを作らせるわけです。
SRTファイルを動画に入れる Antigravityが生成してくれたSRTファイルをダウンロードし、編集ソフトに読み込ませれば……完成です。
怠惰は発明の母
結果として、Antigravityを経由することで、3時間の動画に対して驚くほど精度の高いテロップが一瞬で生成されました。手作業でやれば数日はかかっていた作業が、待ち時間を含めても数十分で終わる。このタイムパフォーマンスは異常です。
ただ、精度100%とは言えないです。
固有名詞の変換ミスや、冗長なテロップの修正などは必要ですが、
ゼロからやるよりは何百倍も時短になります。
「めんどくさい」という感情は、時に技術をハックする原動力になりますね。
Gemini 3の性能と、それを最大限に引き出す「Antigravity」。これを使いこなせば、動画編集という労働集約的な作業のあり方がガラッと変わる予感がします。皆さんも、長尺動画の処理に困ったら、ぜひ「Antigravity」を試してみてください。



コメント