AntigravityでMV制作ツールを作っていたら、トークンが切れてローカルLLMまで動かすことになった話
こんにちは、氷堂リョージです。
納品後のお休みを使って、AIエージェントと一緒に動画制作用のビジュアライザーを作っていました。
……というか、以前作ったものの改良です。
短い動画素材をフォルダに入れると、
音楽に合わせてそれらをつなぎ、歌詞やエフェクトを乗せて
一本のミュージックビデオとして出力する仕組み。
動画編集ソフトのタイムラインを手作業でいじるのではなく、
素材を置く → コマンドを実行 → MVが生成される
つまり、AIと一緒に動画を作るためのツールを作りながら、そのまま動画制作までやってしまおう、という話です。
字面だけ見るとちょっと強そうですが、途中経過はだいぶドタバタしていました。
Antigravityで開発再開
今回使ったのは、おなじみのAI開発エージェント Antigravity です。
Googleアカウントがあれば使えます。
コードを書いたり、プロジェクト構造を作ったり、開発のかなり広い範囲を手伝ってくれるツールで、権限を与えればファイル整理のようなことまでやってくれます。
ただ、ここは初心者の人ほど気をつけたほうがいいです。
Antigravityは、PC上のファイルや開発環境に直接アクセスして作業するタイプのAI です。
なので、何をやっているのかを確認しながら使ったほうが安全です。うっかり大事なローカルファイルを全消し、みたいな地獄絵図は避けたい。
便利なぶん、扱いは少し慎重に。
最初は「何でも任せる」より、「このフォルダで、この作業だけ」と範囲を狭くして使うのがよさそうです。
今回AIにやってもらいたかったのは、こんな処理です。
・動画素材フォルダの読み込み
・複数動画の接続
・音に反応するビジュアライザー生成
・音に合わせて歌詞テキスト自動配置
・歌詞アニメーション
・動画の書き出し
こういう、プロジェクトの骨組みを作る作業 は本当に速い。
環境構築もかなり順調でした。
……が。
トークンが切れた
私は
「入力情報がモデルのトレーニングに使用されない」
「商用利用もしやすい」
といった理由でGoogle Workspaceを契約しているのですが、
貧乏のくせに別垢で間違えて年額のWorkspace契約をしてしまい、現在二重課金状態です。
なので、これ以上サブスクを増やしたくない。
ある程度開発が進んだところで、Antigravityから事実上の
「本日はここまで」
を食らいました。
5日待てばまた使える。
でも、その頃には次の原稿作業が始まる。
あかん。
無料枠のAI開発、こういうことが普通にあります。
ローカルエージェントを作ってみた
そしてここで私は、たいへん素直に思いました。
制限を回避するなら、ローカルAIエージェントを作ればいいのでは?
発想は雑です。だが、こういう雑な勢いがないと素人はローカル環境に突っ込みません。
そう思って実際に作ってみました。そして動いた。
……が。
UIがない(それはそう)。
黒いターミナル画面に向かって、
「ぴっぷ……」とか「べんぶ……」とか唱えながらAIと開発していくことになります。
たぶん傍から見ると、何かの儀式です。あまり人に見せたい姿ではない。
エンジニアの方には普通の光景だと思います。
でも初心者には、なかなかの急展開です。
「なんかかっこいいことを、している気はする…」
という、ひとまずの快感は得られたので、今回はここで離脱しました。
ここ、初心者目線では大事なところで。
動いたこと自体は収穫。でも、続けやすい形じゃないと結局使わない。
AIや開発環境って、性能だけで決まらないんですよね。
使い続けられるかどうか、素人にとっては案外そこがすべてです。
VSCodeからGemini APIを呼ぶ
次に試したのが
VSCodeからGemini APIを呼ぶ方法です(最初からやれ)。
課金APIのGemini 2.5 Flashを使って
そのまま開発を続けました。
結果。
普通に快適(それはそう)。
しかもこの時点ではGeminiもまだ無料枠内でした(のちに調子に乗って700円ほどはみ出す)。十分に開発を進められます。
初心者の人にとっても、このルートはかなり現実的だと思います。
いきなりローカル完結を目指すと、環境構築、モデル選び、接続方法、UIの使い勝手が全部いっぺんに来ます。ムリ。
でも、VSCode+APIなら、少なくとも
「見慣れた画面でAIにコードを手伝ってもらう」
ところから始められる。
これから学んでいく素人にとって、この一歩の低さは大事です。
AI開発に限らず、新しいことって最初の段差が低いだけでかなり続けやすくなる。と思ってる。
ついでにローカルLLMも導入
せっかくなので
ローカルLLMも久しぶりに触ってみました。
使ったのは軽くて賢いと評判のQwen3.5-9B。
PC環境はRTX4070(12G)。
導入の流れはこんな感じです。
①LM Studioにモデルを入れる
②コンテキストウインドウを32,768に設定(結構広げられるね!)
③LM Studioでローカルサーバを起動
④VSCodeの拡張機能ROO CODE から呼び出す
これでローカルAIコーディング環境が完成します。
結果。嘘みたいにサクサク動く。
コード生成、実装改善、動作テスト。
全部ふつうに問題なし。しかもローカルなので、追加のAPI課金を気にしなくていい。
ローカルLLM、かなり進化していました。
ちょっと前の「動くけど重い」「賢いけど遅い」「何かを直したら別の何かが壊れる」みたいな、あの面倒~くさい感じがだいぶ減っている。もちろん万能ではないのですが、これまで手が出せなかった人が試してみる価値がある段階には完全に来ている と思います。
ローカルLLM触った事がない人も、ここはちょっと夢を持っていいです。
数年前は「ローカルAIを動かす」はかなりマニア寄りの遊びでしたが、今はだいぶ実用品の顔になってきてます!
気が付いたら三段階のAI環境
今回の流れを整理すると
AIエージェント
↓
クラウドLLM
↓
ローカルLLM
最初はMV制作ツールを作るつもりだったのに、
途中からだいぶAI環境探検ツアーみたいになっていました。
でも、こういう寄り道ってわりと楽しいです。
目的そのものより、途中で手に入った環境や知識のほうが、あとでじわじわ役に立つ。人にも教えられるし。
「これをやるにはこの道具」だけじゃなく、
「止まったら次はこれ」「無料枠が切れたらこっち」「UIがつらかったらこっち」みたいな逃げ道を持てるのは、いいことだ。たぶん。
最初から最適解を引かなくて大丈夫。
途中でずれても、ずれた先で別の道具が見つかれば、それはそれで前進です。なんならそれが最初の目的より気に入ったりする人もいる。
人類の進歩、だいたいそんな感じですし。
(思い出話)3年前のローカルLLM
ローカルLLMを触るのは久しぶりでした。
ローカルLLMが盛り上がり始めたころ、DeepSeekの蒸留モデルが出たときに「自分でもローカルAIを動かしてみたい」と思って導入したことがあります。
そのときはbolt.diyというオープンソースのAIコーディングエージェント環境を使って、DeepSeekと一緒に漫画の資料探しをしていました。
あるとき少し複雑な資料探索を頼んだら、
オランダ最古の大学・ライデン大学図書館にあるペルシア語写本コレクションにたどり着いて、翻訳作業ができたことがあります。
あのときは嬉しかった~~。
ローカルLLMの最初の成功体験だったと思います。
これを何に活かしたかって?たぶん何の痕跡も見つからないと思いますが「虫マユ」です。…創作の取材ってそんなもん。
副産物(動画)
いつの間にかローカルLLMを使ったAI環境探しの旅になったけど、
AIエージェントと一緒に依存関係エラーなどを解決して、
Remotion Skillの字幕機能を使った動画が再びできました(副産物)。
これは以前作ったMVのフル歌詞バージョンです。
動いてるほうはこっちで。
趣味の動画作り以外に活用できそうなあてはまだないですが、こういったドタバタで得られた知見を、今後もいろんなことに役立てられたらいいなーと思います。
「自分も試してみようかな」と思った人も、最初からきれいにやろうとしなくて大丈夫です。
トークンが切れてもいいし、黒い画面で呪文みたいなことを唱える羽目になってもいい。そのへんを経て、「あ、これなら自分でも続けられるな」という形が見つかれば勝ちです。
私は時間がないので効率化を求めて結局迷走しましたが!
ではまた!
いいなと思ったら応援しよう!
いただいたチップはクリエイターとしての活動費に大切に使わせていただきます!

コメント