見出し画像

ACE-Step 1.5 試してみた

さて、また新しい音楽生成AIが話題になっています。
「ACE-Step v1.5」というオープンソース音楽生成モデルです。

ローカル環境で実行する音楽生成AIですが、売りとしては、リリース先いわく、

  • 速度がとても速い。(秒のレベルで1曲できる)

  • 必要なGPU容量が少ない(最低4GBでOK)

  • クオリティはSuno並(Suno v4.5以上v5以下)

ということで、これはもしかするとポストSunoになるんじゃない?というくらいの魅力的な内容が並んでいます。

これは試してみるしかないな、ということで、やってみました。

導入方法

ComfyUIともろもろのPythonが導入済みだとあっけないくらい簡単です。

  • ComfyUIを最新版にアップデートする。

  • テンプレートのオーディオから「ACE Step 1.5 AIO」を選択。

  • チェックポイントが足りないよと警告が出るので、ダウンロード。

  • ダウンロードしたファイルを、チェックポイントフォルダに格納。

これで動きました。

曲を作ってみる

さて、ではさっそくJ-popを作ってみましょうか。
さすがにSunoみたいな長い散文のプロンプトは効かないんじゃないかと思ったので、古めの曲ということで「影の街角」のスタイルと歌詞で。

「影の街角」のオリジナル版はこちらです。

スタイルプロンプトはこちら。シンプルですね。
A sparkling fusion of kayōkyoku and electro pop, this J-pop track in a minor key opens with bright synth arpeggios and tight drum machines, Verses layer retro electronic textures, bass pulses, and soft pads, while the chorus bursts with glossy hooks, vocoder accents, and digital blips

歌詞については上記Youtubeなどを参照してください。
今回は、日本語を読む力も試すという意味で、変換せず日本語のまま放り込んでみました。

ComfyUIのワークフローはこんな感じです。まあ、最初から用意されてるテンプレートで、日本語が歌えるように少しいじっただけです。

画像

で、できた曲がこちらです。2曲ほどアップロードしておきます。
私はGeForce RTX 3060 12GBを、ケースの熱対策のためにクロックを2割ほど落として使っているのですが、4分ほどの曲の生成にかかった時間は最初(チェックポイントの読み込みが必要)は2~3分、それ以降は1分15秒程度でした。

さて、どうでしょう?
言われている宣伝文句ほどの(現行Sunoに匹敵するような)出来だとはとても言えませんが、まあ、「チープなその辺のパソコンの音楽生成AIで無料で生成した曲」だということをふまえると、非常に頑張ってるんじゃないか、と思います。

英語曲も作ってみる

だいたい、生成AIの世界では日本語はニッチなので、生成AIモデルを日本語で評価すると見誤る、ということもよく言われますので、英語曲も作ってみました。

今回の素材は、私の数少ない英語曲のひとつ「Head Over Heels」です。

こちらの歌詞とプロンプトをACE Stepにそのまま入れて生成してみます。

英語の発音は日本語よりいいかもしれませんが、曲自体のクオリティは特に変わらないですね。
これであれば、J-popベースでこのモデルを評価しても、大きくは外れていないと思いました。

とりあえずの評価

いま、できた曲をそのまま率直に評価するなら、これはSuno4.5とか5のレベルじゃなくて、Suno3.5より下、3.0よりはマシかなというくらいのレベルだな、と思います。

まず、日本語がカタコトなのは明らかです。まだまだ「自然な歌声」には程遠いですね。漢字は思ったより読めていましたが、それでも結構読み間違えはあります。
音についてはシンプルかつ音割れがしまくっていて、こちらも実用レベルにはまだかなりの距離があると感じました。

でも!です。
ローカル生成でこれだけのものが、実用的なスピードと現実的なGPU容量で生成できるのって、すごいことだと思います。

これは期待できますよ。
あと半年、1年たった後の進化を楽しみに見守っていきたいと思います。

追記:プロンプトが大事なのかも

この記事をアップして、ふと思ったのが、「もしかするとACE Stepは短いプロンプトだと「それだけ」しか音楽に盛り込まないのかも、だとしたらむしろ長い(最近の)プロンプトのほうがいいのかも」と思い、最近の曲の散文形式のプロンプトで生成してみることにしました。

使ったのは、つい1週間ほど前に作った「ホワイト・ライズ」という哀愁地ランスポップです。

こちらのスタイルプロンプトも、実はそこまで長くはないのですが、少なくとも先ほどの「影の街角」よりはずっと長く複雑です。
An emotional melodic techno odyssey centered around a haunting piano motif that circles with bittersweet gravity, The track balances a driving electronica pulse with a melancholic, sophisticated atmosphere, A resonant female vocal, clear and powerful, delivers straight-toned lines with high-voltage conviction in the chorus, Production gleams with analog warmth and layered crystalline pads bathed in a rich reverb halo, A steady 126 BPM heartbeat kick and syncopated percussion drive the movement, A spectral cello adds a deep, textural twist, Everything interlocks in a loop begging for replay.

で、できた曲がこちらです。

ああ、これはなかなかいいですね。
細かいところはいろいろありますが、全体的な「曲の雰囲気」としては、先ほどよりもずっと「ちゃんとJ-pop」してます。

なので、プロンプトをちゃんとACE Stepに最適化していけば、まだまだクオリティを上げる余地はありそうだな、と感じました。

いいなと思ったら応援しよう!

ピックアップされています

Sunoでカジュアルに音楽制作

  • 105本

コメント

2
コメントするには、 ログイン または 会員登録 をお願いします。
黒いチューリップのプロフィールへのリンク

ローカル環境でこのスピードと手軽さで音楽生成できるのは、確かに驚きですね。音質や歌唱の自然さはまだまだこれからという印象ですが、粗削りながらもデモテープを聴いているようなマニアックな喜びも感じました(笑)。RTX3060で1分程度で曲が完成するというのは、技術的な可能性を感じます。Suno v…

1
cityedge いいね
cityedgeのプロフィールへのリンク
cityedge

個人的には、ようやく画像生成のときのStable Diffusion 1.5に近いものができてきたな、という印象をもちました。SD1.5のときも、指の本数とかはメチャクチャでしたが、ときどきハッとするくらいいい画像ができて、当時かなりのめり込んだものでした。 これから、個人がローカルで音楽を生成して、好…

Suno.AIで音楽制作をやってます。https://www.youtube.com/@cityedge10007 Spotifyで音楽配信中 https://x.gd/Yrx8n Xでは @sora_papa 。sora y.d. という名前でKindle本出してます。
ACE-Step 1.5 試してみた|cityedge
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1