見出し画像

【音源分離AIの最高峰】UVR5でボーカル抽出する最良の設定解説

割引あり

UVR5とは

Ultimate Vocal Removerの略で音源分離やボーカル抽出、ハモリ除去などを行うことができる無料のAIツールになっています✨
GPUが無くても使用できますが、NVIDIA製GPUがあると高速に精度の高い処理を行うことができます!
音声処理ツールの最高峰と呼ばれる、約20万円くらいする音声処理ソフトRX11 Advancedも使用しているのですが、こちらよりも分離性能だけで言えばUVR5が勝っています🔥

UVR5の使い方(version5.6)

はじめに

画像

Select input : 分離したい音源をドラッグ&ドロップ、もしくは右のフォルダマークから直接選択します。
Select Output : 分離したデータを入れるフォルダを選択します。

WAV, FLAC, MP3から出力する音源のフォーマットを選択します


処理選択

画像

CHOOSE PROCESS METHODからどの方式で処理するかを選択します。
ここでは主にVR ArchitectureとMDX-Netについて解説したいと思います。

VR Architecture:動作が軽くスペック控え目のPCでも処理が速いです。十分精度は高めです。

UVR5の基本的な音源分離アルゴリズム
一般的な用途に適しており、比較的高速に処理可能

MDX-Net:動作は重めですが、より自然に分離することができます。

より高度な深層学習モデルを使用
VR Architectureよりも高品質な分離が可能だが、処理時間が長い
特にボーカル分離に優れている

Demucs:ボーカル分離もできますが、楽器別に分離できるのが主な機能です。

Facebookが開発した音源分離モデル
複数の楽器パートを同時に分離できる
高品質な結果を得られるが、計算コストが高い


Ensemble Mode:この機能は慣れてきたら使用すると良いですが、使用しなくても問題ないです。

複数のモデルや手法を組み合わせて使用
より高品質な結果が得られる可能性があるが、処理時間が大幅に増加
個々のモデルの長所を活かしつつ、短所を補完することができる


Audio Tools:これは見て分からない人は使わなくて大丈夫です。

ピッチ変更、タイムストレッチ、ビット形式変更などが行える


パラメータ、モデル設定

処理方式によってパラメータの設定が異なります。

VR Architecture

画像

Window Size小さいほど精度が高いです。320で良いでしょう。
Aggression Setting
・範囲は-100から100です。
・値が大きいほど、抽出が深くなります。
・通常、ボーカルと楽器については5に設定されています。
・非ボーカルモデルの場合、5を超える値は音を濁らせる可能性があります。
Choose VR Model:プルダウンよりDownload More Modelsを選択し、使用したいモデルをDLしてください。同じ名前のものはバージョンが新しいものを使用すれば大丈夫です。

・HP-UVR:曲からボーカルを除去することに特化したモデルです。
・HP-Vocal-UVR:曲からボーカルを分離することに特化したモデルです。ハモリは残ります。
・HP-Karaoke-UVR:曲からメインボーカールのみを分離することに特化したモデルです。ノイズやハモリをキレイに消せますが、音が籠ることがあります。
・UVR-DeEcho-DeReverb:曲からリバーブ成分(響いた感じ)を分離することに特化したモデルです。

GPU Conversion:GPU処理を行うかどうかの設定です。NVIDIA製GPUがある方は処理が速くなるので✅しておきましょう。
NVIDIA製GPUがない方は使用できません。


MDX-Net

画像

Segment Size大きいほど精度が高くなりやすく処理が遅いです。GPUスペックに合わせて調整して下さい。
・小さいサイズはリソースの消費が少なくなります。
・大きいサイズはより多くのリソースを消費しますが、より良い結果が得られる可能性があります。
・デフォルトサイズは256です。選択したサイズに基づいて品質が変わる可能性があります。

OVERLAP: RTX4090で0.99設定で、2分の曲に対して処理時間約5分ほどでした。
・このオプションは予測ウィンドウ間のオーバーラップ量を制御します。
・より高い値でより良い結果が得られる可能性がありますが、処理時間が長くなります。
・Non-MDX23Cモデルの場合:0.001から0.999の間で選択できます。

Choose VR Model:MDX-Netに関してはモデルがかなりたくさんありますが、基本的には以下の2つのどちらかの使用でよいかと思います。

・UVR-MDX-NET inst HQ:曲からボーカルを分離することに特化したモデルです。ハモリは残ります。
・UVR-MDX-NET Karaoke:あまり精度が良くないので、ハモリを抜くならVR ArchitectureのKaraokeモデルを使用しましょう。
・MDX23C-instVoc HQ:さらに高品質なモデル。めちゃくちゃ処理が重いですが、ほぼ音楽が残らずキレイに分離できます。

GPU Conversion:GPU処理を行うかどうかの設定です。NVIDIA製GPUがある方は処理が速くなるので✅しておきましょう。
NVIDIA製GPUがない方は使用できません。

Windowsize320、Aggression Setting50でのGPU負荷はこのような形でした。VRAM8GB以上あれば問題ないかと思います。

おすすめモデルと設定

ハモリがあまりない楽曲

GPUあり
Method:MDX-Net
Segment Size:1024
Overlap:10
Model:MDX23C-InstVoc HQ

GPUなし
Method:VR Architecture
Window Size:320
Agression Setting:10
Mode::HP-Vocal-UVR

ハモリがそこそこある曲

Method:VR Architecture
Window Size:320
Agression Setting:10
Mode::HP-Karaoke-UVR


モデルや設定毎の精度比較

UVR-NET Inst HQ 4 Segment Size:4000 Overlap:0.99
無音部分の波がやや大きく、音楽が残ってしまっています。

画像

MDX23C-InstVoc HQ Segment Size:1024 Overlap:10
無音部分は概ね整っていますが、やや膨らんでいるところがまばらにあります。

画像

MDX23C-InstVoc HQ Segment Size:4000 Overlap:10
無音部分の波がキレイに整っていますが、やや膨らみがあります。

画像

MDX23C-InstVoc HQ Segment Size:4000 Overlap:50
全体的にバランスよくボーカルが抜け、無音部分の波が更にキレイに整っています。

画像

VR Architecture HP-Vocal-UVR Window Size:320 Aggression Setting:10
無音がきれいに抜けるのですが、高音の楽器が残ってしまうことが多いです。

画像

VR Architecture HP-Karaoke-UVR Window Size:320 Aggression Setting:10
無音がきれいに抜け、ハモリやリバーブも抜けるのですが、やや抜きすぎてしまうことがあります。

画像

処理速度、GPU負荷比較

検証スペック

CPU:Core i7 11700F 8コア 2.5GHz
GPU:RTX4090 VRAM24GB
使用した曲の長さ:1分34秒

Method:VR Architecture

Window Size:320 Agression Setting:50 Mode::HP-Karaoke-UVR
処理時間:14秒(GPUあり)

画像
画像

ここから先は

752字 / 14画像

この記事が気に入ったらサポートをしてみませんか?

ピックアップされています

sound&AV制作

  • 77本

コメント

コメントを投稿するには、 ログイン または 会員登録 をする必要があります。
AI含む様々なツールを駆使しながら立体音響、DTM、音声処理、イラスト、動画編集、3DCG関連etc 様々なコンテンツを手掛けています✨ ↓お仕事依頼はこちら midorincrypto20@gmail.com
【音源分離AIの最高峰】UVR5でボーカル抽出する最良の設定解説|みどりん(midorin)@立体音響、AI、配信、動画編集
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1