今回は、so-vits-svc-forkを使って、推しの子の黒川あかねに「アイドル」や「POP IN 2」を歌わせてみる記事です。著作権などに注意し、個人の範囲で行っています。
- so-vits-svc-forkとは
- インストール方法
- Pythonをインストールする
- pipxをインストールする
- so-vits-svc-forkのインストール
- so-vits-svc-forkの起動
- 事前学習モデルのダウンロード
- アイドルやPOP IN 2を変換してみた結果
so-vits-svc-forkとは
so-vits-svc-forkは、音声を別の声に変換するためのオープンソースソフトウェアです。
音声の訓練、変換が可能です。
今回見たサイト:
必要なもの
- Python 3.11(必須)
- so-vits-svc-forkのインストール
- 黒川あかねの音声データ
- 今回は訓練済みモデルを使用
- 「アイドル」のボーカル音源
- 公式やYouTubeで配信されているものなど
インストール方法
基本的には、Installationの通りにインストールしていきます。
Option 1ではエラーが出たため、今回はOption 2でインストールしていきます。
Pythonをインストールする
まずページにアクセスして、Pythonをダウンロードします。
(3.11.xなら何でもいいと思います)
今回は、以下の3.11.3のWindows installer (64-bit)をダウンロードします。
開いたらAdd python.exe to PATHにチェックして、続行してください。
pipxをインストールする
次は、pipxをインストールします。
Windowsマークを右クリックして、ターミナル(管理者)を開いてください。
次に以下のコードを入力して実行します。
- py -3 -m pip install --user git+https://github.com/pypa/pipx.git
- py -3 -m pipx ensurepath
実行すると、Otherwise pipx is ready to go! ✨ 🌟 ✨と出るはずです。
so-vits-svc-forkのインストール
同じようにターミナルで実行します。
- pipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args="--upgrade" --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
2行目は、訓練する以外は必須ではありません。
Cuda12.1を入れているときのみ機能し、Cuda11.8のときはcu118となります。
次にso-vits-svc-forkをインストールします。
- pip install -U so-vits-svc-fork
pipx upgrade so-vits-svc-fork
so-vits-svc-forkの起動
起動は以下のコマンドを実行してください。
- svcg
ダウンロードし、Zipを展開してください。
ここで、先ほどのsvcgを起動し、
Model pathにはPTHファイルを、Config pathにはJSONファイルを指定してください。
また、右側のFileには音声ファイルを指定します。
私はYouTubeにあるアカペラの動画をダウンロードしてFileに設定します。
アイドルやPOP IN 2を変換してみた結果
YouTubeにあった女性、アカペラで試してみましたが、似てるといえば似てるような音声となりました。
1.「アイドル」
2.「アイドル」
次は、男性のボイスを使用しており,音源を入れています。入りのところだけすごい似てます。
3.「POP IN 2」
口調の影響でギャップが大きいです。
4.セリフ
次は音読さんというサイトで、ずんだもんの声を変換した音声です。
普通の音声(口調)ならかなり似てます。
まとめ
今回はSVCを使って、音声変換を行いました。
元の音声にかなり影響されるみたいなので、本物に似せるためには音源やSVCの設定など試行錯誤する必要がありそうです。
訓練データは、普通の口調で訓練されてるようなので、音読には向いているかと思います。
(余談)
ブログを始めて1年くらいたちましたが、10000PVを達成しました、ありがとうございます。といっても10本くらいしかアップしていませんがw。気長にやっていきます。。。