Retrieval-based-Voice-Conversion(RVC)の使い方
急いで書いたので分からないことも多く色々間違っているかもしれないので注意して下さい。
https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main からRVC-beta.7zをダウンロード。 他のファイルは不要。
解凍したらgo-webを実行し表示されたURLからブラウザを起動。
訓練編
step1
训练タブを開く。
输入实验名 話者名を入力。
目标采样率 使用したいサンプリング周波数を選ぶ。
step2a
输入训练文件夹路径 学習したいデータが入っている場所のパスを入力する。例:C:\Users\voice\
请指定说话人id IDを指定する。基本0でいい。
大きいボタンを押すとさっき指定したサンプリング周波数に音声が変換される。
step2b
以-分隔输入使用的卡号 基本0のままでいい。
显卡信息 学習に使用するデバイスが表示される。
提取音高使用的CPU进程数 CPUの処理プロセス数を入力する。自分のCPUのスレッド数に合わせた数字を使用する。
ここでピッチ抽出アルゴリズムを選択。pm・harvest・dioの中から選択。
pmは高品質で高速だがCPUが貧弱?(翻訳してもよく分からない)
harvestは高品質だが遅い。
dioは早いが少し制度は劣る。
大きいボタンを押すとデータのピッチが抽出される。
step3
save_every_epoch モデルをセーブするepochの間隔。
total_epoch 何epochで学習を完了させるか。
batch_size 大きい方がよいが上げすぎるとGPUのVRAMを使いすぎてクラッシュするので注意。クラッシュした場合は数値を下げる。
是否仅保存最新的ckpt文件以节省硬盘空间
ハードディスクの容量を節約するために、最新のファイルのみを保存するかどうか。
是否缓存所有训练集至显存。10min以下小数据可缓存以加速训练,大数据缓存会炸显存也加不了多少速
トレーニングセットをビデオメモリにキャッシュするかどうか。10分以下の小さなデータはキャッシュしてトレーニングを高速化できるが、大きなデータはキャッシュするとビデオメモリが圧迫され、あまり高速化できない。
加载预训练底模G路径・加载预训练底模D路径には選択したサンプリング周波数と同じ事前学習モデルのパスを入力する。例:40kならpretrained/f0G40k.pth
左のボタンを押すと学習開始。total_epochで入力したepoch数に到達するまで学習は続く。学習が完了するとweightsフォルダにpthが保存される。
真ん中のボタンを押すとインデックスを学習する。(よく分からない)
右のボタンを押すとstep2a・step2b・step3の処理が一気に行われる。ここまで処理をやってきた人は押さなくていい。
変換編
模型推理のタブを開く。
刷新音色列表のボタンを押して話者リストを更新する。
推理音色から話者を選ぶ。
变调で変更するキーを選ぶ。
输入待处理音频文件路径(默认是正确格式示例に変換したい音声のパスを入力する。
pmかhervestかを選ぶ。pmは高速。harvestは速度は劣るが高品質。
他の項目は無視して右の大きい转换ボタンを押す。
音声が変換される。
2023/4/5