RVCモデルマージ
Get Notion free

RVCモデルマージ

パラメータ名
モデル内部の役割
音声的な影響・特徴
ブレンド比率の調整で起こること
enc_q (Encoder Quantizer)
音声を離散的特徴(音素や発音構造)に変換する層
発音・口の形・言語的癖・声の芯の輪郭
高くするとAモデルの発音傾向・舌の動き・言語感を継承 低くするとBモデルの発音やリズムに寄る
flow (Flow Module)
音素系列を自然な波形生成に整える層(時間的変形)
話し方・イントネーション・滑らかさ・抑揚
高くするとAの「しゃべり方」やテンポが強くなる 低くするとBの滑舌・抑揚に近くなる
dec (Decoder / Vocoder前段)
音声波形を生成する層
音質・マイク感・音の密度
高くするとAの録音質・明るさ・空気感 低くするとBの質感・ノイズ特性に寄る
emb_g (Speaker Embedding)
話者IDを表す潜在ベクトル
声の“誰っぽさ”・声帯特性
高くするとAの声質(声色)が強まる低くするとBの声に似てくる
dec_postnet (Post Decoder)
Vocoder出力の高域補正・ノイズ除去
音圧・高域の抜け・仕上げの滑らかさ
高くするとAの音圧感・明瞭さ 低くするとBの落ち着いたトーンになる
enc_q + flow = 発音の構築(話し方や言語感)
dec + dec_postnet = 音質の仕上げ(録音環境や明るさ)
emb_g = 話者アイデンティティ

実用例

目的
設定例
解説
🎙️ Aモデルの発音を活かして、Bの声質にしたい
enc_q=0.8
,
flow=0.7
,
dec=0.3
,
emb_g=0.3
,
dec_postnet=0.4
発音部分(enc_q, flow)をA寄り → 話し方・イントネーションはAのまま。声質(emb_g, dec)はB寄りで“声だけ入れ替え”。
🎵 Bモデルの音質(録音環境・ハイエンド)を取り入れたい
enc_q=0.6
,
flow=0.6
,
dec=0.8
,
emb_g=0.7
,
dec_postnet=0.9
発音はAをベースに、Bの音質と明瞭さを融合。スタジオ感・抜けの良さを強調。
🗣️ Aの声質で、Bの発音(リズム)にしたい
enc_q=0.3
,
flow=0.3
,
dec=0.8
,
emb_g=0.9
,
dec_postnet=0.8
flowとenc_qをB寄りに → 発音リズム・しゃべり方がBのものに。声色はAを維持。
🪄 自然で中間的なブレンド(ハーフ)
enc_q=0.5
,
flow=0.5
,
dec=0.5
,
emb_g=0.5
,
dec_postnet=0.5
AとBの中間。特定方向に寄らない汎用ブレンド。テスト用途にも◎。
🎧 発音はA、音質もA、でも高域の明るさだけBから
enc_q=0.9
,
flow=0.9
,
dec=0.7
,
emb_g=0.9
,
dec_postnet=0.3
dec_postnetをB寄りにすると高域のヌケだけ変化。微妙な「明るさ」「透明感」を調整できる。