RVCモデルマージ

パラメータ名	モデル内部の役割	音声的な影響・特徴	ブレンド比率の調整で起こること
enc_q （Encoder Quantizer）	音声を離散的特徴（音素や発音構造）に変換する層	発音・口の形・言語的癖・声の芯の輪郭	高くするとAモデルの発音傾向・舌の動き・言語感を継承低くするとBモデルの発音やリズムに寄る
flow （Flow Module）	音素系列を自然な波形生成に整える層（時間的変形）	話し方・イントネーション・滑らかさ・抑揚	高くするとAの「しゃべり方」やテンポが強くなる低くするとBの滑舌・抑揚に近くなる
dec （Decoder / Vocoder前段）	音声波形を生成する層	音質・マイク感・音の密度	高くするとAの録音質・明るさ・空気感低くするとBの質感・ノイズ特性に寄る
emb_g （Speaker Embedding）	話者IDを表す潜在ベクトル	声の“誰っぽさ”・声帯特性	高くするとAの声質（声色）が強まる低くするとBの声に似てくる
dec_postnet （Post Decoder）	Vocoder出力の高域補正・ノイズ除去	音圧・高域の抜け・仕上げの滑らかさ	高くするとAの音圧感・明瞭さ低くするとBの落ち着いたトーンになる

enc_q + flow = 発音の構築（話し方や言語感）

dec + dec_postnet = 音質の仕上げ（録音環境や明るさ）

emb_g = 話者アイデンティティ

実用例

目的	設定例	解説
Aモデルの発音を活かして、Bの声質にしたい	enc_q=0.8 , flow=0.7 , dec=0.3 , emb_g=0.3 , dec_postnet=0.4	発音部分（enc_q, flow）をA寄り → 話し方・イントネーションはAのまま。声質（emb_g, dec）はB寄りで“声だけ入れ替え”。
Bモデルの音質（録音環境・ハイエンド）を取り入れたい	enc_q=0.6 , flow=0.6 , dec=0.8 , emb_g=0.7 , dec_postnet=0.9	発音はAをベースに、Bの音質と明瞭さを融合。スタジオ感・抜けの良さを強調。
Aの声質で、Bの発音（リズム）にしたい	enc_q=0.3 , flow=0.3 , dec=0.8 , emb_g=0.9 , dec_postnet=0.8	flowとenc_qをB寄りに → 発音リズム・しゃべり方がBのものに。声色はAを維持。
自然で中間的なブレンド（ハーフ）	enc_q=0.5 , flow=0.5 , dec=0.5 , emb_g=0.5 , dec_postnet=0.5	AとBの中間。特定方向に寄らない汎用ブレンド。テスト用途にも◎。
発音はA、音質もA、でも高域の明るさだけBから	enc_q=0.9 , flow=0.9 , dec=0.7 , emb_g=0.9 , dec_postnet=0.3	dec_postnetをB寄りにすると高域のヌケだけ変化。微妙な「明るさ」「透明感」を調整できる。