パラメータ名 | モデル内部の役割 | 音声的な影響・特徴 | ブレンド比率の調整で起こること |
---|---|---|---|
enc_q
(Encoder Quantizer) | 音声を離散的特徴(音素や発音構造)に変換する層 | 発音・口の形・言語的癖・声の芯の輪郭 | 高くするとAモデルの発音傾向・舌の動き・言語感を継承
低くするとBモデルの発音やリズムに寄る |
flow
(Flow Module) | 音素系列を自然な波形生成に整える層(時間的変形) | 話し方・イントネーション・滑らかさ・抑揚 | 高くするとAの「しゃべり方」やテンポが強くなる
低くするとBの滑舌・抑揚に近くなる |
dec
(Decoder / Vocoder前段) | 音声波形を生成する層 | 音質・マイク感・音の密度 | 高くするとAの録音質・明るさ・空気感
低くするとBの質感・ノイズ特性に寄る |
emb_g
(Speaker Embedding) | 話者IDを表す潜在ベクトル | 声の“誰っぽさ”・声帯特性 | 高くするとAの声質(声色)が強まる低くするとBの声に似てくる |
dec_postnet
(Post Decoder) | Vocoder出力の高域補正・ノイズ除去 | 音圧・高域の抜け・仕上げの滑らかさ | 高くするとAの音圧感・明瞭さ
低くするとBの落ち着いたトーンになる |
enc_q + flow = 発音の構築(話し方や言語感)
dec + dec_postnet = 音質の仕上げ(録音環境や明るさ)
emb_g = 話者アイデンティティ
実用例
目的 | 設定例 | 解説 |
---|---|---|
enc_q=0.8 , flow=0.7 , dec=0.3 , emb_g=0.3 , dec_postnet=0.4 | 発音部分(enc_q, flow)をA寄り → 話し方・イントネーションはAのまま。声質(emb_g, dec)はB寄りで“声だけ入れ替え”。 | |
enc_q=0.6 , flow=0.6 , dec=0.8 , emb_g=0.7 , dec_postnet=0.9 | 発音はAをベースに、Bの音質と明瞭さを融合。スタジオ感・抜けの良さを強調。 | |
enc_q=0.3 , flow=0.3 , dec=0.8 , emb_g=0.9 , dec_postnet=0.8 | flowとenc_qをB寄りに → 発音リズム・しゃべり方がBのものに。声色はAを維持。 | |
enc_q=0.5 , flow=0.5 , dec=0.5 , emb_g=0.5 , dec_postnet=0.5 | AとBの中間。特定方向に寄らない汎用ブレンド。テスト用途にも◎。 | |
enc_q=0.9 , flow=0.9 , dec=0.7 , emb_g=0.9 , dec_postnet=0.3 | dec_postnetをB寄りにすると高域のヌケだけ変化。微妙な「明るさ」「透明感」を調整できる。 |