Post

Conversation

話題の litagin さんの moe-speech 音声データセット、追加で知っておくとよいコンテキストとして 1. Bert-VITS2 などの最近の日本語 TTS (VITS 系統) では「感情豊かな」音声を学習させることで抑揚のついた感情豊かな声を生成できる事が判明している 2. 今まで公開されてきた日本語音声コーパスは古い世代の TTS アルゴリズム向けに抑揚や感情を意図的に抑えた棒読み状態で収録されており、そうしたコーパスを学習させても抑揚/感情豊かにはならない事も分かってきた 3. 今まで高品質な音声合成モデルを作るには抑揚や感情を排除してできるだけ均一のトーンで話すことが望ましいとされていたため、現状一般人が無料で入手できる抑揚/感情豊かな日本語音声コーパスは極めて少ない 4. 最近の日本語 TTS の中でも性能の高い Bert-VITS2 は中国の野良研究者チームによる開発で、その性能の高さは大量の日本語/英語/中国語の音声データを学習させたクソデカ事前学習モデルに支えられている 5. Bert-VITS2 では既に様々な音素の概念を習得した事前学習モデルを元にファインチューニングを行うことで、僅か数分程度の音声データを元に極めて再現度の高い音声合成が行える 6. Bert-VITS2 を始め中国の天才野良研究者ニキらは (学習元自体は基本伏せられているため推測だが、中国 TTS 界隈の傾向からしてほぼ確実に) モラルガン無視でソシャゲ等から入手した超大量の音声データを相当な金を掛けて A100 あたりで学習ぶん回して (倫理的な是非はともかく) 世界最先端の TTS 性能を実現させている事実がある 7. 日本国内で律儀に「クリーンさ」に拘っていても中国含めガンガン開発を進めている海外勢に追い越される (現にもう追い越されている) だけだし、日本語はマイノリティのため自国での技術発展を怠れば将来的に日本語だけ各サービスで日本語がハブられたり品質が滅法悪くなるとかも考えられる 8. 実際 Bert-VITS2 は日本語非ネイティブが開発した関係で長らく日本語の g2p 処理に致命的なバグがあり既に修正されているものの、前述の事前学習モデルは誤った音素の対応関係で学習されてしまったまま修正版が出ていない 9. 現状ファインチューニングし直すだけでもだいぶ不自然さが減ってはいるが、ベストな状態にするには Bert-VITS2 の日本語音素の対応関係を変える必要がある 10. ただこの変更で高性能な事前学習モデルの性能を引き出せなくなるため、現在 Bert-VITS2 に対し事前学習モデルが使えなくなるような変更ができない状態にあり、事前学習モデルが流用可能な範囲で性能改善を試みているのが litagin さん開発の Style-Bert-VITS2 である 11. 現状我々は中国野良研究者ニキのおこぼれと慈悲にあずかってるだけで (現に Bert-VITS2 の開発者氏は最近中国語の性能強化に注力されていて当分更新は来なさそう) 、自国内で事前学習モデルを作れないなら中国野良研究者ニキのおこぼれが来るのを待つしかない 12. 従って自国内で日本語音声合成の性能を改善していく (中国野良研究者ニキのおこぼれ事前学習モデルに依存する状態から自立する) ためには高品質で感情豊かな大量の日本語音声データセットの整備が急務であり、moe-speech は主にこの TTS の事前学習モデル向けに継続的に整備改善が行われているプロジェクトである …などがあります TTS 分野に限らないけど、少なくとも『現在進行形で中国を始め海外では (日本人の感覚で言えば) モラルガン無視して性能最優先に猛烈なスピードで技術革新/開発競争が続いており、日本国内でお気持ちで萎縮させて開発を止めた所で自国を害するだけで、海外での技術進化を封じることは不可能』という動かし難い事実は最低限知られていてほしい 現に『日本語』音声合成分野なのに、既存のどの国産 TTS よりも中国の野良研究者ニキが中国語のついでで日本語対応させた Bert-VITS2 の方が高性能なわけで… huggingface.co/datasets/litag
Image