人間そっくりの音声を合成可能なGoogleの音声合成システム「Tacotron 2」 3
ストーリー by hylom
日本語 部門より
日本語 部門より
あるAnonymous Coward 曰く、
Googleは今月末に音声合成システム「Tacotron 2」を発表した。人工知能にテキストを読ませてリアルな音声を作り出すためのシステムで、TechCrunchによれば、気味が悪いほど本物そっくりの音声を合成できるという(QUARTZ、TechCrunch、Slashdot)。
Tacotron 2はこれまでの音声生成プロジェクトWaveNetと初代Tacotronの良いとこ取りをしており、2つのニューラルネットワークで構成されている。テキストをTacotronでスペクトログラムに変換し、それをWaveNetに入力して最終的な音声に出力する構成であるようだ。
Googleが生成したサンプルと比較用の人間による音声サンプルがネット上にアップされている。英語だが聞いた範疇ではかなり自然な発音だ。TechCrunchによるとユーザーには文法知識がなくても使えるようだ。ただサンプルを聞くと句読点の位置は重要であるらしい
参照されてるWaveNetが凄いんだが (スコア:1)
寡聞にして知らなかったのだが、以前の技術として参照されているWaveNetが驚きだ。
https://techcrunch.com/2016/09/09/googles-wavenet-uses-neural-nets-to-... [techcrunch.com]
https://deepmind.com/blog/wavenet-generative-model-raw-audio/ [deepmind.com]
特に後半の、目標テキストなしで生成させた音声が、息継ぎや舌打ちの音の感じが生々しい。
この音声は意味のない発音らしく、英語ネイティブ話者にとって「馬鹿げた」感じに聞こえるらしいが、
非ネイティブな俺には完全に、どこかの外国人がリラックスして私的な会話をしてるのを録ったのか、マイク下手だなぁ舌打ち音入ってるじゃんよ、と思ってしまった。
極めつけは最後のピアノだ。
え?これAIに作曲させた楽譜を自動ピアノか何かで演奏させたんじゃなくて、音声データそのものを生成してるの!?
打鍵の感じから残響まで再現できてるじゃん!!?
もちろん、多数の生成結果から不自然さの少ないものが掲載されているということは考えられるが、それにしても凄い。
惜しい (スコア:0)
>Googleは今月末に音声合成システム「Tacotron 2」を発表した。
投稿が1分遅かった。
(あけましておめでとうございます。)
日本も負けてない (スコア:0)
http://www.ah-soft.com/voiceroid/akari/ [ah-soft.com]
Voiceroid2 紲星あかり発売中
みんな買ってね