(cache) 思いが伝わる声を作れ～初音ミク歌声の秘密～

このページの位置情報

HOME
これまでの放送
2012年 2月28日(火)　放送
放送内容まるごとチェック

初音ミク　歌声の秘密

初音ミクの人気はとどまるところを知りません。
毎月のように開かれるイベント会場では音楽ＣＤが飛ぶように売れています。
中には国内のヒットチャートで１位を獲得したものもあります。
ことし１月、この楽曲は世界２１７の国と地域で配信されました。

こちらが歌声を合成するパソコンソフトの画面です。
一文字ずつ歌詞と音の高さを入力するとソフトに組み込まれている声優の声を素材にして歌声が合成されます。

♪「この頃はやりの女の子」

大ブームとなっているのは、誰でも思いどおりに自然な歌声を作ることができるからなのです。
この自然な歌声にはどのような技術が使われているのか。

合成技術を開発した楽器メーカーの技術者、剣持秀紀さんです。
ギターなど楽器の音の合成と違い、歌は歌詞があるため難しいといいます。

「やはり歌詞があるということは意味が分からなければならないということですね
美しさと歌詞が分かるというところを両立させるということですね」

自然な歌声を合成する技術の裏側には人間が、どうやってことばを認識するのかを探る最新科学があります。

例えば、このことばを合成する場合。
もし単純に一文字ずつつないでみると。
音が、ぶつ切りでよく聞き取れません。

ところが剣持さんの合成技術を使うと。
とても、なめらかです。
一体、何が違うのでしょうか。
例えば、ク・ロの２音の部分。
剣持さんは、なんと６つの音をつないでいました。

特に重要なのが、ｋからｕやｕからｒなど音が変化する部分です。
じつは人間は、音が変化する部分に神経を集中させ音を聞き分けているというのです。
そこで剣持さんは音の変化する部分に注目してことばを切り分け、５００の音に分解。
これを、つなぎ合わせることで自然に聞こえる音声合成ソフトを完成させたのです。

●進化を続ける歌声合成ソフト

今、さらに人間らしい歌声を作り出す新しい合成ソフトの開発も進められています。

中野倫靖さんです。
人間そっくりの歌声を合成するため人の発声を自動的に模倣するプログラムを開発しています。
まずは、従来の合成ソフトで演歌を歌わせてみます。

うーんちょっと味気ないですよね。
では、本物の演歌歌手の歌声を聴いてみましょう。

♪「呑めと言われて陽気に呑んだ」

やはり、違いますね。
演歌歌手の声には深い味わいがあります。
歌声の音の高さを比べると大きな違いがありました。

歌の最後のいわゆるこぶしの部分を見てみます。
従来の合成ソフトが楽譜どおりに歌うのに対し演歌歌手は音を上げるところで本来の音より高く上げてから戻しています。
そして一定の高さの場所でも細かく音の高さを上下させています。
楽譜どおりではない微妙な音の上げ下げが人間らしいの歌声の秘密だったのです。
そこで中野さんは人間の歌声を自動的に模倣する合成ソフトを開発しました。

その成果をご堪能ください。

♪「呑めと言われて陽気に呑んだ」

人間らしい味わいが見事に再現されました。
今後、中野さんはさらに人間らしい歌声を追求していこうとしています。

「たとえばシャウトやささやき声といった歌い方
そういった多様な歌い方を実現するように今後研究に取り組んでいければと考えています」

動画を見る

日本が最先端！　歌声合成技術

ゲスト後藤真孝さん（産業技術総合研究所）

●人間らしい歌声のポイントは

ポイントはやはり人間の歌をまねている、模倣しているところにあるわけですね。
声の高さと大きさを、いかに自然に、まねるかというところがポイントでした。
実際に合成した音と人間の歌を自動的に比較してそれが近づくように合成してるわけです。
コンピューターのソフトがその違いに気付いてああいう自然な歌声を出しているわけです。
その（音が）変化する部分を、いかに自然に作り出すかというところがポイントでした。
従来の楽器音の合成技術というのは非常に発達しているんですが、楽器音はそこまで音が変化しないんですね。
人間の歌声はやはり楽器音よりもはるかに豊かな変化をいっぱい持っていてそこを、ちょっとでも不自然なところがあるとあれ？
人間は、こんな歌聴いたことないなと気付かれてしまうのでそれが自然に合成するところが難しかったポイントです。

（音が５００種類も必要、）それはなぜかというと歌詞にどんなことばが出てくるか分からないからです。
「あ」の次に「か」がくるのか「さ」がくるのか全く歌詞によって違うわけでそれを全部用意しとかなきゃいけないとなると、すべての音のつながりの組み合わせを用意しなければならない。
さらには、歌というのは高さがいろんな高さで合成しなければなりませんので、そのいろんな高さも、ちゃんと事前に収録して準備しておかなければいけない。
だから５００個も必要なんです。
今は２個の音の並びをとっておいたんですが、それを２個だけでなく３個の並びをとっておくというようなことをするとさらに自然になっていきます。

こぶしに関しては先ほどのような声の高さを、いかに自然に模倣するかというところをさらに自動的に発展させていくことが重要だと思います。

●日本で発達した背景

（日本での）技術はもちろんすごい進んでいるんですが、今回のポイントは技術だけでなくて、日本の技術、日本の社会、日本の文化のそれぞれの強みが相乗効果で生かされているとこだと思うんです。
つまり、どういうことかというと（インターネットの動画共有サイトでは、）誰もが自分で作った曲をすぐに不特定多数のいろんな人たちに聴いてもらってそのコメント、意見を翌日にはもらうことができる。
その場で、もらうことができる。
そういうことが可能な社会になっていますし、さらには、先ほどの初音ミクのようなキャラクターを大切にする文化というのが日本にありました。
その上に、潜在的に高い能力を持ったクリエイターというのが日本には、いっぱいいてそういう熱意ある人たちが今までは埋もれていたのが今回のように、そういう人たちが結集して、初音ミクのようなすばらしい現象が起きているんだと思います。

音声合成を医療に生かせ

イギリス北部にあるエジンバラ。
この町で、病気で声が出せなくなった人の声を取り戻す医療プロジェクトが始まっています。

プロジェクトリーダーの山岸順一さんです。
日本で音声合成を研究していた山岸さんは、６年前その成果が評価されエジンバラ大学に招かれました。
山岸さんが医療応用の対象としているのは、運動ニューロン疾患という進行性の難病です。
全身の筋肉が次第に衰えていく病気で、やがて声を発することが難しくなります。

山岸さんは、病状が悪化する前に患者の声を収録します。
コンピューターに文字を打ち込んで、その人の声で話ができるようにするためです。

マイケル・アーノットさん
「とてもいいね　感動した　ちょっと早口だけどこれは私の声だ」

妻　ジョイさん
「彼らしい力強い声が聞こえてすばらしかったです」

患者から高い評価を得ている山岸さんの音声合成技術。
しかし、開発の過程では大きな問題がありました。
声を収録するときすでに声を発しにくくなっている患者も少なくないのです。
そうした患者の一人ユアン・マクドナルドさんです。

こちらは５年前声を収録したときの映像です。
すでに十分な発音は難しくなっていました。

そこで山岸さんはユアンさんの兄アンガスさんの助けを借りることにしました。
声やしゃべり方が似ていたため、その声を収録し参考にしたのです。
こうしてユアンさんは視線を動かし画面の文字を入力することで自分の声で話ができるようになりました。

ユアン・マクドナルドさん
「（山岸）順一さんが作り上げた声の質については皆　感動していますし　彼の合成音声に私は喜んでいます」

多くの人の声を集めれば患者の声を合成する助けになる。
そう考えた山岸さんはイギリス中から声のボランティアを募集。

若者から高齢者そして地域ごとの方言などさまざまな声を集めました。
１人当たり１時間。
２００人分の声を収録し声のデータベースを作ったのです。
その結果、患者の声を僅か１０分でも収録できればその人の声を再現できるようになりました。

「音声合成器にも自分のアイデンティティーが多少なりとも含まれていると思いますので
他人の声でしゃべるよりも　やはり自分の思いが家族や友人なりに伝わると信じています」

●思いが伝わる声を作れ

音声合成技術は、日本でも喉頭がんなどで声を失った人々にとって福音となり始めています。
奈良市に住む山内民興さんです。
１３年前、喉頭がんで声帯を切除しました。

今、山内さんが会話のために使っているのは電気式人工喉頭という機械です。
口の形を変えることで自在に話はできますが、声が機械的な音になってしまうため山内さんは不満を感じています。

「人間が受ける印象って　いい声で話をしてくれたら　内容がよしんば同じでも　聞いてあげようとか分かってあげようとか思うじゃない」

山内さんは、人工喉頭の声を自分らしい声に変えてもらおうと、ある研究室を訪ねました。
戸田智基さんです。
声の音質をリアルタイムで変換する技術を開発しています。

「こだわりたいのは　やっぱりこの我々の普通の会話ですね
この音声コミュニケーションで使える技術を作りたい」

まずは日本人の声のデータベースをもとに山内さんの声を選んでいきます。

声の高さや張り方、音色など７つの要素を調整し山内さんらしい声を作り出すのです。
もとの人工喉頭の声はこちら。

人工喉頭の声
“日本語はペラペラだそうだ”

これを戸田さんの技術で変換すると。

変換した声
“日本語はペラペラだそうだ”

山内民興さん
「この辺がすごく僕はいいなと思いますね」

早速、合成した声で娘の章子さんに話しかけてみます。

「いつもありがとうね　本当に色々と助けてくれてありがとうね」

娘章子さん
「聞こえるねんけど　もごもご感がありますよね
それさえクリアになればすごい人間の声やな」

自分らしい声で思いを伝えられる可能性が見えてきました。

山内民興さん
「本当に伝えなければいけない時に伝わらなかったり間違って理解されたりということが　今までいっぱいあるのでそれが少なくとも解消されるってことはものすごくありがたいことですよね」

●音声のデータベース化で医療応用

本当に画期的な技術で、先ほどのエジンバラや奈良の医療応用の音声合成技術というのは日本の名古屋工業大学を中心として発展してきたまさに国産の技術なんですね。
これは前半の初音ミクの技術とは全然違う技術なんですが、従来ですと、数時間その人の声を収録しなければ合成できなかったものがたった１０分で、その人の声で合成できるというのは本当に画期的だと思います。

重要だったのはたくさんの人の声を集めてデータベース化しておく。
なぜかと言うと「あ」なら「あ」の音というのは誰が話しても「あ」の音ですし「い」なら誰が話しても「い」の音なわけです。
そういうことをちゃんと事前に集めておきさえすればある人の声が、ちょっとしか手に入らなくても例えば「あ」と「い」しか手に入らなくても「う」の音を、
あ！この人は「あ」はこういう音で言うんだな。
「い」はこういう音で言うんだな。
だったら、きっと「う」はこういう音で言うに違いないというふうにコンピュータが自動的に推測して合成することができるわけです。
そこが１０分で合成できるようになった秘けつでして、だからこそ今回のような医療応用というとても重要な応用分野が切り開けたんだと思います。
(収録できない場合でも自分の兄弟や家族など)近い声の人がいればよりその人の声に合わせて合成しやすくなるわけです。

●どう生かす音声合成技術

（誤った使い方に結びつく可能性の）その心配は非常によく分かりますし、今回出てきたような研究者の方々というのもみんな、その問題に気付いていてやっぱりそこを深刻に受け止めてその上でも、やはりさっきのような患者さんが必要としているその技術をどうやって社会に普及していくかということを皆さん考えているわけです。
そこでやっぱり、より怖いなと思うのは、こういう技術が発展しているということを誰も知らないうちに悪用されることだと思うんです。
これは写真や映像のようにすでに、いろんな合成が可能になっているということをみんな知っていれば例えば写真を見ても、
あ！これはもしかしたら合成されてるかもしれないと気付けるわけですね。
同じように話し声も、もしかしたら合成されてるかもしれないというふうに気付ければ、そういうだまされるということがなくなっていくわけです。