もう一度自分の声を 音声合成技術
07月15日 21時45分
カーナビや翻訳アプリなどで実用化が進む音声合成技術。コンピューターを使って、入力された文字から自然で聞き取りやすい人の声を作り出します。その最先端の技術を使って、病気で声を出せなくなった人、本人の声を再現する。そんなプロジェクトが進められています。コミュニケーションの重要な手段であるとともに、アイデンティティーの一部でもある自分自身の声。どのようによみがえらせるのか、ネット報道部の上杉慎一記者がお伝えします。
FC岐阜がコラボマッチ
岐阜市の長良川競技場で7月12日に行われたサッカーJ2、FC岐阜―横浜FC戦。FC岐阜は、この試合を地元、大垣市出身の大今良時さんの漫画「聲の形」と連携したコラボマッチと位置づけました。聴覚障害をテーマにしたこの漫画にちなみ、スタジアム周辺では、大今さんのサイン会や原画展のほか、聴覚障害者のフットサル、デフフットサル女子日本代表の激励会など多彩な催しが行われました。
会場の一角ではこれに関連して、病気で失われた声の再現を目指す「ボイスバンクプロジェクト」のPRも行われました。
ボイスバンクプロジェクトとは
ボイスバンクプロジェクトは国立情報学研究所がイギリスのエジンバラ大学と進めている共同学術研究です。最新の音声合成技術を使い、病気で声を失った人の声をコンピューターで再現しようというもので、高品質で誰もが聞きやすい声を目指しています。特に、全身の筋肉が徐々に動かせなくなる、ALS=筋萎縮性側索硬化症の患者の会話支援に役立つということです。
ALSの場合、病気が進行すれば体が動かせなくなり、会話もままならなくなってしまいます。ただ、完全に話せなくなる前に本人の声を収録しておけば、会話ができなくなったあとも、コンピューターがその人の声をよみがえらせてくれるというのです。
現在もタブレット型の端末などを使った会話支援装置はありますが、出力できるのは、あらかじめ用意された声だけで、声の種類を選べたとしても男性の声、女性の声といった2種類、というものがほとんどです。
これに対し、プロジェクトが目指しているのは患者本人の声の再現です。アイデンティティーの一部でもある、自分の声で話したいという願いに応えようとしているのです。従来の音声合成技術を使って本人の声を再現する装置も登場していますが、最新の技術を使うことで、より容易に高品質な声を生み出すことができるということです。
背景に最新の音声合成技術
ボイスバンクプロジェクトが目指す本人の声の再現。それを支える最新の音声合成技術とはどのようなものなのでしょうか。
従来の音声合成技術では、本人の声を数十時間以上収録したうえで、その波形データをデータベース化し、それを出来るだけ自然に聞こえるようコンピューターが切り貼りしていました。年々進歩しているとはいえ、事前に膨大な量の波形データを用意する必要があり、体の自由がきかない患者にとっては大きな負担になっていました。
これに対しプロジェクトでは、あらかじめ本人と同じ地域、性別、年代の人の声を複数集めて、コンピューターで「平均的な声」を作り、それに本人の声を加えて、声を再現する方法に取り組んでいます。
その裏付けとなるのは、収録した声の特徴的な周波数を関数、つまり数式で表わし、声の波形を合成する技術です。名古屋工業大学が開発しました。プロジェクトではこれをさらに応用しました。
数式を使うことで、コンピューターは僅かなデータ量からでも自動学習で、高品質の声を合成できるようになります。また、数式の一部を変えれば、「楽しそうな声」「ちょっと怒った声」といったように声のトーンを変化させることも可能です。さらに、複数のデータを混ぜ合わせれば、実際には存在しない声を作ることもできるようになるということです。
例えば、関東地方に住む30代の男性患者の声を再現しようとする場合、同じ条件の健常者20人ほどの声を収録し、「平均的な声」を作ります。それに本人の声を加えて調整します。研究の結果、この方法だと本人の声の収録に必要な時間は10分ほどで済み、負担は大きく軽減できることが分かりました。
プロジェクトの代表を務める国立情報学研究所の山岸順一准教授は「平均的な声を使えばより簡単にその人の声が再現でき、音声合成のパーソナライゼーション技術と言えるものです。誰が聞いても本人のものと思えるような声にいかに近づけていけるか、さらに研究を進めています」と話しています。
再現を手助け 声のボランティア
プロジェクトを進めるうえで欠かせないのが、「声のボランティア」です。ボランティアは各地域、性別、年代ごとの「平均的な声」を作るため、声の収録に協力します。
日本ではおととしから、実証実験として1000人程度を目標に、東京、大阪、名古屋、北海道、奈良で募集を続けてきました。
FC岐阜も6月からホームページなどを通じて「声のボランティア」の募集に協力。すでにサポーター10人ほどが収録を終えました。12日のイベントでボイスバンクプロジェクトのPRが行われたのも、協力の一環でした。
なぜFC岐阜が協力か
FC岐阜の恩田聖敬社長はことし1月、自らがALSを発症していることを記者会見で公表しました。この半年で症状は進行し、会話もしにくい状態ですが、今も車いす姿で仕事を続けています。その恩田社長を後押ししようと、12日の試合でも「ぎふを元気に、恩田社長を元気に」というサポーターからのメッセージがスタンドに掲げられました。
実は、今回のコラボマッチもボイスバンクプロジェクトへの協力も、社長の病気が周囲に知らされる前から企画されていたものでした。企画を担当したFC岐阜の所宗之さんは「ALSや障害のある方が頑張っていることを、去年、テレビで知り、そうした方々とつながることが大切だと考えたのが、そもそものきっかけです。社長の病気のことももちろんありますが、それだけではなく、こうしたイベントを通してサポーターや岐阜の人にALSのこと、ボイスバンクのことを広く知ってほしいと思っています」と話していました。
より高品質な再現を目指して
「声のボランティア」の収録は防音設備の整ったスタジオで行われます。収録に必要な時間は1時間ほど。ボランティアは用意されたおよそ300種類の短い文章を読み上げていきます。
同じ「あ」の音でも、会話の始めに出てきた場合と途中の場合では、発音が微妙に異なります。用意される文章はそうした違いを反映できるように工夫されています。
東京、大阪では予定していた人数分の声が集まり、「声のボランティア」の収録は最終段階に入っているということです。
「今は実証実験の段階なので、ボランティアの数をある程度限定しています。ただ、将来、この技術を広く誰にでも使えるものにしようということになれば、さらにボランティアの協力が必要です。平均的な声のデータが多ければ多いほど精度の高い再現が可能になると考えています」(山岸准教授)
一方、発音が満足にできない障害がすでに出ている人の場合、その人の声と「平均的な声」を基にするだけでは十分ではありません。コンピューターが、障害のある今の状態の声を再現してしまうからです。
障害がないころの、かつての声を再現するにはどうしたらいいのか。山岸准教授が着目したのは母音や子音を発音したときの舌の位置です。言語学者の研究で、日本語の母音や子音を発音した際、舌が口の中のどこにあるかは同じ方言の人ならおおむね一致することが分かっています。英語の場合も同様です。
仮に「あ」と「う」の音がうまく発音できない人の場合、コンピューターがその人の「い」、「え」、「お」の発音から、「あ」、「う」のおおむねの位置を推測することができます。それでもうまくいかない場合は、他の人の「あ」、「う」をヒントに補ってやります。同性の兄弟・姉妹の声は大いに参考になるということです。
ボイスバンクプロジェクト さらにその先には
プロジェクトではことしに入って、障害者が使う会話補助アプリの日本語版を完成させました。自分の声を収録したモニターの障害者5人のうち、1人が実際に使い始めています。山岸准教授のもとには、外出の際には手放せなくなったという感想が寄せられているということです。今後、10人弱のモニターを追加で募集し使ってもらう計画です。
音声合成技術が今後、さらに進歩すれば、プロジェクトが手がける範囲以上の応用も想定されます。過去のビデオなどから声の再現が可能になれば、すでに声を失い収録ができない人や、脳卒中のように突然倒れ、話せなくなった人などの声をよみがえらせることもできるようになるかもしれません。
残された僅かな声を基に、その人の声をコンピューターで再現しようというボイスバンクプロジェクト。もう一度自分の声で話したい、親しい人の声をもう一度聞きたいという切実な願いを、最新の音声合成技術が実現しようとしています。