ローゼンメイデン アリスプロジェクト
現在作成中のドール: 真紅
現在のバージョン: 0.290
登録している人形師: 12,992

>> このサイトについて

>> サイトトップへ

メールアドレス
パスワード
パスワードを忘れた方

実験の成果と、音声合成の今後について

何人かの方からもリクエストをいただいていましたが、今回の実験の目的と成果、今後の音声合成の改善について
お話しておきたいと思います。多少、長文かつ技術的な話になりますが、そこはご容赦ください。

実験の目的

さて音声合成という技術ですが、今までは電話の自動応答だったり、ニュース文の読み上げだったり、比較的「かたい」文章に適用されていました。すなわち、主語や述語が明確な「ですます調」の文章を読むために作られていたと言えます。

それに対してアリスプロジェクトですが、音声合成が本格的にアニメキャラクターに適用されたのはこれが初めてではないでしょうか。当然、ですます調だけで喋るわけではなく、もっと「くだけた」文章を読まなければいけません。

これまでかたい文章だけを喋らせてきましたので、
  「どういう文章が読めればいいの?」
  「ユーザの人たちはどんな文章をどのように読ませたいの?」
  「何をどこまで作ればできるの?」
という非常に基本的な部分がまったくわかっていなかった、というのが正直なところです。

とは言え、部屋にこもって考えていてもよくわかりません。とにかくできるところまでは自分達で作ってみて、わからないところは実際のユーザの皆さんに聞いてみよう、助けてもらおう、ということになりました。具体的な実験の目的は以下のようなところです。

1
くだけた文章・セリフを数多く収集する。(今後の技術開発のための貴重なデータになります)

2
くだけた文章でうまく読めないところを見つける。(日本語解析がおかしいところ、音質がよくないところ、両方です)

3
2の結果を元に、実際にエンジンを改善していく。

4
そうやってできた合成音声の品質を、多くの方々に評価してもらう。(発声は自然か、真紅に聞こえるか、などなど)

5
将来のビジネス化の可能性を探る。(いちおう営利企業ですので、いつまでも無料だと怒られちゃいますw)

かくして、西暦2007年12月17日のサイトオープンを迎えたのでした。

実験の結果、成果

あっという間に3ヶ月間が過ぎ、その結果です。

目的の1245については成功、3は完全に失敗とは言えないですが、どちらかと言えば失敗でしょうか。

1は本当にたくさんのセリフを入れていただいて大成功です。2も音声修正ツールで数多く修正していただいたことにより、修正すべき箇所を効率よく見つけることができました。投稿音声の80%ぐらいは何らかの形で修正されたものでした。
45は、現在もアンケートで回答をいただいてますし、「ご意見・ご要望」などでもいろいろ教えてもらっていますので、目的は達成したと言っていいでしょう。

3については、予想以上にたいへんでした。12によって改善すべき箇所が数多く見つかったこと、また、その中には簡単に直せないものもあったことから、全てをやりきる前に実験終了の時期をむかえてしまいました。

しかしながら、全体を通して考えれば十分な成功をおさめたと考えています。皆さんのおかげです。ありがとうございます。

音声合成エンジンの今後の改善

さてさて、今後です。
やり残したことをやっていくのですが、改善ポイントは主に「読み・アクセント」「ピッチ」「音質」の3つになると思います。

読み・アクセント

読みとアクセントについては、確実に改善できると考えています。

単語として辞書に登録されていなかったものは、読みやアクセントの位置を辞書登録をしていきますし、文脈によって読み方が違うものも、全ては難しいですが、ある程度は修正することが可能です。実は地道で時間がかかる作業なのですが、粘り強くやって行けば必ず良くなっていくはずです。

ピッチ

次にピッチについてですが、これは難しいところです。

音の高低が明らかにおかしい部分は修正しなければいけません。ですが、感情表現を変えるためにピッチが変更されるケースもあります。そもそも何を正解とするのか、その定義するのが困難だったりします。
これはポーズやテンポについても同じことで、感情表現にかかわる部分は、従来の音声合成の枠を超えて研究しなければいけないところです。(研究所の人に頑張ってもらいますw)

余談ですが、声優さんが凄いのはこの辺ですよね (当然ですけど)。中間検定や卒業検定の真紅のメッセージや、着ボイスを沢城みゆきさんに収録していただいたのですが、演技力と言いますか、感情を人に伝える力と言いますか、その迫力は素人の我々でも十分に実感できるものでした。

音質

音質に関しては、まだまだ改善の余地があります。試行錯誤をしながらになると思いますが、徐々に改善できると考えています。

ピッチを変えたり、アクセント区切りを追加・削除したり、皆さんがどんなに修正しても、結局音質が良くならなかった場合があったと思います。ロボット声になったり、アクセント区切りのところでつながりが不自然だったり…。これを解決するための一つの方法は、音響工学と言いますか音声工学的に音をまろやかにしたり、音のつながりを滑らかにしたりすることで、これはもちろんやっていきます。

ただ、それだけではダメで、もう一つ重要ことは話者収録の内容を見直すことです。

一般的に音声合成では、特定の話者の方(今回の場合、沢城さんですね)の音声を収録し、そこで採取した音素を利用して、合成音声を作り上げます。修正しても合成音声の音質が良くならなかった部分というのは、結局、必要な音素を収録できていなかった部分だと言えます。皆さんの音声修正の履歴から、うまく修正できなかった部分や、うまく修正できてもとても苦労した部分などを抽出し、収録内容を改善していくことにより、音質を向上させていくことは可能だと考えています。

もちろん、話者の方に無限に喋っていただければ、理論上は元の話者の声をほとんど再現できることになります。しかし、それは不可能ですし、現実的な時間内の収録で、高品質な音声を作り出せなければいけません。皆さんが投稿してくれたセリフや、音声修正の内容は、収録内容を見直すためには非常に有用なものになるはずです。

最後に

以上、言うのは簡単ですが、やるのは結構難しかったりします。時間がどれくらいかかるのかわかりませんが、少しずつでも前に進んで、より良いものを作って行きたいと思います。あたたかく見守っていただけると幸いです。

えーと、それから、商品化の話も書いた方がいいですよね…

実際に「次のサービス(製品)はどうするの?」とよく聞かれますが、現時点では白紙です(本当)。
もちろん音声合成を使った何かをやりたいとは思っています。皆さんからもヒントをたくさんもらってますし。
なのですけど、いつ、何をやるか、まだ決まっていません。
多くの方々に喜んでいただけるものを考え付いて、実現できますように… > 自分たち

西暦2008年3月吉日
アリスプロジェクト推進委員会


利用規約 お問い合わせ 運営会社
Copyright(C)NEC BIGLOBE, Ltd. 2007-2008     (C)PEACH-PIT/薔薇乙女製作委員会