演歌も再現するNTTの音声合成技術,まずセガがゲームに採用へ

ソーシャルブックマークに追加する
この記事にタグを付ける
記事のタイトルとURLを入れたメールを作って,知人に紹介する
後からこの記事を見られるように保存する
印刷用ページ
2004/02/09 14:30
野澤 哲生
記者会見で,音声のサンプリング風景を紹介するNTT
記者会見で,音声のサンプリング風景を紹介するNTT
[クリックすると拡大した画像が開きます]
デモに利用した機器。パソコンでMIDIファイルを編集し,それをパソコンの後ろのシンセサイザに送って演奏する
デモに利用した機器。パソコンでMIDIファイルを編集し,それをパソコンの後ろのシンセサイザに送って演奏する
[クリックすると拡大した画像が開きます]
 NTTとNTTアドバンステクノロジ(NTT-AT)は2004年2月6日,NTTが開発した音声合成技術「ワンダーホルン」のライセンス提供を開始した。同技術による音声合成を体験できるWWWサイト「うたばら.com」も同日公開した。

 ワンダーホルンでは,実際の人の声をサンプリングし,それをMIDI音源として扱う。このため,MIDI用の楽譜を書く要領で言葉を自在に編集でき,それに応じた音声合成を行えるという特徴がある。

 ライセンスの利用第1号はセガ。事業化を担当するNTT-ATは,同技術についての包括的な提携についてセガと大筋で合意したという。セガとしては例えば,ゲームの展開に合わせたナレーションを入れたり,ゲームのキャラクターに台詞を言わせたりといった使い方が可能になる。NTT-ATは,ゲームのほかにも,コーラス付きの通信カラオケ,しゃべるおもちゃ,合唱のシミュレーション,携帯電話の着信メロディ配信サービスなどでの利用を想定している。

 サンプリングに基づく音声合成技術自体は以前からあった。しかし今回のワンダーホルンは「さまざまな人の声を,本人の肉声と区別がつかないまでに再現できる点で優れている」(NTT 第三部門 チーフプロデューサ デバイスプロデュースチームの山崎王義氏)という。記者発表会では,ビブラートや演歌のこぶしといった繊細な音声表現や,少人数の人の声をサンプリングしたデータを基にそれぞれの声音や音程を微妙に変えて,あたかも多くの人数で合唱しているような合成ができることを実演してみせた。

倍音の再現に工夫

 リアルさを実現するポイントになったのは,人の声の倍音成分の再現である。NTTはこれを2つの手法を併用することで達成した。第1に,音声をsin,cos関数だけでサンプリングする「正弦波重畳方式」の採用。そして第2が「肉声ノイズ」と呼ぶ,それだけでは雑音にしか聞こえないデータを多重する手法である。ほかの音声合成技術の多くは,肉声の波形の断片を基にそれを組み合わせる「波形重畳方式」を採用しているが,これでは倍音成分をうまく再現できないという。

 このサンプリング方式とMIDIを組み合わせたことで,音声データを伝送する場合のデータ量を大幅に削減できた。「数分の歌謡曲をMP3で圧縮すると数Mバイトになるが,今回の方式では数十分の1の100Kバイトほどで済む。音楽抜きで音声だけなら1/100以下にもできる」(NTTサイバースペース研究所 メディア処理プロジェクト音声・言語グループの青野祐司氏)という。

 さらに将来は,携帯電話機などへの応用も見込める。ただし,携帯電話機で音声入りのMIDIファイルを直接演奏できるようになるのは当面先になりそうだ。理由は「端末の演算性能やデータの記憶容量が足りない」(青野氏)ためだ。音声入りのMIDIファイルを演奏するためには,まずMIDI音源として,再現する人の声ごとに数十Mバイトのサンプリング・データが必要になる。そして,それを専用のソフトウエア・シンセサイザを搭載したDSP,さらに233MHz動作のPentiumプロセサ相当以上のマイクロプロセサで処理する必要があるからである。

デジタルヘルスオンライン