巷で囁かれている噂「携帯電話から聞こえる声は、しゃべっている本人の声ではない」が真実かどうかを探るため、通信全般の研究を行っているKDDI研究所に乗り込んだ人体模型くん。
前編では、携帯電話のしくみを語るうえで欠かせない「人の声のしくみ」について解説しました。後編では、同じくKDDI研究所の堀内俊治氏が、この噂の真相について詳細に解説していきます!
さっきまでの話で、「携帯電話から聞こえる声は、喋っている本人の声ではない」という噂は本当だということはわかったけど、携帯電話が「限りなく本人に近い声をつくり出している」っていうのは、どういうことッスか?
すこし専門的な話になりますが、順を追って説明しましょう。はじめに、電話における音声符号化の方法は大きく3つほどあります。
まず「波形符号化方式」。これは固定電話に使われる方法で、前編でも説明したように、声の波形そのものを電気の波形に変換し、電線に乗せて送っています。ここでは「波形そのまま方式」と呼びますね。この方式を使った場合には「本人の声をそのまま届けている」と言えます。でもそれが無線、つまり携帯電話になると声の届け方も異なってくるんです。
そして「分析合成符号化方式」。これは、前編で詳しく説明した、人の発声器官をモデル化した方法です。"喉や口などがどのような形になっているか"という声道を再現する機能であるフィルタの情報と、"声帯がどのように振動しているのか"という音源の情報に分解し、音声を合成します。情報量をかなり抑えられる方法ですが、仕上がりはロボットボイスっぽくなる。ですので、ここでは「ロボット方式」と呼びます。この方式は、「話した内容がわかれば十分」という目的に適しているので、軍事用途に使われたりします。
最後の「ハイブリッド符号化方式」は、分析合成符号化と波形符号化を組み合わせた方式のこと。2つの良いところを利用しているので、「良いトコどり方式」と呼びましょう。
あらかじめ決められている「固定コードブック」という音の辞書のなかから、本人の声に近く聴こえる音声コードを探し、組み立てて、喉や口などの形に合わせて、一瞬にして音声をつくっているんです。「適応コードブック」という一瞬まえに作られた音声も使って、効率よく選ばれています。
「固定コードブック」には、"音の素"となる組み合わせのパターンが2の32乗、つまり約43億にもなります。
43億って!! それつまり、全世界の人の声が再現できるものなんすか?
そういうことです。すごいですよね。で、そのパターンというのは前編で話した「有声音」「無声音」のレベルよりもさらに素の素材なので、ひとつの単語を発しようとすると、たくさんのパターンを組み合わせる必要が出てきますね。
その声に似た43億ものパターンから、探し当てて、また組み合わせて声にして......。それをKDDIさんがやってるんだ! 尊敬っす。
いえ、これは携帯電話の中でやっているんですよ。送信側の携帯電話で声を分析した情報を、電波に乗せて相手に届ける。届いた方の携帯電話ではこの情報から送られた声を合成、つくるんです。
そんなすごいことを携帯の中で、瞬時にやってるんですか!? ......パねぇっす! 人体模型、感服したッス!
通話中、電話機のなかではどのようなことが行われる?
具体的に説明しましょう。たとえば、人体模型くんが理科の先生に電話をしているとします。人体模型くんの携帯電話では、君の声が入力された瞬間に音源と声道のフィルタに分解し、「適応コードブック」と「固定コードブック」に探索をかけます。そこで君の声に似て聴こえるパターンを見つけたら、声道のフィルタの情報と一緒に電波に乗せて、先生の携帯電話に届けます。つまり先生は、そうして作られた「人体模型くんの声に似て聴こえる音」を聴くことになるのです。
だから、厳密には本人の声とイコールではありません。冒頭の「限りなく本人に近い声をつくり出している」とは、そういう意味なんです。
なるほど、似て聴こえるようにパターンを組み合わせるから、オリジナルではなくなるってことか......。でも「コードブック」があるということは、世界のどこかで、自分の声と同じ声が流れている可能性もあるんすか?
うーん、それがそうとも言えないです。たとえばビートたけしさんのそっくりさんが居たとしても、それを音声の波形としてみると、まったく違う形になります。そのくらい、まったく同じになる可能性というのは低いですね。
むむ......。
でも、親子の場合、波形は似ていますよ。だから娘が電話を受けたのに、相手から「あ、奥さん?」とお母さんに間違われた、みたいなことが起こるんです。それは、そもそも電話では送る音の高低の範囲(周波数帯域)が絞られているからでもあるんですけどね。
絞られているって、どのくらいっすか?
いまの電話の音の高低の範囲(周波数帯域)は、音楽の圧縮技術としてポピュラーな「mp3」の半分くらいでしょう。電話で音楽を聴いても、「音質が良い!」とは感じないでしょう? これは電話と音楽では音の高低の範囲(周波数帯域)が異なっていて、電話は人の声を届けることを目的に設計されているからなんです。
通話音声は、CDの音質に近くなる!? 携帯電話のさらなる未来
じゃあ、これからの未来はどうなっちゃうんです?
音質が、もっと良くなりますよ。2014年にVoLTEが登場して以来、通話音声の品質は格段に向上しました。普段、音質を気にしていない一般ユーザでも、3Gと比べて自然な声と感じるようになったと思います。
将来は、より高い周波数まで送れるようになるでしょう。無線技術が進化していますから、送れる情報量はどんどん増えてきています。実際、VoLTEに続く次世代の音声技術も完成してきていますし、その次のレベルでは、CDくらいクリアに聴こえるようになっていくでしょう。
電話がCDくらい綺麗に聴こえるようになれば、通話ももっと楽しくなりそう。何気なく使っている携帯電話の裏には、技術者の努力があったんすね。未来の可能性は拡がるばかりッスね!
少々専門的な話だけど、わかってくれて嬉しいです。ちなみに僕の実験には、君と似た「HATS(ハッツ)くん」を使って、テストなどを行っていますよ。
.........。
ちっす。
.........。
......なに考えてるかわかりづらいっすね。
研究をはじめてから20年の付き合いになる、私の相棒です。
KDDI研究所で堀内さんたちがいま研究中の「しくみ」
ところで堀内さんたちは今、KDDI研究所ではどんな研究をしてるんすか?
音声符号化に関連した技術として、私たちのグループではいま、「N2」という音声合成ソフトウエアの研究開発をしています。要は、メールなどのテキストデータを音声にして読み上げるもの。目の不自由な方に向けて、ユニバーサルデザインを志向したホームページなどにも大変有効です。
前に紹介した、「分析合成符号化方式」に似た方法で音声を合成します。携帯電話の話と同じく、いろいろな人の声や本人に似た声をつくるために試行錯誤しています。
自分の声を合成していろんな言葉をしゃべらせるって、面白そうッスね。
「Siri」だと人の声を切ってつなげているのでデータ量は多少多くなるのですが、「N2」のデータ量は非常に少なくて、それに動作が早いんですよ。AndroidやiPhoneなどのスマートフォンでももちろん使えますし、家電などに組み込むこともできます。
まさに最新技術!
私は、人間のコミュニケーションにおいて、音声は非常にスマートなコミュニケーション手段だと考えています。「N2」にも言えることですが、将来は「声」ひとつで様々なIT機器をコントロールできる時代になるでしょう。たとえば「テレビのチャンネルを変えて」とか「留守電を再生して」とか。機械とFace to Faceで話すような生活がやってくるでしょう。
そこで、私たちのグループでは、対話システムや、音声をはじめとする様々なユーザインタフェースの研究開発を進めています。たとえばLINEがスタンプで成功したように、人間のコミュニケーションにおいて即時性が重要です。「見るだけ」「聴くだけ」「話すだけ」です。私達のチームでは、それらを人間とコンピュータとの関係にも落とし込み、様々なヒューマン・コンピュータ・インタフェースを構築することがミッションになっています。
堀内サン、サスガデス。
(しゃべった!)僕も堀内さんたちの研究を応援したくなったよ!
アリガトヨ。
......。
......。
(...ガシッ)
※肩を組んでいます
噂が本当かどうかが知りたくて来ただけなのに、堀内さんの話を聞いてたら、音声技術の未来が楽しみになってきました。これからの研究、応援してるっす!
人体模型くんも、次に会うときはどこか進化しているかな?
いやぁ、ぼくは所詮、人体模型っすから......!
堀内さんへのインタビューの結果、携帯電話の声は、合成音声、つまりつくられた音声だということがわかりました。しかしながら、私たちは携帯から聴こえる声を、合成だと意識して通話したことはないはずです。そこには「より本人の声に近いものとなって届くように」、日夜研究を続けてきた先人達の努力がありました。
日進月歩の技術が、私たちの生活をより便利に、明るいものにしているのです。
文:韓奈侑(blueprint)
撮影:竹内洋平
イラスト:田中裕子
※掲載されたKDDIの商品・サービスに関する情報は、掲載日現在のものです。商品・サービスの料金、サービスの内容・仕様などの情報は予告なしに変更されることがありますので、あらかじめご了承ください。