音声言語インタフェース最前線

「声を自由に変えられる技術」でコミュニケーションはどう変わる? (1/2)

» 2018年05月12日 07時00分 公開
[井上輝一ITmedia]

 最近、VR(仮想現実)空間で男性が美少女キャラクターの姿になれるサービスやツールが話題になっている。もちろん女性がイケメンの姿になることもできる。生身の体に付けた専用パーツをカメラやセンサーでトラッキングすることで、自らの動きとVR上の3Dモデルの動きを同期できるのだ。

 自身の姿が変わると自然としぐさも変わってくるらしく、VRに夢中な編集部の男性記者も女性アバターになるとつい女性らしいかわいらしい動き(「kawaiiムーブ」と呼ばれる)をしてしまうという。

 最新の技術で変えられるのは見た目だけではない。「声」も、リアルタイムで別人のものに変換することが可能になりつつある。

 例えば、クリムゾンテクノロジーが作るiOS向けアプリ「リアチェンvoice~ジュラ紀版」では、自らの声をリアルタイムにキャラクターの声に変換できる。オプション購入で、声優の佐藤聡美さんや小岩井ことりさんの声モデルも使用できる。

リアチェンvoice~ジュラ紀版」では自身の声を佐藤聡美さんなどの声質に変換できる
リアチェンvoice~ジュラ紀版のサンプルボイス

 東芝デジタルソリューションズは、リアルタイム性はないものの、声を収録して自分の声モデルを作り、自身の声モデルや使用したい他人の声モデルから音声を合成するといった構想を持つプラットフォーム「コエステーション」をスマートフォンアプリとして提供している(現時点ではiOS版のみ)。

「コエステーション」のコンセプト

 従来も「ボイスチェンジャー」で声の高低や性別程度であればリアルタイムで変えられたが、リアチェンvoiceでは特定の他人の声質になれる。こうした「音声変換技術」は、人のコミュニケーションにどのような影響を及ぼすのだろうか。

 クリムゾンテクノロジーに音声変換技術について協力し、この「音声言語インタフェース最前線」特集で音声合成技術「WaveNet」について語ってもらった名古屋大学の戸田智基教授に、音声変換技術の現在やこれからについて伺った。

リアルタイムの音声変換は「体の拡張」

 戸田教授は、研究目的の1つに「できないことをできるようにしたい」という理念を持つ。

 「人には『体』という制約がある。手術で声帯を摘出すれば、声は出なくなってしまう。音声変換技術で、そんな人でもまた話せるようになるのではないか」──音声変換研究の最終目的は「体の制約を超えて発声する機能を獲得すること」だと戸田教授は話す。

 一部の発声器官を失ったとしても、音声変換アルゴリズムによって正常な発声器官をシミュレートすることで正常な声を取り戻せる(完全に器官を失った場合は極めて困難)。そんな物理的制約を取り払う身体拡張機能を作れないかと研究している過程でできた成果が、リアチェンvoiceのような「他人の声へのリアルタイム変換」だったという。

音声変換技術で失った声を取り戻せる(戸田教授「音声信号の分析と加工 - 音声を自在に変換するには?」より)

 「リアチェンvoiceのこだわりは、まさにリアルタイム性にある」と戸田教授。

 「これまでの音声認識やテキスト音声合成は、ある一連の音声や、1つの文を入力として渡し、端末やクラウドで処理をして認識・合成結果を戻すという形式だったため、入力し始めてから変換結果を得るまでにタイムラグがあった」(同)

 「これまでの音声変換もそうで、例えば『おはよう』という声を変換するなら、まず一連の音声を録音し、録音データを処理に渡して変換するという方式だった」と戸田教授は振り返る。

 「リアチェンvoiceでは、録ったその場でどんどん変換していくアルゴリズムを用いているため、face to faceのコミュニケーションに重要なリアルタイム性を確保できている」と優位性を語る。

 リアルタイム性確保のため、変換処理はスマートフォンのみで行えるほど軽い処理で行っているともいう。処理が軽いのは使用アルゴリズムが単純だからで、そのため変換精度に限界もあるが、「WaveNet」のようなディープラーニングの技術を発展させて今後取り入れていくことでもっと精度が良くなっていく見込みだ。

音声変換技術で「テレパシー」も実現?

音声変換の応用例(戸田教授「音声信号の分析と加工 - 音声を自在に変換するには?」より)

 リアルタイム音声変換の応用の1つとして戸田教授が取り組んでいるのが、「テレコミュニケーション」だ。方法としては、聴診器型マイクで小さな声を拾い、聞き取れる明瞭な声に変換して相手のイヤフォンなどに届けるというもの。

 「キャッチーなのでテレパシーと言っているが、実際には小さな声を出さないといけない。人によっては気持ち悪いと思うかも」と、コンシューマー向けに受け入れられるかどうかはまだ分からないとしている。

 「むしろ、特殊な環境の方が導入としては向いているかもしれない。例えば、大きな声を出したら困るような職場や、ものすごくうるさい環境で話さないといけない場合など。聴診器型マイクでの録音は外部の音を抑えられるので有効なはず」(戸田教授)

 骨伝導を利用したイヤフォンなどを同時に利用すれば、耳にも口にもデバイスを付けていないのに、(ひそひそ声で)遠くの相手とコミュニケーションできる──そんなテレパシーのアイデアだが、実用化までには壁もあるという。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

- PR -

Special

- PR -

「電源を抜くと使えないタブレットに何の価値があるのか」と。しかし、これが「大いにある」のだ。

サイバー攻撃の変化に伴い、従来の対策がすり抜けられるのは当たり前になってきた。致命的な事態を防ぐにはどうしたらいい?

税込み75万円超えの“全部入り”でG-Tuneの本気を試す ‐マウスステーション‐

「学生に最新のクラウド環境で学ばせたい」 新潟コンピュータ専門学校が「Oracle Cloud」を学習用プラットフォームに採用した理由とは?