AIによるカクテルパーティー効果みたいな?
聖徳太子は10人もの声を同時に聞き分けられたと言われたり言われなくなったりしていますが、Google(グーグル)がそんな感じの技術を開発しました。同時に話してる人の声を個別に抜き出すというものです。
観客がザワザワする中、二人の登壇者がマイクで話しています。普通なら聞き取りが難しい状況ですよね。ところが動画中盤、スライダーを右に動かすと右の人だけの声が、左に動かすと左の人だけの声が抜き出せています。あっさりしたデモだけど、これ本当にすごいと思う。
Googleはこの技術を「Looking to Listen」と呼称。音声だけでなく映像も同時に解析することで、話者の口の動きと音声の相関関係から、AIが的確に音を分離できるとのことです。音声データ単独でこれをやってのけるのは、Googleをもってしても困難らしいですよ。
ノイズキャンセリング性能も凄まじい。カフェの騒音がバッツリ消されてます。動画撮影やビデオチャットなんかで使えたらすごく便利そうですが、Googleはこの技術をどんな製品に応用するかまだ模索中とのこと。悪用したらピンポイント盗聴みたいなこともできちゃいそうですしね。