この記事は日経 xTECH有料会員限定ですが、2018年4月12日5時まではどなたでもご覧いただけます。
耳がいいAIスピーカーとそうでもないAIスピーカー――。「聞き取り能力」は音声操作を前提にしたAIスピーカー(スマートスピーカー)の“基本機能”だが、日経 xTECH分解班による“3大AIスピーカー”の調査では、機種によって差があることが確認された。
例えば3機種の中で、「Google Home」(米グーグル(Google))は「きゃりーぱみゅぱみゅ」や「チバニアン」といった、特殊で聞き取りにくい単語まで聞き取った。「Amazon Echo」(米アマゾン・ドット・コム(Amazon.com))は聞き取った音の方向をLEDで表示できる。一方、「Clova WAVE」(LINE)は、分解班の調査(2017年末)によれば、機器の起動(ウェイクアップ)に必要な開始語の「Clova(クローバ)」の聞き逃しや聞き間違えの確率が他の機種より高かった(関連記事)。
こうした差はどのようにして生まれるのか。今回はAIスピーカーの「聞き取り」の専門家であるフェアリーデバイセズ 代表取締役CEOの藤野真人氏に、マイクから処理まで、より詳しくAIスピーカーの音声認識について聞いた。同社は聞き取り能力などに注力した業務用AIスピーカーを開発している。
AIスピーカー用のマイクには、どんな特性が必要とされているのでしょうか。
マイクに求められるのは、以下の4点です。
(1)マイク自体を原因とするノイズが低い
(2)複数を使用するため、感度(入力信号を何倍の出力信号にするかという増幅率、ゲイン)の個体差が小さい
(3)人間の声の周波数帯域では、周波数特性がフラットである
(4)環境中のホコリや粒子、水分などへの耐性が高い
(1)については、まだメーカーによって差があります。一部で低ノイズ製品も出てきています。(2)の感度の差、つまりマイクのゲイン(増幅率)の個体差については、少ない場合でも±1dB程度、メーカーによっては±3dB程度の場合もあります。ゲインの個体差はMEMS(微小電気機械システム)マイクの製造方法によります。発注量が多い場合は、個体差を抑える目的で特注の製造ラインを用意しているケースもあるのではないでしょうか。(3)の人間の声への対応は、最近、概ね要求が満たされている状況になっています。
(4)について、ホコリなどの粒子に弱いというのはMEMSマイクの欠点の1つです。ホコリ耐性や防水性を向上させたり、特に高域での音響特性を改善するために、音を取り込む穴部分を「メッシュ」で覆う方法があり、マイクメーカーがそれを推奨している場合もあります。