ディープラーニングの登場やスマートフォンへの搭載により、急速に普及したAI(人工知能)の技術に「音声認識」があります。本稿では、「音声認識」の定義から仕組み、事例、技術動向について詳しく解説します。
音声認識とは
Photo by Kristin Baldeschwiler on Pixabay
音声認識とは、コンピュータにより音声データをテキストデータに変換する技術です。
人間が言葉をそのまま理解するのに対し、コンピュータは、音響モデルや言語モデルを用いて音声を解析し、認識します。
音声認識の仕組み
Photo by geralt on Pixabay
音声認識の技術は、具体的に「音響分析」「音響モデル」「発音辞書」「言語モデル」の4つの過程を経て、コンピュータが認識します。
音響分析
音響分析では、入力された音声データの音の強弱や周波数、音と音の間隔、時系列などさままな特徴量を抽出し、音響モデルで扱いやすい(コンピュータが認識しやすい)データに変換します。
Ledge.ai編集部にて作成
音響モデル
音響モデルでは、音響モデル分析により抽出された特徴量が、どの記号(音素や単語)にどれほど近いのかを学習したパターンと照らし合わせ、整合率を計算します。
たとえば、「ありがとう」と音声を入力した場合、音声分析により抽出された特徴量を用いて「A-R-I-G-A-T-O-U」という音素になるように、音声を正しい文字にマッチングさせます。
発音辞書
音声の最小単位の”音素”ごとにモデル化されている膨大なデータベースから音の組み合わせをピックアップし、「単語」として認識させるのが発音辞書です。
たとえば、
・「A-R-I-G-A-T-O-U」を「A-RI-GA-TO-U」(ありがとう)
・「G-O-M-E-N-N-E」を「GO-ME-N-NE」(ごめんね)
のように、音の組み合わせを「単語化」し、音声モデルと言語モデルを結びつける役割をします。
言語モデル
言語モデルでは、膨大な量のデータから単語のつながりを予測判定し、より正確な文章を組み立てます。あらかじめ蓄積したデータから使用する単語の出現率を算出し、単語を文章化します。
言語モデルで主に利用されるモデルが「隠れマルコフモデル」です。これは、ある文字列に続く直後の文字の出現しやすさをパターン化し、それらの出現確率を定義しています。Ledge.ai編集部にて作成
上図のように、膨大なデータから単語を連結させる確率を出し、文脈が正しくなるように単語を文章化します。
ディープラーニングで音声認識はどう変わったのか
ディープラーニングとは、データから自動で特徴を抽出し分類や予測を行う技術であり、機械学習の一種です。
ディープラーニングの技術を用いた音声認識では、「音響モデル」から「言語モデル」までのプロセスが1つのニューラルネットワークモデルで実装されています。
たとえば、言語モデルに「私は学校へ」と入力すると、次に出現する可能性が高い「行く」「行かない」などの単語を自動で予測します。
ディープラーニングの登場によって膨大な情報を処理できるようになり、音声認識の著しい向上につながりました。
音声認識と自然言語処理
Photo on max pixel
音声認識とは、音声情報と言語情報を組み合わせることで、音声を文字に変換する技術です。
故に、音声からテキストを生成するところまでの機能であり、テキストから意味を抽出し、目的に応じた作業を行う部分までは含まれていません。
この機能は「自然言語処理」により担われています。
自然言語処理とは、人間の用いるような自然文を対象とした、言葉や文章のもつ意味を認識、処理する技術です。
音声認識が使用されている事例
Photo on max pixel
音声認識はさまざまなビジネスやサービスに導入されています。
会議の議事録や営業日報などの記録を効率化する「ProVoXT」
ビジネスシーンで会議の議事録や営業日報を記録する際、録音音声を何度も聞き返して文字起こしするには多大な時間と労力を要します。
こうした手間を解決してくれるのがクラウド型議事録作成支援サービス「ProVoXT」です。
録音した音声をクラウド上へアップロードすることでAI(人工知能)が音声認識を開始し、自動的に文字起こしが行われるため、通常であれば数時間かかる作業を十数分に短縮します。
参照記事:
英語のスピーキング評価を自動で行えるAI 「CHIVOX」
CHIVOXは、アプリに向かって英語を話すことで、正しい発音かどうかをチェックしてくれるサービスです。中国が開発した英語スピーキング評価AI技術で、既に世界132ヶ国で導入されており、日本でも利用されています。
米式/英式英語の発音基準との比較のほか、発話が流暢かどうか、なども評価できます。また、チャイルドモード、ノーマルモード、ネイティブモードという3種類のモードを持っていることで、幅広い英語力に対応できる強みを持っています。
参照記事:
音声認識で感情と元気度を解析するAI「Empath」
Empathは、音声の物理的特徴量を解析することで、言語に依存せず、「喜び」
「平常」「怒り」「悲しみ」「元気度」を解析するAIです。東日本大震災後、ボランティアのメンタルヘルスケアのために生まれ、アラブ首長国連邦内務省に正式に採用された実績を持ちます。
現在では、コールセンターのシステムとして、顧客とオペレータの感情を可視化するほか、ロボットへ搭載し、人との自然なコミュニケーションの研究にも導入されています。
参照記事:
クラウド上のコールセンター「Amazon Connect」
「Amazon Connect」はクラウド上にコールセンターを作成するサービスです。自動音声応答やその文言編集、通話の自動録音などの機能を備えています。
音声認識技術は音声からテキストへの文字起こしや、多言語翻訳に活用されています。
参照記事:
ほかにも多くのサービスに音声認識は使用されています。
参照記事:
音声認識の普及と課題
Photo by mohamed hassan on Pixhere
AppleのiOSに搭載されている「Siri」やAndroid OSの「Googleアシスタント」など音声認識サービスは生活にも普及しています。リリースされた当初と比べ、音声認識の技術も格段に上がり、今では検索エンジン上でも欠かせない存在となりました。
一方、こうした音声認識サービスの日本での普及率はあまり高くありません。2018年4月iProspectが行った調査では、「過去6か月以内にスマホの音声認識機能を使用したか」という問いに対し、「使用した」人の平均62%、インド(82%)、中国(77%)と半数を超えるなか、日本は40%と諸外国と比べて低い普及率でした。
音声認識は、ビジネスや日常生活で大きく活用されています。私たちは日々進化する技術革新を観察し、AI(人工知能)を積極的に受け入れていくことが必要なのではないでしょうか。