AI基礎用語12選(アノテーション，過学習…) あなたはいくつ知ってる？#10~12

はじめに

文系の皆さんがAI人材になるためのノウハウを投稿していきます。今回は文系AI人材になるための必要なAIの基礎用語も丸暗記していきましょう。少し馴染みのない言葉も出ていますが、AIのプロジェクト内でよく出てくる順で用語を絞っていますので、しっかり学習していきましょう。

単語欄

学習と予測
教師あり学習と教師なし学習
目的変数と説明変数
アルゴリズム
過学習
アノテーション
時系列モデル
データ前処理
PoC
ニューラルネットワーク
正解率と再現率·適合率
AUC

用語10　ニューラルネットワーク

ニューラルネットワークは、ディープラーニングのベースとなる仕組みで、人間の脳の神経細胞(ニューロン)を模して作られたものです。入力層、隠れ層、出力層に分かれており、まず入力層でたくさんの情報を受け入れます。その後、多層になっている隠れ層にデータを渡すのですが、学習を繰り返すことによって、隠れ層を通っていく情報が重要であれば太くなったり、重要でなければ細くなり、重要度を加味しながら伝達されていきます。隠れ層から出力層に至るまでの間に、情報の太さ。細さのコントロールによって、正しかろうことを答えとして導き出していきます。

用語11　正解率と再現率・適合率

予測系AIの精度を評価するにあたっては、いくつかの指標があります。

まず、もっともシンプルな精度評価指標は、「正解率」です。これは「全体としての予測と答えの一致率」で、単純な計算方法で出されます。たとえば「ある人が買うか買わないかを予測させるAI」の場合、100人のうち、70人分を正解できたら、正解率は

70÷100=70%

です。「ある人が買うか買わないかを予測させるAI」を実際に利用する際に、もし「買わない人」ばかりを当てて、「買う人」を当てることができなかったらどうでしょう? 現場においては役に立たないAIになってしまうはずです。こういった偏りを防ぐために、全体としての正解率以外の指標もチェックしましょう。

予測の偏りをチェックするものとしてまず「再現率」があります。「再現率」は「答えが正の中で予測も正とされた率」です。買う人を正とした場合、実際に買った人が40人いたとして、予測で買うとした人がそのうち30人いたとしたら、買う人の再現率は

30÷40=75%

になります。たとえば重い病気の予測をするAIだった場合、病気の見逃しができるだけ起こらないことが重視されます。その際は、この「再現率」が重要になります。怪しきをできるだけ疑え、といった方針のときに重要になる指標です。

また、「適合率」は「予測を正と判断した中で答えも正であった率」です。買うと予測した人が50人いたとして、実際に買った人が30人だったら、買う予測の適合率は、

30÷50=60%

となります。たとえば映像識別AIで万引きを検出するシステムを作った場合、万引きしたと検出した人が50人で、実際に万引きしていた人が10人だったとすると、適合率は20%となります。この場合、疑いをかけられた如人からは大きなクレームが出ることでしょう。こういったケースでは「適合率」を注視しなければいけません。

正解率：全体としての予測と答えの一致率
再現率：答えが正のなかで予測が正とされたもの
適合率：予測を正と判断した中で答えが見つかったもの

用語12　AUC

AUCはArea Under the Curveの略で、どれくらいバランスよく予測を当てられているかを測る指標です。再現率や適合率とともに偏りチェックのために使いましょう。

AUCでは、まず、True Positive Rate(再現率)と False Positive Rate(「陰性」のもののうち「陽性」と誤って予測した割合)を測ります。ここでいう「陽性」は「買う」、「陰性」は「買わない」などになります。そして、この2つの縦軸と横軸で曲線を描いて、その面積量がどれくらい広いのかを見ます。値は最大が1で、当てずっぽうでも0.5になります。全体の正解率だけでは判断できない偏りをチェックし、バランスよく当てられているかがわかります。

はじめに

単語欄

用語10 ニューラルネットワーク

用語11 正解率と再現率・適合率

用語12 AUC

用語10　ニューラルネットワーク

用語11　正解率と再現率・適合率

用語12　AUC