はじめに
文系の皆さんがAI人材になるためのノウハウを投稿していきます。今回は文系AI人材になるための必要なAIの基礎用語も丸暗記していきましょう。少し馴染みのない言葉も出ていますが、AIのプロジェクト内でよく出てくる順で用語を絞っていますので、しっかり学習していきましょう。
単語欄
- 学習と予測
- 教師あり学習と教師なし学習
- 目的変数と説明変数
- アルゴリズム
- 過学習
- アノテーション
- 時系列モデル
- データ前処理
- PoC
- ニューラルネットワーク
- 正解率と再現率·適合率
- AUC
用語10 ニューラルネットワーク
ニューラルネットワークは、ディープラーニングのベースとなる仕組みで、人間の脳の神経細胞(ニューロン)を模して作られたものです。入力層、隠れ層、出力層に分かれており、まず入力層でたくさんの情報を受け入れます。その後、多層になっている隠れ層にデータを渡すのですが、学習を繰り返すことによって、隠れ層を通っていく情報が重要であれば太くなったり、重要でなければ細くなり、重要度を加味しながら伝達されていきます。隠れ層から出力層に至るまでの間に、情報の太さ。細さのコントロールによって、正しかろうことを答えとして導き出していきます。
用語11 正解率と再現率・適合率
予測系AIの精度を評価するにあたっては、いくつかの指標があります。
まず、もっともシンプルな精度評価指標は、「正解率」です。これは「全体としての予測と答えの一致率」で、単純な計算方法で出されます。たとえば「ある人が買うか買わないかを予測させるAI」の場合、100人のうち、70人分を正解できたら、正解率は
70÷100=70%
です。「ある人が買うか買わないかを予測させるAI」を実際に利用する際に、もし「買わない人」ばかりを当てて、「買う人」を当てることができなかったらどうでしょう? 現場においては役に立たないAIになってしまうはずです。こういった偏りを防ぐために、全体としての正解率以外の指標もチェックしましょう。
予測の偏りをチェックするものとしてまず「再現率」があります。「再現率」は「答えが正の中で予測も正とされた率」です。買う人を正とした場合、実際に買った人が40人いたとして、予測で買うとした人がそのうち30人いたとしたら、買う人の再現率は
30÷40=75%
になります。たとえば重い病気の予測をするAIだった場合、病気の見逃しができるだけ起こらないことが重視されます。その際は、この「再現率」が重要になります。怪しきをできるだけ疑え、といった方針のときに重要になる指標です。
また、「適合率」は「予測を正と判断した中で答えも正であった率」です。買うと予測した人が50人いたとして、実際に買った人が30人だったら、買う予測の適合率は、
30÷50=60%
となります。たとえば映像識別AIで万引きを検出するシステムを作った場合、万引きしたと検出した人が50人で、実際に万引きしていた人が10人だったとすると、適合率は20%となります。この場合、疑いをかけられた如人からは大きなクレームが出ることでしょう。こういったケースでは「適合率」を注視しなければいけません。
- 正解率:全体としての予測と答えの一致率
- 再現率:答えが正のなかで予測が正とされたもの
- 適合率:予測を正と判断した中で答えが見つかったもの
用語12 AUC
AUCはArea Under the Curveの略で、どれくらいバランスよく予測を当てられているかを測る指標です。再現率や適合率とともに偏りチェックのために使いましょう。
AUCでは、まず、True Positive Rate(再現率)と False Positive Rate(「陰性」のもののうち「陽性」と誤って予測した割合)を測ります。ここでいう「陽性」は「買う」、「陰性」は「買わない」などになります。そして、この2つの縦軸と横軸で曲線を描いて、その面積量がどれくらい広いのかを見ます。値は最大が1で、当てずっぽうでも0.5になります。全体の正解率だけでは判断できない偏りをチェックし、バランスよく当てられているかがわかります。