はじめに

文系の皆さんがAI人材になるためのノウハウを投稿していきます。今回は文系AI人材になるための必要なAIの基礎用語も丸暗記していきましょう。少し馴染みのない言葉も出ていますが、AIのプロジェクト内でよく出てくる順で用語を絞っていますので、しっかり学習していきましょう。

単語欄

  1. 学習と予測
  2. 教師あり学習と教師なし学習
  3. 目的変数と説明変数
  4. アルゴリズム
  5. 過学習
  6. アノテーション
  7. 時系列モデル
  8. データ前処理
  9. PoC
  10. ニューラルネットワーク
  11. 正解率と再現率·適合率
  12. AUC

用語10 ニューラルネットワーク

ニューラルネットワークは、ディープラーニングのベースとなる仕組みで、人間の脳の神経細胞(ニューロン)を模して作られたものです。入力層、隠れ層、出力層に分かれており、まず入力層でたくさんの情報を受け入れます。その後、多層になっている隠れ層にデータを渡すのですが、学習を繰り返すことによって、隠れ層を通っていく情報が重要であれば太くなったり、重要でなければ細くなり、重要度を加味しながら伝達されていきます。隠れ層から出力層に至るまでの間に、情報の太さ。細さのコントロールによって、正しかろうことを答えとして導き出していきます。

         

用語11 正解率と再現率・適合率

予測系AIの精度を評価するにあたっては、いくつかの指標があります。

まず、もっともシンプルな精度評価指標は、「正解率」です。これは「全体としての予測と答えの一致率」で、単純な計算方法で出されます。たとえば「ある人が買うか買わないかを予測させるAI」の場合、100人のうち、70人分を正解できたら、正解率は

70÷100=70%

です。「ある人が買うか買わないかを予測させるAI」を実際に利用する際に、もし「買わない人」ばかりを当てて、「買う人」を当てることができなかったらどうでしょう? 現場においては役に立たないAIになってしまうはずです。こういった偏りを防ぐために、全体としての正解率以外の指標もチェックしましょう。

予測の偏りをチェックするものとしてまず「再現率」があります。「再現率」は「答えが正の中で予測も正とされた率」です。買う人を正とした場合、実際に買った人が40人いたとして、予測で買うとした人がそのうち30人いたとしたら、買う人の再現率は

30÷40=75%

になります。たとえば重い病気の予測をするAIだった場合、病気の見逃しができるだけ起こらないことが重視されます。その際は、この「再現率」が重要になります。怪しきをできるだけ疑え、といった方針のときに重要になる指標です。

また、「適合率」は「予測を正と判断した中で答えも正であった率」です。買うと予測した人が50人いたとして、実際に買った人が30人だったら、買う予測の適合率は、

30÷50=60%

となります。たとえば映像識別AIで万引きを検出するシステムを作った場合、万引きしたと検出した人が50人で、実際に万引きしていた人が10人だったとすると、適合率は20%となります。この場合、疑いをかけられた如人からは大きなクレームが出ることでしょう。こういったケースでは「適合率」を注視しなければいけません。

  • 正解率:全体としての予測と答えの一致率
  • 再現率:答えが正のなかで予測が正とされたもの
  • 適合率:予測を正と判断した中で答えが見つかったもの

用語12 AUC

AUCはArea Under the Curveの略で、どれくらいバランスよく予測を当てられているかを測る指標です。再現率や適合率とともに偏りチェックのために使いましょう。

AUCでは、まず、True Positive Rate(再現率)と False Positive Rate(「陰性」のもののうち「陽性」と誤って予測した割合)を測ります。ここでいう「陽性」は「買う」、「陰性」は「買わない」などになります。そして、この2つの縦軸と横軸で曲線を描いて、その面積量がどれくらい広いのかを見ます。値は最大が1で、当てずっぽうでも0.5になります。全体の正解率だけでは判断できない偏りをチェックし、バランスよく当てられているかがわかります。