はじめに
文系の皆さんがAI人材になるためのノウハウを投稿していきます。今回は文系AI人材になるための必要なAIの基礎用語も丸暗記していきましょう。少し馴染みのない言葉も出ていますが、AIのプロジェクト内でよく出てくる順で用語を絞っていますので、しっかり学習していきましょう。
- 学習と予測
- 教師あり学習と教師なし学習
- 目的変数と説明変数
- アルゴリズム
- 過学習
- アノテーション
- 時系列モデル
- データ前処理
- PoC
- ニューラルネットワーク
- 正解率と再現率·適合率
- AUC
用語1 学習と予測
「学習」と「予測」という言葉は、AIの世界で重要な意味をもつ言葉です。
- 学習とは、AIに法則性を教えること
- 予測とは作ったAIモデルにより未来・未知のものを当てること
「学習」はAIにデータを与えて法則性を見出してもらうことで、「AIモデル作り」ともいえます。「予測」は「推論」と言い換えることもできます。「AIを作る」は「AIに学習」させる行為で、「AIを使う」は「AIに予測」させる行為です。
用語2 教師あり学習と教師なし学習
「学習」は答えのあり、なしで分類します。
- 教師あり学習は「正解がある」お題での学習
- 教師なし学習は「正解がない」お題での学習
教師あり学習には主に「分類」と「回帰」の2種類があります。「分類」とは、「あらかじめ定めた区分けの中でどこに入るのか?」を当てる学習です。また、「回帰」はたとえばある日の売上高や販売個数といった数値を当てる学習になります。教師なし学習は、主に「クラスタリング」が該当します。「クラスタリング」とは、AIの自己解釈による集合作りと言い表すことができます
用語3 目的変数と説明変数
主に予測系AIにおける学習データには、大きく「目的変数」と「説明変数」が含まれます。
- 「目的変数」は、予測したい値
- 「説明変数」は、予測するための値
たとえば、ある人が買い物をするかどうか予測したい値が「目的変数」となり、買い物をするかどうかを予測するための値(過去の買い物履歴や行動履歴など)が「説明変数」になります。
用語4 アルゴリズム
アルゴリズムとは、AIが学習する際の手法のこと。最適な学習をするための手順や方法論が格納されているもの。シンプルに言い換えると「学習の手順や方法論のカタマリ」です。アルゴリズムは、どんなAIを作るかによって、得意·不得意が分かれます。たとえば、画像識別であればCNN、動画や文章などの連続性をもったデータを識別するならRNNといったように、扱うテーマによって定番のアルゴリズムがあります。アルゴリズムには、ディープラーニングの手法も複数ありますし、ディープラーニング以外の機械学習の手法も多数あります。
機械学習 | ディープラーニング |
線形回帰: データの散らばりのルールを直線と仮定し、その直線がどのようなものかを学習し値を予測 |
CNN: 畳み込みニューラルネットワーク。画像認識が得意 |
ロジスティク回帰: 線形回帰は値予測。それに対し、ロジスティック回帰は発生確率(0~1の値)を予測。 |
RNN: 再帰型ニューラルネットワーク。音声波形、動画、文章などの時系列データが得意 |
決定木: データを複数層で分岐していき、ツリー構造の分岐を作る手法 |
GAN: Generative Adversarial Network。教師用の画像を生成するモデル。類似モデルとしてVAEというものがある |
ランダムフォレスト: 決定木の集合体。複数の決定木をランダムに構構築し結果を集める。木が集まるのでフォレスト。 |
DQN: Deep Q Network, 強化学習を深層学習で行なったもの |
クラスタリング: 似たもの集合を作成する学習 |
ResNet: 残差ネットワーク。非常に深いネットワークでの高精度な学習を可能にする。 |
用語5 過学習
過学習とは、既知のデータに過剰な最適化をしてしまい知らないデータでは全然当たらない状態のことです。データが極端に偏っていたり、少なかったりした際に、学習データだけに最適化されたモデルができてしまうことがあります。過学習を防ぐには、学習データの量を増やし偏りをなくすことや、学習時の訓練データと検証データの分割のパターンを多数試して結果の平均をとるといった方法があります。