AI関連の知識を深める【教師あり・教師無し・強化学習】

はじめに

文系の皆さんがAI人材になるためのノウハウを投稿していきます。

今回はAI技術を勉強していく中でよくでる

教師あり学習
教師無し学習
強化学習

にの意味について解説します。これからAI学習を始めるという方はぜひ知ってほしい内容となってます。

学習方式の3分類

ディープラーニングを含む機械学習は、「学習」により特定のタスクを実行できるようになるAIです。この「学習」をさせる方式でAIを次の3つに分類することができます。

教師あり学習
教師なし学習
強化学習

教師あり学習　～「答えあり」学習と覚える～

教師あり学習では、正解/不正解などの「答え」があるデータで学習します。教師あり学習は、「答えあり」学習と覚えればよいでしょう。教師あり学習(答えあり学習)ではどのように学習させるのか具体的に見ていきます。

たとえば、車の写真を用いてディープラーニングに学習させるとしましょう。

トヨタ車の写真
フォード車の写真
アウディ車の写真

まず、3つのメーカーの車の写真をとにかくたくさん集めます。トヨタ車の写真は1つ目のフォルダ、フォード車の写真は2つ目のフォルダ、アウディ車の写真は3つ目のフォルダに整理して入れてあげて、それぞれの写真がどのメｰカーなのか、「答え」がわかる状態にしてあげます。

このあらかじめ答えがわかるように整理をしてあげたデータによって学習させるのが教師あり学習(答えあり学習) です。
この学習法により出来上がったAIモデル(学習により法則化したものをこう呼びます)は、知らない写真を読み込んでどのメーカーの車かを当てることができるようになります。

今回の例の場合は、トヨタ車かフォード車か、はたまたアウディ車か、それ以外の車かを当てることができるAIになります。さらに、教師あり学習には「分類」「回帰」の2つのタイプが存在します。

分類タイプ

いくつかの答え(選択肢)に対して、どれに適応するかどうか当てるタイプ。たとえば

車の画像から該当する30種類の車メーカーを当てる
人の写真から年齢が何十代にあてはまるかを当てる
ECサイトで、ある人が購入するか/購入しないかを当てる

などがあります。

回帰タイプ

選択肢の中から該当するものを当てにいくのではなく、数値を当てにいくタイプです。たとえば

車の画像から走行距離を当てる
人の写真から年齢がジャスト何歳なのかを当てる
ECサイトの来月の売上がいくらになるかを当てる

などがあります。

教師なし学習～「答えなし」学習と覚える～

教師あり学習は答えあり学習と覚えましょうといいましたが、逆に、教師なし学習は「答えなし」学習と覚えましょう。想像はつくと思いますが、教師なし学習は、正解/不正解などの「答え」がないデータで学習させることをいいます。

たとえば、複数の車の写真を特に分類もなく、たくさん用意します。なんの分類も用意しない、言い換えると答えのないデータを機械学習に渡して学習させます。その結果できたAIモデルに、「3つに分けるとしたらどんな集合が作れる?」という問いを投げかけると、「こんな集合に分けることができました」という出力を返してきます。

たとえば、車のカラーに特徴が出ている3つの集合や、SUVや軽自動車など形から特徴をとらえて3つの集合を作ってきます。なお、作られた集合がどのような意味をもつかはAIは返してくれず、あくまで機械の自己解釈による集合作りになります。

なお、AIの自己解釈による集合作りを「クラスタリング」と呼びます。教師なし学習は、どの観点で集合を分けているのかが言語化されず、人による解釈が難しい場合があります。機械学習を使い始める際は、できるだけ答えのデータが用意できる状態でスタートし、教師あり学習から始めるのがおすすめです。

強化学習　～「よい選択を繰り返させるための」学習～

強化学習は、教師あり学習と似ていて「答え」のあるデータで学習をさせますが、教師あり学習とは異なるアプローチで学習させます。教師あり学習が、単一的でシンプルに判断できる「答え」を対象とする学習なのに対し、強化学習は、よい選択を繰り返させるための学習です。

言い換えると、複数の選択の組み合わせにより、結果として出る総合的な「答え」(結果としてのあるべき状態)に導く学習ともいえます。

強化学習では、結果としてのあるべき状態を目指して、適切な選択を何度も繰り返し、報酬と罰を与えながら学習することで最終的にもっともよい状態を作ろうとします。

たとえば、「試験問題のある1問を解けるようにする」のが教師あり学習で、「毎日の勉強を適切に行なっていき、志望校に合格できるようにする」のが強化学習である、といえばイメージしやすいでしょうか。

そして、強化学習においては、「エージェント」と「行動」と「環境」という考え方があります。

エージェントは「行動を選択」することで「環境」から報酬を得る。

こう述べると少し硬い説明になりますが、志望校に合格するというあるべき姿を目指す例に置き換えてみるとわかりやすいです。

「受験生(エージェント)」は「勉強を適切に行なう (行動を選択)」ことで「受験の世界(環境)」から合格に近づくという報酬を得る。受験の世界(環境)からプラスの報酬を受け取る、つまり受験における実力がついていくことによって、志望校に合格するという方向に向かわせていきます。このように結果としてのあるべき姿に近づく可能性を最大にするのが強化学習です。また、行動として適切な選択をしなかった場合は、報酬の代わりに罰が与えられ、結果としてのあるべき状態から遠のくことになります。

強化学習のアプローチがとられているのは次のようなテーマです。

自動運転
ロボットの制御
囲碁や将棋などのAI

以上が学習方式の分類について学んできました。次回はAIの活用方法を紹介しますので、ぜひご一読ください。