|
|
|
|
|
ニューロネットワークではコンピュータのように事前にプログラムを組むのではく、ニューロネットワーク自体が自ら学習することができます。次の3つに学習方法が存在します。この3つの学習方法があり、我々が実際に脳を使って学習する場合にもまったく同じように考える事ができます。
1.教師あり学習 これは小脳の誤差信号をもとにした教師あり学習になります。問題と解答を教えてもらいながら学習します。学校での授業のような感じの学習です。
2.教師なし学習 大脳皮質は、信号の統計的性質をもとにした教師無し学習に対応します。データだけを受けとりもっともらしく分類したりします。データにはラベル(教師)がついていません。クラスター分析などが当てはまります。
3.強化学習 この強化学習は大脳基底核と密接な関係があり、報酬をえるための行動などの、目的志向行動を起こし、試行錯誤を繰り返し数値化された報酬信号を最大にする事を目指します。何をするべきかを目指し、学習していく教師なしの学習です。学習はエージェントと呼ばれる学習、意思決定を行うものと環境との相互作用によって進んでいきます。
ニューラルネットワークの強化学習の特徴は問題の答(最善の行動)は指定しなくてかまいません。
行動に対して報酬を設定します(取って欲しい行動に報酬を多く)。 エージェント(行動を取る何か)は多くの報酬を得ようとします。
エージェントは目の前ではなく全体で多くの報酬を得ようとします。
エージェントが学習を繰り返すとやがて最善の行動に近い行動が取れるようになります。
ニューラルネットワークと強化学習 ニューラルネットワークではこの手法で強化学習が可能です。ところが実際にやろうとすると素直にできないことがわかります。強化学習では状態の価値をエージェントが求めていくことで、最善の行動がわかるわけですが、1回その状態の価値を計算したからといって100%信頼できません。なぜならその状態に遷移できるルートが1通りとは限らず複数ある可能性があるからです。
それでは母親の模倣をするような学習は教師あり学習なのでしょうか。例えば母親から言葉を習う場合はどうでしょうか。もし教師あり学習だとすると、母親の発音の音と自分の発音の差をフィードバック得て、母親の発音になるべく近くなるように学習する事になります。こういった方法をとるためには、母親からのフィードバックが誤差信号に変換されなければなりません。ここには、複雑な知覚問題が存在することになる。ここで大変に複雑な知覚の問題が存在しますが、母親の発音と自分の発音の誤差を知るのは難しい事は分かります。
母親の言葉を模倣するというのはいかにも母親を教師とする教師あり学習みたいに見えますが、そうではないようです。幼児って母親の発音をずっと聞いている訳でありません。母親が話しても自分の発音との差を知る事ができません。それは言語は相対音感であり、他の動物のように同じ周波数で話す事はできません。
子供は最初から大人の周波数とは違いますから、取り敢えず発音してみる、そして相手に通じるか、また自分で聞いて良いのではないかの判断も必用になります。すると言語を話すには強化学習は目標指向型の学習である事が分かります。つまり、ある目標があってそれを達成すれば報酬が与えられて嬉しくなります。そして、その報酬を得るためにはどう行動すればよいかを試行錯誤を通して探すのが目的になります。
言葉の発音では発音してみて、報酬を得られると考えられます。この場合の報酬は多分、自分の発音した言葉が通じるかどうか、あるいは母親が褒めてくれるとかにあたります。すると言語の習得は最初は母親や回りの人の発音を見本として使っていますが、その発音を完成させるのは報酬を得るための強化学習そのものになります。
|
|
|
|
|
|
|
|
|
|
|