|
|
|
|
|
ニューラルネットワークにおける強化学習の特徴を挙げると、試行錯誤的な探索(trail?and?error
search) と遅延報酬(delayed reward) の2
点になります。行動は直接的な報酬のみならず、その次の情况に影響を与え、そのことを通じて、その後に続く全ての報酬に影響を与えます。
ニューラルネットワークにおける教師あり学習は外界から与えられる教師信号によって自らの行動を適応させていきます。例えや規範となるものからの学習になります。例からの学習も重要な要素の1つですが、相互作用を介した学習では未知の問題領域で学習者自らが経験から学ぶ必要があります。教師あり学習では、与えられた入力に対して最初はランダムな結合係数によって答えを出し、その答えを教師信号の示す方向に変化させていきます。この意味では結合係数によって定義される空間の探索を行なっていると見なすことができます。
一方、強化学習では自身の取りうる行動のレパートリーの中から最適な行動を探索していると見なすことができます。強化学習には、他の手法と異なる抽象的な概念?ポリシー、プランニング、価値関数、報酬関数、環境のモデルなどを直接取り扱う事です。 ポリシーはある時点での学習者の振舞い方を定義する確率として扱われます。報酬関数は目標を定義します。強化学習者(エージェント)
の目的は最終的に受け取る総報酬を最大化することになります。価値関数は最終的に何がよいのかを指定します。
ある状態の価値とは、エージェントがその状態を起点として将来にわたって蓄積することを期待する報酬の総量となります。人間にたとえれば報酬は喜びや苦痛のようなものでありますが、価値は我々の環境が特定の状態にあるとき、どれだけ満足あるいは不満であるかに関して、もっと洗練された長期的観点からの判断に相当します。すなわちエージェントはもっとも高い報酬ではなくもっとも高い価値、多くの場合に総報酬量の関数として定義される価値を持つ状態につながるような行動を見つけ出そうとするわけになります。
強化学習が他のタイプの学習ともっとも異なる特徴は正しい行動を直接与えて教示する のではなく、実行した行動の評価を訓練情報として利用することなのです。従って、よい行動を直接探索するために試行錯誤による能動的な探索が必要になります。行なった行動がどれくらい良いのかが知らされたり、それが可能な行動の中で最良または最悪であるかについては知らされる事はありません。
|
|
|
|
|
|
|
|
|
|
|