Your SlideShare is downloading. ×
全脳アーキテクチャ若手の会 強化学習
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

全脳アーキテクチャ若手の会 強化学習

325
views

Published on

全脳アーキテクチャ若手の会 強化学習

全脳アーキテクチャ若手の会 強化学習

Published in: Technology

0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
325
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
13
Comments
0
Likes
4
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • 参考:日経コンピュータ
    http://itpro.nikkeibp.co.jp/atcl/news/15/020900464/
  • http://withnews.jp/article/f0150226003qq000000000000000W00b0901qq000011569A
  • http://withnews.jp/article/f0150226003qq000000000000000W00b0901qq000011569A
  • http://withnews.jp/article/f0150226003qq000000000000000W00b0901qq000011569A
  • 脳へのアプローチということで、脳のお話から現在の機械学習技術、強化学習技術をざっくりとお話しします。
  • 前頭葉:理性、運動(理性が保てない)
    頭頂葉:体性感覚(体の痺れ)
    側頭葉:記憶、触覚、嗅覚
    後頭葉:視覚
  • 全か無かの法則
  • マカロック、ピッツモデル (ステップ関数 0 or 1)
  • なんだできてんじゃん?

    パーセプトロンがRosenblatt
    バックプロパゲーションはRumenhert 1986
  • この間は、サポートベクターマシンであったり、反教師有り学習がブームになってた
  • 最新研究ではgoogleが同じタスクで5%切っている
  • ヴォロジミール

    Atari

    210*160pixel を84*84*3にサンプリング

    ※ 最適行動価値関数は
      人間に実際に制限された環境の中でゲームをさせて、
      より人間的なら「1」に近い報酬、ランダムな動きなら「0」の報酬を与えることによって算出

    時系列データを扱っている為、関数近似の必要性:
    パラメータベクトルθを導入し、それを近似することによって実現

    experience replay : エージェントがそれまでに行った経験をデータとして貯め込み、ランダムサンプリングして重み更新を行う


  • お断り:Deep Learningの話ではありません
  • 4本あるので4回以上は引けます。
  • この場合であれば、Aをガシャンガシャン引きまくるという「行動」が「欲張り」
  • 後に続く報酬が分かる「モデルベース」
  • 分布や状況が全く分からない「モデルフリー」
  • Boltzmann分布に従う

    レバーの引き方は、この後方策オン型モンテカルロ法やQ学習にもつながってくる

    脳どこいった?
  • サルでの実験
    遅延報酬
  • ①http://miuse.mie-u.ac.jp/bitstream/10076/13555/1/2012D007.pdf
    三重大学大学院

    パーキンソン病:ふるえ、筋肉の硬直などが起こる
    黒質から線条体へ分泌されるドーパミンが出なくなってしまう事から
  • CNNなど
  • 教師有 : 与えられた正解に関数を近似する
    なし: 与えられた分布の統計的な性質を見る
    強化: 直接正解は与えられないが、どの程度良かったかを環境から入手
  • おことわり
    方策π :::π(A,down)と記載するのが本来正しい。 
    方策πは確率分布であるため。
    直観的な理解をしていただくための記法だと思ってください。
  • 全部が全部 : 非マルコフ
  • k-armed banditであれば 「どの腕を引けばよいか」が予めわかっている状態
  • ④の処理をかませることで、更新される
  • フルバックアップが必要:即ち、後に続く状態の完全な分布が必要となる
  • 判断基準;
    エージェントは「どうすればゴールに辿り着けるか」という環境のダイナミクスを知らない為
    「出口にいるかいないか」という事でしか評価ができない
  • Aではrightへ行くよりもdownをした方がよい! とエージェントが学ぶ
  • P94アルゴリズム

    探索は有限回で打ち切る
  • ランダムで、全ての状態行動対を評価しなければならない 
  • 探索が不十分。
    ここに辿り着いた報酬だけで終えてしまう問題。 :実用上は有限回で切る 

    見つかった後に「ほんとにこれでいいのか」と判断するのは人間

    ゴールに来たという報酬だけじゃ
  • とりあえず、greedyな選び方(より報酬が高い方高い方へ流れて行きすぎないようにすればOK)
  • とりあえず、greedyな選び方(より報酬が高い方高い方へ流れて行きすぎないようにすればOK)
  • 状態数の期待値として定義   A(s)が分母に来てる理由
  • ∑Q(s,a) の部分だけは行動後に決まる。 
  • 本来は異なった瞬間、それ以降すべてのエピソードについて評価し、argmax(a) Q(s,a) なる方策を考える
  • 式・・・
  • 行動前の値と行動後の値 V(s)との誤差をどんどん減らしていく
  • モンテカルロは腕の分岐の組合せに厳しい
  • s’に移動してからsの状態価値を更新する。Temporal Difference と言われる所以
  • 初期化時はV(s)=0 γ=1
  • αb + α{c+γαb-αb}
  • αb + α{c+γαb-αb}
  • なぜ方策オフか?
    現在行っている方策とは関係なしに、常に最大の行動価値を選択しながら行動価値関数を更新しているから
  • Q学習するためには、「自分がある行動を取ったとして、その時に自分の状態がどうなるか」
  • s’に移動してからsの状態価値を更新する。Temporal Difference と言われる所以
  • 初期化時はV(s)=0 γ=1
  • 初期化時はV(s)=0 γ=1
    簡略化のため、BとCの行動価値関数はすでに理解しているものとする(本来は経験によって得るもの)
  • 初期化時はV(s)=0 γ=1
    簡略化のため、BとCの行動価値関数はすでに理解しているものとする(本来は経験によって得るもの)
  • 動的計画法:フルバックアップ         :後に続く状態の完全な分布が必要
    モンテカルロ、TD、Q:サンプルバクアップ  :                  不要
  • 銅谷先生の本には「オタマジャクシみたいな尾状核、ハマグリみたいな被殻」とあった・・・

    ピンクの部分は側坐核 ここも報酬に関与している??(不明)
  • 赤:興奮性 青:抑制性

    黒質緻密部からドーパミンを放出することによって興奮
  • 赤:興奮性 青:抑制性
    どっちがどっちだ… 入力ー○出力
  • 赤:興奮性 青:抑制性

    黒質緻密部からドーパミンを放出することによって興奮


  • 上:学習前 下:学習後
  • 上:学習前 下:学習後
  • 左に倒すと90%で
  • 赤:興奮性 青:抑制性

    黒質緻密部からドーパミンを放出することによって興奮
  • BartoらのActor-Critic モデルなどがベースになっている
  • BartoらのActor-Critic モデルなどがベースになっている
  • 方策は確率過程(ボルツマン分布)
    最適状態価値関数V*の推定

    真の分布が不明なので、Vを最大にするようなθを仮定し、最尤推定を行っている
  • Atari

    210*160pixel を84*84*3にサンプリング
    最初の2層で有用な特徴量を抽出


    ※ 最適行動価値関数は
      人間に実際に制限された環境の中でゲームをさせて、
      より人間的なら「1」に近い報酬、ランダムな動きなら「0」の報酬を与えることによって算出

    時系列データを扱っている為、関数近似の必要性:
    パラメータベクトルθを導入し、それを近似することによって実現

    experience replay : エージェントがそれまでに行った経験をデータとして貯め込み、ランダムサンプリングして重み更新を行う

  • MITの研究
  • 強化学習を使う場合は、問題を強化学習
    自律的に正解を見つけていく場面であればよい

    対応があればいい、というだけであれば教師有り学習
  • Transcript

    • 1. 全脳アーキテクチャ 若手の会 勉強会 後援:ドワンゴ人工知能研究所 強化学習 =脳へのアプローチ= 法政大学 理工学部 応用情報工学科 川崎 雄介 yusuke.kawasaki.hosei@gmail.com
    • 2. 自己紹介 川崎 雄介 – 所属:法政大学 理工学部 – 出身:東京都 八丈島 – 研究:植物病自動診断 – 特技:少林寺拳法 2
    • 3. 身近になった人工知能 • Pepper (Aldebaran Robotics,Softbank 社 ) – 人間の声のトーンなどから感情認識 • 将棋電王戦 (niconico) – 人間 vs コンピュータでの将棋 – 人間1勝、コンピュータ4勝 (2014第3回) 3
    • 4. 身近になった人工知能 • 総務省 2015年2月 – インテリジェント化が加速する ICTの未来像に関する研究会 – 2045年問題に関する議論 人工知能が人間並みの知能を持つようになる?地点 – 政府機関によるこういった会議は異例 4
    • 5. 最近、こんなことが話題に • グーグル開発の人工知能DQN ネットでは「命名事故?」「奇跡的」 (2015年 2月26日 withnews , 抜粋 ) 米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情 報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN (ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネッ トスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの 間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社 「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多く ありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから 対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題に ゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手 くなっていくそうです。 5
    • 6. 最近、こんなことが話題に • グーグル開発の人工知能DQN ネットでは「命名事故?」「奇跡的」 (2015年 2月26日 withnews , 抜粋 ) 米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情 報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN (ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネッ トスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの 間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社 「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多く ありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから 対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題に ゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手 くなっていくそうです。 6
    • 7. 最近、こんなことが話題に • グーグル開発の人工知能DQN ネットでは「命名事故?」「奇跡的」 (2015年 2月26日 withnews , 抜粋 ) 米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情 報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN (ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネッ トスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの 間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社 「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多く ありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから 対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題に ゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手 くなっていくそうです。 7 このメカニズムを探る
    • 8. 話題にのぼることの多くなった人工知能。 今回は「強化学習」という枠組みから 発表させて頂きます。 8 ろぼみ
    • 9. 今回の講演につきまして • 第1部 – この分野に馴染みのない方向け – ざっくりとしたお話になります(数式なし) • 第2部 – この分野(情報系)の方向け – 数式を使って、可能な限り詳説します 何度か質問コーナー挟んでいきます! 9
    • 10. 第1部 10
    • 11. 脳ってどんな構造なの? • 各部位ごとの神経のネットワーク 11 前頭葉 側頭葉 頭頂葉 後頭葉
    • 12. ネットワークの構成要素 • ニューロン(Neuron) – 脳内の神経細胞 – 入力ー処理ー出力の機構 – 強い電気信号のみに発火 12 銅谷 賢治, “計算神経科学への招待” より 細胞体 (soma) 樹状突起 (dendrite) 軸索 (axon)
    • 13. 脳を模してみよう • McCulloch-Pitts モデル [Mcculloch,Pitts , 1943] – ニューロンを真似た構造の実現 13 出力
    • 14. 脳を模してみよう • パーセプトロン [Rosenblatt, 1958] – 脳のネットワークのような構造 – 任意の識別面も表現できるように[Rumenhert,1986] 14 多層パーセプトロン
    • 15. じゃあ、何故 今になって 再注目されてきたのか 15
    • 16. しかし • 計算リソースが足りなかった! – ここにきてハードウェアの発展 • 人間の表現力が高すぎた! – 大域的な最適解を出せない 16
    • 17. しかし • 計算リソースが足りなかった! – ここにきてハードウェアの発展 • 人間の表現力が高すぎた! – 大域的な最適解を出せない 17 ここに来てそれを打ち破る技術が誕生 Deep Learning
    • 18. 機械学習の春 • 一般物体認識コンテスト [Krizhevsky et al , 2012] 大量の画像を読み込ませ 1,000種類のクラス識別問題 error率 15.3% 視覚野のような特徴を確認 18 Krizhevsky et al, “Imagenet Classification with Deep Convolutional Neural Network,” 2012
    • 19. 機械学習の春 • Googleの猫認識 [Quoc et al,2011] これが猫だと 教えずに 猫の概念を獲得 19 Quoc et al, “Building High-level Features Using Large Scale Unsupervised Learning,” 2011
    • 20. 機械学習の春 • Deep Q-Network [Volodymyr et al,2015] コンピュータに「行動則」を学ばせる 20 Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
    • 21. 本日のメイントピック 21 教師有り学習 教師なし学習 強化学習
    • 22. スロットマシン(k-armed bandit) 4本の腕がある無料スロットマシンがあります。 それぞれの腕毎に出てくる賞金が違います。 限られた回数で多くの賞金を得るためには、 どのように腕を選ぶのが良いでしょう? 22
    • 23. スロットマシン(k-armed bandit) 4本の腕がある無料スロットマシンがあります。 それぞれの腕毎に出てくる賞金が違います。 限られた回数で多くの賞金を得るためには、 どのように腕を選ぶのが良いでしょう? 23 強化学習における目標
    • 24. スロットマシン(k-armed bandit) • とりあえず一本ずつ引いてみる 24 A: 100 B: 50 C: 10 D: 1
    • 25. スロットマシン(k-armed bandit) • とりあえず一本ずつ引いてみる 25 A: 100 B: 50 C: 10 D: 1
    • 26. スロットマシン(k-armed bandit) • とりあえず一本ずつ引いてみる 26 A: 100 B: 50 C: 10 D: 1 もらえるご褒美は 多い方がいい (欲張り方策)
    • 27. スロットマシン(k-armed bandit) • もし次に出る額を知っていたら? 27 A: 100 (1) B: 50 (10) C: 10 (100) D: 1 (500)
    • 28. スロットマシン(k-armed bandit) • 1回引くたびに出る額が変わったら? 28 A: ??? B: ??? C: ??? D: ???
    • 29. 探索と知識利用 • 探索 (exploration) – 最終的に多くの報酬を貰いたい – あえて別の行動をとる 29 B
    • 30. 探索と知識利用 • 知識利用 (exploitation) – 今も貰えた ならば 次も貰える – 大きな報酬が期待できる行動をとる 30 A
    • 31. 探索と知識利用 • 探索 vs. 知識利用 – 相反する性質 – ずっと欲張らず違う腕も引いてみる – 最初は適当に、時間が経つにつれて欲張りに – レバーを引く、という行動をどう選ぶのが最適? 31
    • 32. 強化学習と脳? • 大脳基底核 – 大脳皮質の内側の器官 – ここが強化学習に 関わっているのでは? 2部の後半で 紐解いていきます 32
    • 33. 強化学習で何ができそうか? • 被災地の復興支援ロボット – 自ら危険なところを回避し人を探す、情報を送る • 介護ロボット – 介護の現場での運用 • 病気の解析 – コンピュータでシミュレート出来るか? – パーキンソン病などの治療への足掛かり? 33
    • 34. 第1部のまとめ • 人工知能分野の春 – 計算資源確立、ヒトの表現力の突破 • 脳と似た振舞いを持つ? – コンピュータも脳のような振舞いを見せた • 強化学習の導入 – 多くのご褒美を得ることが目標 – k-armed bandit問題 34
    • 35. 宣伝 ★ 全脳アーキテクチャ若手の会 全脳アーキテクチャ達成に貢献することが本会の目的です。 研究者のみならず、専門外の方でも積極的に ご参加いただき、多くの方が自分なりに力を 発揮していただける環境を作っていきたいと思っています。 ホームページ:http://wbawakate.jp/ facebook:https://www.facebook.com/groups/713921892010595/ 35
    • 36. 第2部 36
    • 37. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 37
    • 38. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 38
    • 39. 強化学習の位置づけ • 教師あり学習 – 正解付のデータから規則を算出 – ILSVRC2012 (一般物体認識) • 教師なし学習 – 膨大なデータから規則を算出 – Googleの猫認識 • 強化学習 – ある行動に対する「ご褒美」から規則を算出 – Deep Q Network 39
    • 40. 用語の定義 • エージェント(agent) – 動作する主体のこと – 人間、ロボット、etc 40
    • 41. 用語の定義 • 環境(environment) – エージェントが動作する空間のこと 41 環 境
    • 42. 用語の定義 • 状態(states) – 現在エージェントが置かれている状態 – :時刻tでの状態 42 環 境
    • 43. 用語の定義 • 行動(action) – エージェントが環境に対して働きかける動作 – :時刻tでのエージェントの行動 43 環 境
    • 44. 用語の定義 • 報酬 (rewards) – 取ったその行動がどの程度良かったか 44 環 境
    • 45. 用語の定義 再び状態が与えられ、行動選択に戻る このループ 45 環 境
    • 46. 用語の定義 • 方策(policy) – ある状態においてのエージェントの行動規則 – :状態sで行動aをとる確率 46 環 境
    • 47. • 以下本発表においては – s:任意の状態 – a:任意の行動 – π :任意の方策 – t:ステップ数 – Pr:確率 – P:確率の集合 – R:報酬の集合 – A:行動の集合 47
    • 48. 具体的に 状態s:A~F 行動a:{down,right} 方策 π :(A, down ) (C, right ) 報酬r: Cが持つ価値 (後述) 49環境 B DC E F A START GOAL
    • 49. タスクの種類 • 連続タスク (continuing tasks) – 有限時間内でタスクの終了が保障されない – ロボットの実問題への適用など • エピソード的タスク(episode tasks) – 有限時間内で1つのタスクが終了 – 迷路の解の算出など – 今回はこちらメイン 50
    • 50. マルコフ性(Markov property) • 以前までに得た情報を保持できるような過程 – 1段階前の状態からの判断で、後続の状態を 判断しても遜色がない 51
    • 51. マルコフ決定過程(Markov Decision Process) • MDP • マルコフ過程に「意思決定=行動aの選択」を 付与したもの • 強化学習全般がこの理論をベースにしている 52
    • 52. 強化学習の目標 • 累積報酬の最大化 エージェントの報酬をタスク終了時に最大にする 53
    • 53. 強化学習の目標 • 累積報酬の最大化 エージェントの報酬をタスク終了時に最大にする エージェントの 「今おかれた立場の価値」= 状態価値 「そこでの各振舞の価値」= 行動価値 を評価する 54
    • 54. 状態に価値を設定する 55 • 状態の価値? – ある状態の期待報酬 – その状態でどの程度最終的にご褒美が期待できるか
    • 55. 状態に価値を設定する 56 • 状態の価値? – ある状態の期待報酬 – その状態でどの程度最終的にご褒美が期待できるか • 状態価値関数(state-value function for policy π) 期待値
    • 56. 行動に価値を設定する 57 • 行動の価値? – ある状態である行動をすることの期待報酬 – ここでこれするとどの程度ご褒美が期待できるか
    • 57. 行動に価値を設定する 58 • 行動の価値? – ある状態である行動をすることの期待報酬 – ここでこれするとどの程度ご褒美が期待できるか • 行動価値関数(action-value function for policy π) 期待値
    • 58. 状態と行動の価値の関連性 • VとQの関係性 状態価値関数は、行動価値関数の方策固定版 「その場の状況のみで」判断するのか? 「そこでの行動も同時に」判断するのか? 59
    • 59. γ? 60
    • 60. 割引率 • 割引率(discount rate)γ – 遠い先の報酬を割引くための定数 (0 <= γ <= 1) – 0なら即時報酬のみ – 1なら先々の報酬も同様に考慮 • イメージ – 10,000円を今貰うか? 11,000円を一年後貰うか? 61
    • 61. 強化学習の目標(再掲) • 累積報酬の最大化 エージェントの報酬をタスク終了時に最大にする 62
    • 62. 強化学習の目標(再掲) • 累積報酬の最大化 エージェントの報酬をタスク終了時に最大にする 63 価値関数を最大にする方策の発見
    • 63. Bellman方程式 64 • 累積報酬= 即時報酬+その先の期待報酬 と解釈したもの つまり以下で定式化できる
    • 64. Bellman方程式の再帰性 65 s: 現在の状態 s’ : 次の状態 a: 行動 P : 状態sで行動aを取ってs‘に遷移する確率集合 R : 〃 報酬集合 π(s,a): 状態sで行動aを取る確率
    • 65. Bellman方程式の再帰性 66 即時報酬 期待報酬 即時報酬 期待報酬 V、Qの再帰的表現
    • 66. 1節まとめ • 強化学習の目標 – 累積報酬の最大化 価値関数の設定 • マルコフ性 – 得られるものは全て以前までの情報の集大成 67
    • 67. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 68
    • 68. 動的計画法とは? 69 • 動的計画法(Dynamic Programming) – 環境の完全なモデルを持つ(モデルベース) – 後続の価値を現在の価値に従って更新 – 厳密な最適解 が求まる (理論的には) – ベルマン方程式を厳密に解く方法
    • 69. モデルベース 70 • イメージ:地図を持っている! そこへ至る経路や報酬は既知 あとは最適経路を計算するだけ! B DC E F A
    • 70. 動的計画法の流れ ① 各状態、その状態で取りうる方策の初期化 ② ある方策を選ぶ ③ 各状態においての状態価値を ひたすら 計算 ④ 方策が最適か確かめる 71
    • 71. 動的計画法の流れ ③ 各状態においての状態価値を ひたすら 計算 ④ 方策が最適か確かめる (よりよい方策が無いか?) 72
    • 72. 方策改善定理 • ある方策と価値関数を考える – よりよい価値が得られるように更新 73 greedy方策 ④の更新式と同値 改善後方策
    • 73. greedy方策 • より多くの報酬を得ようとする行動選択法 74 s0 s1 s2 10 20 20 10 緑 緑
    • 74. greedy方策 • より多くの報酬を得ようとする行動選択法 75 s0 s1 s2 10 20 20 10 赤 緑
    • 75. 方策改善定理 • ある方策と価値関数を考える – よりよい価値が得られるように更新 – 必ず最適解に収束すると知られている 76
    • 76. 動的計画法の流れ ① 初期化 A~Fの価値を 任意の値で初期化 77 B DC E F A
    • 77. 動的計画法の流れ ② 方策選択 どのようにFに 辿り着くかを選ぶ (赤が最適とします) 78 B DC E F A
    • 78. 動的計画法の流れ ② 方策選択 方策緑を選ぶ (A,right) (B,down) (D,down) 79 B DC E F A
    • 79. 動的計画法の流れ ③ 計算 ②の方策に従い、 全ての状態価値を計算 (方策上ありえない 箇所も計算する) 80 B DC E F A
    • 80. 動的計画法の流れ ④ 確認 選んだ方策は本当に greedyな方策か 否! 81 B DC E F A
    • 81. 動的計画法の流れ ② 方策選択 方策赤を選ぶ (A,down) (C,right) (D,down) 82 B DC E F A
    • 82. 動的計画法の流れ ③ 計算 同様に全て計算 この際、方策 緑 の 計算結果を利用する 状態CではDの状態価値が 利用できる 83 B DC E F A
    • 83. 動的計画法の流れ ④ 確認 選んだ方策は本当に greedyな方策か 是! 84 B DC E F A
    • 84. 動的計画法の流れ ようやく移動。 85 B DC E F A
    • 85. バックアップ線図(Backup Diagram) 更新時に関わる情報を 図式化したもの :状態s :行動a :各sの更新時 必要な情報の 範囲 86 A B C D F D F E F
    • 86. 動的計画法のバックアップ線図 87 A B C D F D F E F :状態s :行動a :各sの更新時 必要な情報の 範囲
    • 87. 動的計画法のバックアップ線図 88 A B C D F D F E F :状態s :行動a :各sの更新時 必要な情報の 範囲
    • 88. 動的計画法の難点 • 必ず最適解に辿り着くけど・・・ • 計算量が多い! – 状態数が増えると現実的には計算不可 • モデルを持たないと使えない! – 実際はそれがふつう – モデルなしで知的な エージェントを実現したい 89
    • 89. モンテカルロ法とは? 90 • モンテカルロ法(Monte Carlo method) – 環境のモデルを一切持たない(モデルフリー) – 「エピソード」を多数生成し、試行錯誤する – 方策オン/オフ
    • 90. モデルフリー 91 • イメージ:情報なにもなし! 何もわからない ので とりあえず行ってみるしかない 判断基準は「ゴールにいるか」 ただひとつ B DC E F A
    • 91. エピソード • エピソード(episode) – 始点から終点までの状態s、行動a、報酬rの列 92 B DC E F A A→r→b→B→d→d→D→d→f→F
    • 92. 動的計画法 vs モンテカルロ法 • 動的計画法 – 「先読み」が可能 – 次に貰える報酬と、次の状態が利用可能! – 「今の状態価値」だけで十分 • モンテカルロ法 – 「先読み」が不可 – 「今の状態価値」+「そこでとる行動」セット評価 93
    • 93. モンテカルロ法の流れ 94 以下を繰り返す ① エピソードを生成 ② エピソード中の「ある状態のある行動」 についての報酬を積算、平均 ③ 各状態で が最大となる方策を選ぶ
    • 94. モンテカルロ法の流れ ① エピソード生成 95 B DC E F A A→r→b→B→d→d→D→d→f→F
    • 95. モンテカルロ法の流れ ② 報酬の積算、平均 96 B DC E F A (b+d+f)/3 (b+d+f)/3 (b+d+f)/3
    • 96. モンテカルロ法の流れ ③ 最大の行動価値に 従って方策の更新 97 B DC E F A (b+d+f)/3 (b+d+f)/3 (b+d+f)/3
    • 97. モンテカルロ法の流れ ① エピソード生成 98 B DC E F A (b+d+f)/3 (b+d+f)/3 (b+d+f)/3 A→d→c→B→r→d→D→d→f→F
    • 98. モンテカルロ法の流れ ② 報酬の積算、平均 99 B DC E F A (b+d+f)/3 (b+d+f)/3 (b+d+f)/3(c+d+f)/3 (c+d+f)/3 (c+d+f)/3
    • 99. モンテカルロ法の流れ ③ 最大の行動価値に 従って方策の更新 緑より赤の方が 良い報酬! 100 B DC E F A (b+d+f)/3 (b+d+f)/3 (b+d+f)/3(c+d+f)/3 (c+d+f)/3 (c+d+f)/3
    • 100. モンテカルロ法のバックアップ線図 101 A B C D F D F E F :状態s :行動a :各sの更新時 必要な情報の 範囲
    • 101. モンテカルロ法のバックアップ線図 102 A B C D F D F E F :状態s :行動a :各sの更新時 必要な情報の 範囲
    • 102. 103 A B C D F D F E F A B C D F D F E F 動的計画法 モンテカルロ法
    • 103. ホントにいいのか? • 実はとんでもない仮定 「全ての状態-行動が無限回訪問される」 こんなの絶対おかしい 104
    • 104. ホントにいいのか? 105
    • 105. ホントにいいのか? • 実はとんでもない仮定 「全ての状態-行動が無限回訪問される」 106 エピソードはランダムに生成し、各回greedyな行動 実際は「もっといい行動がある」可能性があるのに 訪問しない(十分な「探索」が行われない)
    • 106. モンテカルロ法の種類 • モンテカルロES法 – 全ての状態、行動が確認されると仮定 • 方策オン型 モンテカルロ法 – 少し危ない橋を渡らせる • 方策オフ型 モンテカルロ法 – 挙動方策と推定方策 107
    • 107. モンテカルロ法の種類 • モンテカルロES法 – 全ての状態、行動が確認されると仮定 • 方策オン型 モンテカルロ法 – 少し危ない橋を渡らせる • 方策オフ型 モンテカルロ法 – 挙動方策と推定方策 108
    • 108. 方策オンと方策オフ • 方策オン型 – 行動を選ぶ方策 そのものを評価、改善 • 方策オフ型 – 行動を選ぶ方策とは別に、評価用の方策を用意 109
    • 109. モンテカルロ法の種類 • モンテカルロES法 – 全ての状態、行動が確認されると仮定 • 方策オン型 モンテカルロ法 – 少し危ない橋を渡らせる • 方策オフ型 モンテカルロ法 – 挙動方策と推定方策 110
    • 110. 方策オン型モンテカルロ • 危ない橋を渡らせる? 問題点: 更新ごと、報酬を良くしようとする為 訪問されない状態ー行動が出てくること わずかな確率でも、そのルートを選ばせたい! 111
    • 111. 方策オン型モンテカルロ • ε-greedy手法 – ある確率 ε で 非greedy方策を選ぶ – それ以外の場合にはgreedy方策を選ぶ 112
    • 112. 方策オン型モンテカルロ • ε-greedy手法 – ある確率 ε で 非greedy方策を選ぶ – それ以外の場合にはgreedy方策を選ぶ 113
    • 113. 方策オン型モンテカルロ • ε-greedy手法 – ある確率 ε で 非greedy方策を選ぶ – それ以外の場合にはgreedy方策を選ぶ 114
    • 114. 方策オン型モンテカルロ 115 非greedy greedy
    • 115. モンテカルロ法の種類 • モンテカルロES法 – 全ての状態、行動が確認されると仮定 • 方策オン型 モンテカルロ法 – 少し危ない橋を渡らせる • 方策オフ型 モンテカルロ法 – 挙動方策と推定方策 116
    • 116. 方策オフ型モンテカルロ法 • 2つの方策を考える – 挙動方策(behavior policy) π’ エージェントが可能な行動の観測を行う – 推定方策(estimation policy) π 実際にエージェントを行動させる 色々な状態ー行動を見つつ、greedyな探索が出来る! 117
    • 117. 方策オフ型モンテカルロ法 各方策を与える(状態、行動、報酬) 118 A→r→b→B→r→d→D→d→f A→d→c→C→r→d→D→d→f π π’ B DC E F A
    • 118. 方策オフ型モンテカルロ法 各方策を与える(状態、行動、報酬) 119 [ A,r,b,B,d,d,D,d,f ] この時の行動価値を両者計算 > なら方策変更 π π’ B DC E F A π’ π A→r→b→B→r→d→D→d→f A→d→c→C→r→d→D→d→f
    • 119. 2節まとめ 120 • 動的計画法(DP) – モデルベース – 各状態価値をあらかじめ全て計算 – 必ず最適解に辿り着くが 現実的ではない • モンテカルロ法 – モデルフリー – 様々な経験則から最適行動価値関数を見積もる – 方策オン型/方策オフ型
    • 120. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 121
    • 121. TD学習とは 122 • 現在の源流となる強化学習手法の 祖 – Bellman方程式の近似 – 動的計画法のように「以前の結果を利用」 – モンテカルロ法のように「環境のモデルが不要」
    • 122. TD学習とは • TD学習(Temporal Difference Learning) – その場更新型のモンテカルロ法 – 今の状態と次の状態の報酬を最大化 • α:更新率(0<α<=1) 「今を大事にするか」 α≈ 0 「次を大事にするか」 α≈ 1 123
    • 123. モンテカルロ法との違い • モンテカルロ法 – 各エピソードの報酬の和だけ見る – エピソード終端まで更新が不可 • TD学習 – 1回1回そこで得られる報酬を使う – 最短、次の状態の予測までで更新可 124 ・・・ !
    • 124. 一体何がすごいのか • 報酬と次の状態のモデルを必要としない – モデルフリー – 「次の状態」はエピソード毎に記憶する • モンテカルロ法より早い! – 問題が複雑になればなるほど、モンテカルロ法は 更新に時間がかかる (短ければ良い) 125
    • 125. TD学習の流れ ① 各状態価値 V(s) を任意に初期化 評価するπを設定 以下各エピソード毎にループ ② エピソードの各ステップ毎に ・πで与えられる行動aをとってr,s’を観測 ・s(行動前)の状態価値V(s)を更新 ・次状態 s ’へ移行 s’が終端状態なら次のエピソードへ移行 126
    • 126. TD学習の流れ ① 初期化 各状態価値を初期化 方策緑を評価 γ=1 127 B DC E F A
    • 127. TD学習の流れ ② 行動 方策π=緑に従い 行動a=rightをとる 報酬 b と次状態Bを 観測 128 B DC E F A b
    • 128. TD学習の流れ ② V(s)更新 状態価値を設定 エージェントが移動 129 B DC E F A α*b
    • 129. TD学習の流れ ② 終端まで確認 続いて方策赤を評価 130 B DC E F A α*b α*d α*f
    • 130. TD学習の流れ ② 行動 方策π=赤に従い 行動a=downをとる 報酬 c と次状態Cを 観測 131 B DC E F A α*b α*d α*f c
    • 131. TD学習の流れ 132 B DC E F A new α*d α*f ② V(s)更新 状態価値を設定 先ほどの状態価値利用 エージェントが移動
    • 132. TD学習の流れ 133 B DC E F A new α*d new ② 終端まで確認 以上繰り返して、 最適な方策を探すα*d
    • 133. DQN の Q ! • Q学習(Q-learning) – ある行動をとったら、その時の自分はどうなるか? – 方策オフ型のTD学習と考えられる – 現代の強化学習のメイン 134
    • 134. Q学習を数式で見る 135 • 行動価値関数の最適化を目指す – 1ステップごとに現在の方策を改善する – α:学習率 「今を大事に」ー「次を大事に」のTrade-off 次状態が最適な行動の選択
    • 135. TD学習とQ学習の違い • TD学習 – 状態価値に従って更新 – 方策に従って遷移した先の評価値のみ見る • Q学習 – 行動価値に従って更新 – 方策とは関係なしに、複数の評価値を見る 136
    • 136. Q学習の流れ ① 各行動価値 Q(s,a) を任意に初期化 評価するπを設定 以下各エピソード毎にループ ② エピソードの各ステップ毎に ・Qで与えられる行動aをとってr,s’を観測 ・s(行動前)の状態価値V(s)を更新 ・次状態 s ’へ移行 s’が終端状態なら次のエピソードへ移行 137
    • 137. Q学習の流れ ① 初期化 各状態価値を初期化 方策緑を評価 γ=1 138 B DC E F A
    • 138. Q学習の流れ ② 行動価値から選択 b とc どちらが良いか? 効率よく試行錯誤する 139 B DC E F A b dc e f d
    • 139. Q学習の流れ ② 行動価値から選択 方策赤におけるdとeは どちらが良いか? 効率よく試行錯誤する 140 B DC E F A b dc e f d
    • 140. 141 動的計画法 モンテカルロ法 TD学習 Q学習 モデル 必要 不要 不要 不要 主な 更新対象 状態価値関数 V(s) 行動価値関数 Q(s,a) 状態価値関数 V(s) 行動価値関数 Q(s,a) 概要 全ての状態を 総当たり計算 計算量が多い エピソードから 価値関数推測 行動選択の方法 エピソードの 1ステップ毎に 状態価値更新 次の行動報酬が 最も良くなるよ う選択 Backup Diagram
    • 141. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 142
    • 142. 強化学習と脳 • 強化学習を脳がしている? 143
    • 143. 注目箇所 • 大脳基底核(Basal Ganglia) 144
    • 144. 注目箇所 • 大脳基底核(Basal Ganglia) 145 尾状核 淡蒼球 被殻 線条体 黒質 視床下核
    • 145. 各部位の働き • 線条体 – 運動機能、意思決定 • 淡蒼球 – 報酬予測 • 黒質 – ドーパミンの放出 • 視床下核 – 運動の調整 146
    • 146. ループ構造 147 大脳皮質 ストリオゾーム マトリックス 淡蒼球外節 黒質緻密部 腹側被蓋野 淡蒼球内節 黒質網様部 視床下核 銅谷 賢治, “計算神経科学への招待” より 視床 線条体
    • 147. ループ構造 148 大脳皮質 淡蒼球外節 黒質緻密部 腹側被蓋野 淡蒼球内節 黒質網様部 視床下核 銅谷 賢治, “計算神経科学への招待” より 視床 大脳皮質~基底核ループ ストリオゾーム マトリックス 線条体 大脳皮質~基底核ループ
    • 148. ループ構造 149 大脳皮質 ストリオゾーム マトリックス 淡蒼球外節 黒質緻密部 腹側被蓋野 淡蒼球内節 黒質網様部 視床下核 銅谷 賢治, “計算神経科学への招待” より 視床 線条体
    • 149. ドーパミンニューロンの観測 • 予測と報酬の神経回路 [Schultz et al, 1997] ランプの点灯に従って レバーを操作すると ジュース(報酬)が貰える この時のサルの線条体 ドーパミンニューロンを計測 150 http://www.wakosozai.com/
    • 150. ドーパミンニューロンの観測 • 予測と報酬の神経回路 [Schultz et al, 1997] ランプの点灯に従って レバーを操作すると ジュース(報酬)が貰える この時のサルの線条体 ドーパミンニューロンを計測 151 http://www.wakosozai.com/
    • 151. ドーパミンニューロンの観測 • 報酬あり – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 152 http://www.wakosozai.com/ 学習後 学習前
    • 152. ドーパミンニューロンの観測 • 報酬あり – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 153 http://www.wakosozai.com/ 報酬の「予測」に 対して応答
    • 153. ドーパミンニューロンの観測 • 報酬なし – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 154 http://www.wakosozai.com/ 学習前 学習後
    • 154. ドーパミンニューロンの観測 • 報酬なし – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 155 http://www.wakosozai.com/ ニューロン抑制
    • 155. この実験で分かったこと • 線条体ではTD誤差のような振舞いがある? 156 実際にもらえた報酬 もらえるであろう報酬
    • 156. どのように行動選択しているのか • 行動価値の観測 [Samejima et al , 2005] サルの線条体ニューロンの観測 倒す方向によって貰える確率が変化 157 Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
    • 157. どのように行動選択しているのか • 最初はランダムに選んでいた • 次第に報酬が貰えそうな方に レバーを倒し始めた 158 Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
    • 158. どのように行動選択しているのか • 最初はランダムに選んでいた • 次第に報酬が貰えそうな方に レバーを倒し始めた 159 Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005 状態に応じて最適な行動を選んでいる?
    • 159. ループ構造 160 大脳皮質 ストリオゾーム マトリックス 淡蒼球外節 黒質緻密部 腹側被蓋野 淡蒼球内節 黒質網様部 視床下核 銅谷 賢治, “計算神経科学への招待” より 視床 線条体
    • 160. 大脳基底核のモデル化 161 鮫島和行,銅谷賢治, “強化学習と大脳基底核” 参考 大脳皮質 線条体 淡蒼球外節 黒質網様部 視床 黒質 input output
    • 161. 大脳基底核のモデル化 162 鮫島和行,銅谷賢治, “強化学習と大脳基底核” 参考 大脳皮質 線条体 淡蒼球外節 黒質網様部 視床 黒質 input output TD誤差 Q(s,a)算出
    • 162. 第2部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 TD学習、Q学習 4 脳との関連性 5 研究動向、まとめ 163
    • 163. 強化学習の応用研究 • ヘルプから適切な操作の遂行 [Branavan et al,2009] Windowsのヘルプを解釈し 見合った操作を自律的に行う 164 Click run, and press OK.
    • 164. 強化学習の応用研究 • ゲームへの応用(DQN) [Volodymyr et al,2015] ゲーム画面4フレーム分を入力 出力は動作 最初2層はCNN 最適行動価値関数Q*への近似 165 Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
    • 165. 強化学習の応用研究 • 未学習データの検出および強化学習への応用 [Osawa,Hagiwara,2015] RBM,Deep Belief Networkを用い 長期スパンでの “戦略” の立案を 可能にするようなモデルを提唱 166 状態、行動 価値判定
    • 166. まだ見えてない部分 • 脳モデルについて – マルコフ性と仮定することは適切か – モデルフリーから経験でモデルベースにしている? • 強化学習が「最も効率的」なのか? 167
    • 167. まとめ • 強化学習のアルゴリズムを紹介 – 動的計画法、モンテカルロ法 – TD学習、Q学習 – モデルベース、モデルフリー – 行動の選択(greedy, ε-greedy) • 脳との関連性を紹介 – 線条体にTD学習やQ学習のような振舞い 168
    • 168. 主な参考文献 [1] Richard S.Sutton , Andrew G.Barto , “Reinforcement Learning” , 1998 [2] 三上 貞芳, 皆川 雅章 共訳 , “強化学習”, ([1]の日本語版) [3] 銅谷 賢治, “計算神経科学への招待” , 2007 [4] 牧野 貴樹, “強化学習をベイズで理解する”, 2014 (スライド) [5] Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015 その他 多くのWeb上のスライド、記述、論文、書籍など 使用した脳の画像: 3D-brain(free) 169
    • 169. ありがとうございました! 170