全脳アーキテクチャ若手の会強化学習

1. 全脳アーキテクチャ若手の会勉強会後援：ドワンゴ人工知能研究所強化学習＝脳へのアプローチ＝法政大学理工学部応用情報工学科川崎雄介 yusuke.kawasaki.hosei@gmail.com

2. 自己紹介川崎雄介 – 所属：法政大学理工学部 – 出身：東京都八丈島 – 研究：植物病自動診断 – 特技：少林寺拳法 2

3. 身近になった人工知能 • Pepper (Aldebaran Robotics,Softbank 社 ) – 人間の声のトーンなどから感情認識 • 将棋電王戦 (niconico) – 人間 vs コンピュータでの将棋 – 人間１勝、コンピュータ４勝 (2014第3回) 3

4. 身近になった人工知能 • 総務省 2015年2月 – インテリジェント化が加速する ICTの未来像に関する研究会 – 2045年問題に関する議論人工知能が人間並みの知能を持つようになる？地点 – 政府機関によるこういった会議は異例 4

5. 最近、こんなことが話題に • グーグル開発の人工知能DQN ネットでは「命名事故？」「奇跡的」（2015年 2月26日 withnews , 抜粋 ) 米国のＩＴ大手グーグルが、画期的な人工知能を開発した、と２６日号の科学情報誌「ネイチャー」（電子版）で発表しました。その名も「ＤＱＮ」。「ＤＱＮ（ドキュン）」とは、「知的水準が低く、常識がない」という意味の日本のネットスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの間で「ドキュン」が浸透するかもしれません。ネイチャー電子版によると、この人工知能（ＡＩ）は、グーグルの子会社「ディープマインド」のチームが開発しました。他企業が開発している既存のＡＩは、単一の目的に特化されているものが多くありました。それに対してＤＱＮは、「得点が最大になるような行動を選ぶ」「データから対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題にゼロから取り組んで成果を上げられるのが特徴です。たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手くなっていくそうです。 5

6. 最近、こんなことが話題に • グーグル開発の人工知能DQN ネットでは「命名事故？」「奇跡的」（2015年 2月26日 withnews , 抜粋 ) 米国のＩＴ大手グーグルが、画期的な人工知能を開発した、と２６日号の科学情報誌「ネイチャー」（電子版）で発表しました。その名も「ＤＱＮ」。「ＤＱＮ（ドキュン）」とは、「知的水準が低く、常識がない」という意味の日本のネットスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの間で「ドキュン」が浸透するかもしれません。ネイチャー電子版によると、この人工知能（ＡＩ）は、グーグルの子会社「ディープマインド」のチームが開発しました。他企業が開発している既存のＡＩは、単一の目的に特化されているものが多くありました。それに対してＤＱＮは、「得点が最大になるような行動を選ぶ」「データから対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題にゼロから取り組んで成果を上げられるのが特徴です。たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手くなっていくそうです。 6

7. 最近、こんなことが話題に • グーグル開発の人工知能DQN ネットでは「命名事故？」「奇跡的」（2015年 2月26日 withnews , 抜粋 ) 米国のＩＴ大手グーグルが、画期的な人工知能を開発した、と２６日号の科学情報誌「ネイチャー」（電子版）で発表しました。その名も「ＤＱＮ」。「ＤＱＮ（ドキュン）」とは、「知的水準が低く、常識がない」という意味の日本のネットスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの間で「ドキュン」が浸透するかもしれません。ネイチャー電子版によると、この人工知能（ＡＩ）は、グーグルの子会社「ディープマインド」のチームが開発しました。他企業が開発している既存のＡＩは、単一の目的に特化されているものが多くありました。それに対してＤＱＮは、「得点が最大になるような行動を選ぶ」「データから対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題にゼロから取り組んで成果を上げられるのが特徴です。たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手くなっていくそうです。 7 このメカニズムを探る

8. 話題にのぼることの多くなった人工知能。今回は「強化学習」という枠組みから発表させて頂きます。 8 ろぼみ

9. 今回の講演につきまして • 第１部 – この分野に馴染みのない方向け – ざっくりとしたお話になります（数式なし） • 第２部 – この分野（情報系）の方向け – 数式を使って、可能な限り詳説します何度か質問コーナー挟んでいきます！ 9

10. 第１部 10

11. 脳ってどんな構造なの？ • 各部位ごとの神経のネットワーク 11 前頭葉側頭葉頭頂葉後頭葉

12. ネットワークの構成要素 • ニューロン（Neuron） – 脳内の神経細胞 – 入力ー処理ー出力の機構 – 強い電気信号のみに発火 12 銅谷賢治, “計算神経科学への招待” より細胞体 (soma) 樹状突起 (dendrite) 軸索 (axon)

13. 脳を模してみよう • McCulloch-Pitts モデル [Mcculloch,Pitts , 1943] – ニューロンを真似た構造の実現 13 出力

14. 脳を模してみよう • パーセプトロン [Rosenblatt, 1958] – 脳のネットワークのような構造 – 任意の識別面も表現できるように[Rumenhert,1986] 14 多層パーセプトロン

15. じゃあ、何故今になって再注目されてきたのか 15

16. しかし • 計算リソースが足りなかった！ – ここにきてハードウェアの発展 • 人間の表現力が高すぎた！ – 大域的な最適解を出せない 16

17. しかし • 計算リソースが足りなかった！ – ここにきてハードウェアの発展 • 人間の表現力が高すぎた！ – 大域的な最適解を出せない 17 ここに来てそれを打ち破る技術が誕生 Deep Learning

18. 機械学習の春 • 一般物体認識コンテスト [Krizhevsky et al , 2012] 大量の画像を読み込ませ 1,000種類のクラス識別問題 error率 15.3% 視覚野のような特徴を確認 18 Krizhevsky et al, “Imagenet Classification with Deep Convolutional Neural Network,” 2012

19. 機械学習の春 • Googleの猫認識 [Quoc et al,2011] これが猫だと教えずに猫の概念を獲得 19 Quoc et al, “Building High-level Features Using Large Scale Unsupervised Learning,” 2011

20. 機械学習の春 • Deep Q-Network [Volodymyr et al,2015] コンピュータに「行動則」を学ばせる 20 Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015

21. 本日のメイントピック 21 教師有り学習教師なし学習強化学習

22. スロットマシン（k-armed bandit）４本の腕がある無料スロットマシンがあります。それぞれの腕毎に出てくる賞金が違います。限られた回数で多くの賞金を得るためには、どのように腕を選ぶのが良いでしょう？ 22

23. スロットマシン（k-armed bandit）４本の腕がある無料スロットマシンがあります。それぞれの腕毎に出てくる賞金が違います。限られた回数で多くの賞金を得るためには、どのように腕を選ぶのが良いでしょう？ 23 強化学習における目標

24. スロットマシン（k-armed bandit） • とりあえず一本ずつ引いてみる 24 A: 100 B: 50 C: 10 D: 1

25. スロットマシン（k-armed bandit） • とりあえず一本ずつ引いてみる 25 A: 100 B: 50 C: 10 D: 1

26. スロットマシン（k-armed bandit） • とりあえず一本ずつ引いてみる 26 A: 100 B: 50 C: 10 D: 1 もらえるご褒美は多い方がいい（欲張り方策）

27. スロットマシン（k-armed bandit） • もし次に出る額を知っていたら？ 27 A: 100 (1) B: 50 (10) C: 10 (100) D: 1 (500)

28. スロットマシン（k-armed bandit） • １回引くたびに出る額が変わったら？ 28 A: ？？？ B: ？？？ C: ？？？ D: ？？？

29. 探索と知識利用 • 探索（exploration） – 最終的に多くの報酬を貰いたい – あえて別の行動をとる 29 B

30. 探索と知識利用 • 知識利用（exploitation） – 今も貰えたならば次も貰える – 大きな報酬が期待できる行動をとる 30 A

31. 探索と知識利用 • 探索 vs. 知識利用 – 相反する性質 – ずっと欲張らず違う腕も引いてみる – 最初は適当に、時間が経つにつれて欲張りに – レバーを引く、という行動をどう選ぶのが最適？ 31

32. 強化学習と脳？ • 大脳基底核 – 大脳皮質の内側の器官 – ここが強化学習に関わっているのでは？２部の後半で紐解いていきます 32

33. 強化学習で何ができそうか？ • 被災地の復興支援ロボット – 自ら危険なところを回避し人を探す、情報を送る • 介護ロボット – 介護の現場での運用 • 病気の解析 – コンピュータでシミュレート出来るか？ – パーキンソン病などの治療への足掛かり？ 33

34. 第１部のまとめ • 人工知能分野の春 – 計算資源確立、ヒトの表現力の突破 • 脳と似た振舞いを持つ？ – コンピュータも脳のような振舞いを見せた • 強化学習の導入 – 多くのご褒美を得ることが目標 – k-armed bandit問題 34

35. 宣伝 ★ 全脳アーキテクチャ若手の会全脳アーキテクチャ達成に貢献することが本会の目的です。研究者のみならず、専門外の方でも積極的にご参加いただき、多くの方が自分なりに力を発揮していただける環境を作っていきたいと思っています。ホームページ：http://wbawakate.jp/ facebook:https://www.facebook.com/groups/713921892010595/ 35

36. 第２部 36

37. 第２部目次 1 問題設定 2 動的計画法 vs モンテカルロ法 3 ＴＤ学習、Ｑ学習 4 脳との関連性 5 研究動向、まとめ 37

39. 強化学習の位置づけ • 教師あり学習 – 正解付のデータから規則を算出 – ILSVRC2012 (一般物体認識) • 教師なし学習 – 膨大なデータから規則を算出 – Googleの猫認識 • 強化学習 – ある行動に対する「ご褒美」から規則を算出 – Deep Q Network 39

40. 用語の定義 • エージェント（agent） – 動作する主体のこと – 人間、ロボット、etc 40

41. 用語の定義 • 環境（environment） – エージェントが動作する空間のこと 41 環境

42. 用語の定義 • 状態（states） – 現在エージェントが置かれている状態 – ：時刻ｔでの状態 42 環境

43. 用語の定義 • 行動（action） – エージェントが環境に対して働きかける動作 – ：時刻ｔでのエージェントの行動 43 環境

44. 用語の定義 • 報酬（rewards） – 取ったその行動がどの程度良かったか 44 環境

45. 用語の定義再び状態が与えられ、行動選択に戻るこのループ 45 環境

46. 用語の定義 • 方策（policy） – ある状態においてのエージェントの行動規則 – ：状態ｓで行動ａをとる確率 46 環境

47. • 以下本発表においては – ｓ：任意の状態 – ａ：任意の行動 – π ：任意の方策 – ｔ：ステップ数 – Pr：確率 – Ｐ：確率の集合 – Ｒ：報酬の集合 – Ａ：行動の集合 47

48. 具体的に状態ｓ：Ａ～Ｆ行動ａ：{down,right} 方策 π ：(Ａ, down ) （Ｃ, right ）報酬ｒ：Ｃが持つ価値（後述） 49環境ＢＤＣＥＦＡＳＴＡＲＴＧＯＡＬ

49. タスクの種類 • 連続タスク（continuing tasks） – 有限時間内でタスクの終了が保障されない – ロボットの実問題への適用など • エピソード的タスク（episode tasks） – 有限時間内で１つのタスクが終了 – 迷路の解の算出など – 今回はこちらメイン 50

50. マルコフ性（Markov property） • 以前までに得た情報を保持できるような過程 – １段階前の状態からの判断で、後続の状態を判断しても遜色がない 51

51. マルコフ決定過程（Markov Decision Process） • MDP • マルコフ過程に「意思決定＝行動ａの選択」を付与したもの • 強化学習全般がこの理論をベースにしている 52

52. 強化学習の目標 • 累積報酬の最大化エージェントの報酬をタスク終了時に最大にする 53

53. 強化学習の目標 • 累積報酬の最大化エージェントの報酬をタスク終了時に最大にするエージェントの「今おかれた立場の価値」＝状態価値「そこでの各振舞の価値」＝行動価値を評価する 54

54. 状態に価値を設定する 55 • 状態の価値？ – ある状態の期待報酬 – その状態でどの程度最終的にご褒美が期待できるか

55. 状態に価値を設定する 56 • 状態の価値？ – ある状態の期待報酬 – その状態でどの程度最終的にご褒美が期待できるか • 状態価値関数（state-value function for policy π）期待値

56. 行動に価値を設定する 57 • 行動の価値？ – ある状態である行動をすることの期待報酬 – ここでこれするとどの程度ご褒美が期待できるか

57. 行動に価値を設定する 58 • 行動の価値？ – ある状態である行動をすることの期待報酬 – ここでこれするとどの程度ご褒美が期待できるか • 行動価値関数（action-value function for policy π）期待値

58. 状態と行動の価値の関連性 • ＶとＱの関係性状態価値関数は、行動価値関数の方策固定版「その場の状況のみで」判断するのか？「そこでの行動も同時に」判断するのか？ 59

59. γ？ 60

60. 割引率 • 割引率（discount rate）γ – 遠い先の報酬を割引くための定数 (0 <= γ <= 1) – 0なら即時報酬のみ – 1なら先々の報酬も同様に考慮 • イメージ – 10,000円を今貰うか？ 11,000円を一年後貰うか？ 61

61. 強化学習の目標（再掲） • 累積報酬の最大化エージェントの報酬をタスク終了時に最大にする 62

62. 強化学習の目標（再掲） • 累積報酬の最大化エージェントの報酬をタスク終了時に最大にする 63 価値関数を最大にする方策の発見

63. Bellman方程式 64 • 累積報酬＝即時報酬＋その先の期待報酬と解釈したものつまり以下で定式化できる

64. Bellman方程式の再帰性 65 ｓ：現在の状態ｓ’ : 次の状態ａ：行動 P ：状態ｓで行動ａを取ってｓ‘に遷移する確率集合 R : 〃報酬集合 π(s,a)：状態ｓで行動ａを取る確率

65. Bellman方程式の再帰性 66 即時報酬期待報酬即時報酬期待報酬Ｖ、Ｑの再帰的表現

66. １節まとめ • 強化学習の目標 – 累積報酬の最大化価値関数の設定 • マルコフ性 – 得られるものは全て以前までの情報の集大成 67

68. 動的計画法とは？ 69 • 動的計画法（Dynamic Programming） – 環境の完全なモデルを持つ（モデルベース） – 後続の価値を現在の価値に従って更新 – 厳密な最適解が求まる（理論的には） – ベルマン方程式を厳密に解く方法

69. モデルベース 70 • イメージ：地図を持っている！そこへ至る経路や報酬は既知あとは最適経路を計算するだけ！ＢＤＣＥＦＡ

70. 動的計画法の流れ ① 各状態、その状態で取りうる方策の初期化 ② ある方策を選ぶ ③ 各状態においての状態価値をひたすら計算 ④ 方策が最適か確かめる 71

71. 動的計画法の流れ ③ 各状態においての状態価値をひたすら計算 ④ 方策が最適か確かめる（よりよい方策が無いか？） 72

72. 方策改善定理 • ある方策と価値関数を考える – よりよい価値が得られるように更新 73 greedy方策 ④の更新式と同値改善後方策

73. greedy方策 • より多くの報酬を得ようとする行動選択法 74 s0 s1 s2 10 20 20 10 緑緑

74. greedy方策 • より多くの報酬を得ようとする行動選択法 75 s0 s1 s2 10 20 20 10 赤緑

75. 方策改善定理 • ある方策と価値関数を考える – よりよい価値が得られるように更新 – 必ず最適解に収束すると知られている 76

76. 動的計画法の流れ ① 初期化Ａ～Ｆの価値を任意の値で初期化 77 ＢＤＣＥＦＡ

77. 動的計画法の流れ ② 方策選択どのようにＦに辿り着くかを選ぶ（赤が最適とします） 78 ＢＤＣＥＦＡ

78. 動的計画法の流れ ② 方策選択方策緑を選ぶ (A,right) (B,down) (D,down) 79 ＢＤＣＥＦＡ

79. 動的計画法の流れ ③ 計算 ②の方策に従い、全ての状態価値を計算（方策上ありえない箇所も計算する） 80 ＢＤＣＥＦＡ

80. 動的計画法の流れ ④ 確認選んだ方策は本当に greedyな方策か否！ 81 ＢＤＣＥＦＡ

81. 動的計画法の流れ ② 方策選択方策赤を選ぶ (A,down) (C,right） (D,down) 82 ＢＤＣＥＦＡ

82. 動的計画法の流れ ③ 計算同様に全て計算この際、方策緑の計算結果を利用する状態CではDの状態価値が利用できる 83 ＢＤＣＥＦＡ

83. 動的計画法の流れ ④ 確認選んだ方策は本当に greedyな方策か是! 84 ＢＤＣＥＦＡ

84. 動的計画法の流れようやく移動。 85 ＢＤＣＥＦＡ

85. バックアップ線図（Backup Diagram）更新時に関わる情報を図式化したもの：状態ｓ：行動ａ：各ｓの更新時必要な情報の範囲 86 A ＢＣＤＦＤＦＥＦ

86. 動的計画法のバックアップ線図 87 A ＢＣＤＦＤＦＥＦ：状態ｓ：行動ａ：各ｓの更新時必要な情報の範囲

87. 動的計画法のバックアップ線図 88 A ＢＣＤＦＤＦＥＦ：状態ｓ：行動ａ：各ｓの更新時必要な情報の範囲

88. 動的計画法の難点 • 必ず最適解に辿り着くけど・・・ • 計算量が多い！ – 状態数が増えると現実的には計算不可 • モデルを持たないと使えない！ – 実際はそれがふつう – モデルなしで知的なエージェントを実現したい 89

89. モンテカルロ法とは？ 90 • モンテカルロ法（Monte Carlo method） – 環境のモデルを一切持たない（モデルフリー） – 「エピソード」を多数生成し、試行錯誤する – 方策オン／オフ

90. モデルフリー 91 • イメージ：情報なにもなし！何もわからないのでとりあえず行ってみるしかない判断基準は「ゴールにいるか」ただひとつＢＤＣＥＦＡ

91. エピソード • エピソード（episode） – 始点から終点までの状態ｓ、行動ａ、報酬ｒの列 92 ＢＤＣＥＦＡ A→r→b→B→d→d→D→d→f→F

92. 動的計画法 vs モンテカルロ法 • 動的計画法 – 「先読み」が可能 – 次に貰える報酬と、次の状態が利用可能！ – 「今の状態価値」だけで十分 • モンテカルロ法 – 「先読み」が不可 – 「今の状態価値」＋「そこでとる行動」セット評価 93

93. モンテカルロ法の流れ 94 以下を繰り返す ① エピソードを生成 ② エピソード中の「ある状態のある行動」についての報酬を積算、平均 ③ 各状態でが最大となる方策を選ぶ

94. モンテカルロ法の流れ ① エピソード生成 95 ＢＤＣＥＦＡ A→r→b→B→d→d→D→d→f→F

95. モンテカルロ法の流れ ② 報酬の積算、平均 96 ＢＤＣＥＦＡ (b+d+f)/3 (b+d+f)/3 (b+d+f)/3

96. モンテカルロ法の流れ ③ 最大の行動価値に従って方策の更新 97 ＢＤＣＥＦＡ (b+d+f)/3 (b+d+f)/3 (b+d+f)/3

97. モンテカルロ法の流れ ① エピソード生成 98 ＢＤＣＥＦＡ (b+d+f)/3 (b+d+f)/3 (b+d+f)/3 A→d→c→B→r→d→D→d→f→F

98. モンテカルロ法の流れ ② 報酬の積算、平均 99 ＢＤＣＥＦＡ (b+d+f)/3 (b+d+f)/3 (b+d+f)/3(c+d+f)/3 (c+d+f)/3 (c+d+f)/3

99. モンテカルロ法の流れ ③ 最大の行動価値に従って方策の更新緑より赤の方が良い報酬！ 100 ＢＤＣＥＦＡ (b+d+f)/3 (b+d+f)/3 (b+d+f)/3(c+d+f)/3 (c+d+f)/3 (c+d+f)/3

100. モンテカルロ法のバックアップ線図 101 A ＢＣＤＦＤＦＥＦ：状態ｓ：行動ａ：各ｓの更新時必要な情報の範囲

101. モンテカルロ法のバックアップ線図 102 A ＢＣＤＦＤＦＥＦ：状態ｓ：行動ａ：各ｓの更新時必要な情報の範囲

102. 103 A ＢＣＤＦＤＦＥＦ A ＢＣＤＦＤＦＥＦ動的計画法モンテカルロ法

103. ホントにいいのか？ • 実はとんでもない仮定「全ての状態-行動が無限回訪問される」こんなの絶対おかしい 104

104. ホントにいいのか？ 105

105. ホントにいいのか？ • 実はとんでもない仮定「全ての状態-行動が無限回訪問される」 106 エピソードはランダムに生成し、各回greedyな行動実際は「もっといい行動がある」可能性があるのに訪問しない（十分な「探索」が行われない）

106. モンテカルロ法の種類 • モンテカルロＥＳ法 – 全ての状態、行動が確認されると仮定 • 方策オン型モンテカルロ法 – 少し危ない橋を渡らせる • 方策オフ型モンテカルロ法 – 挙動方策と推定方策 107

108. 方策オンと方策オフ • 方策オン型 – 行動を選ぶ方策そのものを評価、改善 • 方策オフ型 – 行動を選ぶ方策とは別に、評価用の方策を用意 109

110. 方策オン型モンテカルロ • 危ない橋を渡らせる？問題点：更新ごと、報酬を良くしようとする為訪問されない状態ー行動が出てくることわずかな確率でも、そのルートを選ばせたい！ 111

111. 方策オン型モンテカルロ • ε-greedy手法 – ある確率 ε で非greedy方策を選ぶ – それ以外の場合にはgreedy方策を選ぶ 112

114. 方策オン型モンテカルロ 115 非greedy greedy

116. 方策オフ型モンテカルロ法 • ２つの方策を考える – 挙動方策（behavior policy） π’ エージェントが可能な行動の観測を行う – 推定方策（estimation policy） π 実際にエージェントを行動させる色々な状態ー行動を見つつ、greedyな探索が出来る！ 117

117. 方策オフ型モンテカルロ法各方策を与える（状態、行動、報酬） 118 A→r→b→B→r→d→D→d→f A→d→c→C→r→d→D→d→f π π’ ＢＤＣＥＦＡ

118. 方策オフ型モンテカルロ法各方策を与える（状態、行動、報酬） 119 [ A,r,b,B,d,d,D,d,f ] この時の行動価値を両者計算 > なら方策変更 π π’ ＢＤＣＥＦＡ π’ π A→r→b→B→r→d→D→d→f A→d→c→C→r→d→D→d→f

119. ２節まとめ 120 • 動的計画法（DP） – モデルベース – 各状態価値をあらかじめ全て計算 – 必ず最適解に辿り着くが現実的ではない • モンテカルロ法 – モデルフリー – 様々な経験則から最適行動価値関数を見積もる – 方策オン型／方策オフ型

121. ＴＤ学習とは 122 • 現在の源流となる強化学習手法の祖 – Bellman方程式の近似 – 動的計画法のように「以前の結果を利用」 – モンテカルロ法のように「環境のモデルが不要」

122. ＴＤ学習とは • TD学習（Temporal Difference Learning） – その場更新型のモンテカルロ法 – 今の状態と次の状態の報酬を最大化 • α：更新率（0<α<=1）「今を大事にするか」 α≈ 0 「次を大事にするか」 α≈ 1 123

123. モンテカルロ法との違い • モンテカルロ法 – 各エピソードの報酬の和だけ見る – エピソード終端まで更新が不可 • TD学習 – １回１回そこで得られる報酬を使う – 最短、次の状態の予測までで更新可 124 ・・・！

124. 一体何がすごいのか • 報酬と次の状態のモデルを必要としない – モデルフリー – 「次の状態」はエピソード毎に記憶する • モンテカルロ法より早い！ – 問題が複雑になればなるほど、モンテカルロ法は更新に時間がかかる（短ければ良い） 125

125. ＴＤ学習の流れ ① 各状態価値 V(s) を任意に初期化評価するπを設定以下各エピソード毎にループ ② エピソードの各ステップ毎に・πで与えられる行動aをとってr,s’を観測・s（行動前）の状態価値V(s)を更新・次状態 s ’へ移行 s’が終端状態なら次のエピソードへ移行 126

126. ＴＤ学習の流れ ① 初期化各状態価値を初期化方策緑を評価 γ=1 127 ＢＤＣＥＦＡ

127. ＴＤ学習の流れ ② 行動方策π＝緑に従い行動a=rightをとる報酬 b と次状態Ｂを観測 128 ＢＤＣＥＦＡ b

128. ＴＤ学習の流れ ② V(s)更新状態価値を設定エージェントが移動 129 ＢＤＣＥＦＡ α*b

129. ＴＤ学習の流れ ② 終端まで確認続いて方策赤を評価 130 ＢＤＣＥＦＡ α*b α*d α*f

130. ＴＤ学習の流れ ② 行動方策π＝赤に従い行動a=downをとる報酬 c と次状態Ｃを観測 131 ＢＤＣＥＦＡ α*b α*d α*f c

131. ＴＤ学習の流れ 132 ＢＤＣＥＦＡ new α*d α*f ② V(s)更新状態価値を設定先ほどの状態価値利用エージェントが移動

132. ＴＤ学習の流れ 133 ＢＤＣＥＦＡ new α*d new ② 終端まで確認以上繰り返して、最適な方策を探すα*d

133. DQN の Q ！ • Q学習（Q-learning） – ある行動をとったら、その時の自分はどうなるか？ – 方策オフ型のTD学習と考えられる – 現代の強化学習のメイン 134

134. Q学習を数式で見る 135 • 行動価値関数の最適化を目指す – １ステップごとに現在の方策を改善する – α：学習率「今を大事に」ー「次を大事に」のTrade-off 次状態が最適な行動の選択

135. ＴＤ学習とＱ学習の違い • ＴＤ学習 – 状態価値に従って更新 – 方策に従って遷移した先の評価値のみ見る • Ｑ学習 – 行動価値に従って更新 – 方策とは関係なしに、複数の評価値を見る 136

136. Q学習の流れ ① 各行動価値 Q(s,a) を任意に初期化評価するπを設定以下各エピソード毎にループ ② エピソードの各ステップ毎に・Qで与えられる行動aをとってr,s’を観測・s（行動前）の状態価値V(s)を更新・次状態 s ’へ移行 s’が終端状態なら次のエピソードへ移行 137

137. Q学習の流れ ① 初期化各状態価値を初期化方策緑を評価 γ=1 138 ＢＤＣＥＦＡ

138. Q学習の流れ ② 行動価値から選択 b とc どちらが良いか？効率よく試行錯誤する 139 ＢＤＣＥＦＡ b dc e f d

139. Q学習の流れ ② 行動価値から選択方策赤におけるdとeはどちらが良いか？効率よく試行錯誤する 140 ＢＤＣＥＦＡ b dc e f d

140. 141 動的計画法モンテカルロ法 TD学習Ｑ学習モデル必要不要不要不要主な更新対象状態価値関数Ｖ(ｓ) 行動価値関数Ｑ(ｓ，ａ) 状態価値関数Ｖ(ｓ) 行動価値関数Ｑ(ｓ，ａ) 概要全ての状態を総当たり計算計算量が多いエピソードから価値関数推測行動選択の方法エピソードの 1ステップ毎に状態価値更新次の行動報酬が最も良くなるよう選択 Backup Diagram

142. 強化学習と脳 • 強化学習を脳がしている？ 143

143. 注目箇所 • 大脳基底核（Basal Ganglia） 144

144. 注目箇所 • 大脳基底核（Basal Ganglia） 145 尾状核淡蒼球被殻線条体黒質視床下核

145. 各部位の働き • 線条体 – 運動機能、意思決定 • 淡蒼球 – 報酬予測 • 黒質 – ドーパミンの放出 • 視床下核 – 運動の調整 146

146. ループ構造 147 大脳皮質ストリオゾームマトリックス淡蒼球外節黒質緻密部腹側被蓋野淡蒼球内節黒質網様部視床下核銅谷賢治, “計算神経科学への招待” より視床線条体

147. ループ構造 148 大脳皮質淡蒼球外節黒質緻密部腹側被蓋野淡蒼球内節黒質網様部視床下核銅谷賢治, “計算神経科学への招待” より視床大脳皮質～基底核ループストリオゾームマトリックス線条体大脳皮質～基底核ループ

149. ドーパミンニューロンの観測 • 予測と報酬の神経回路 [Schultz et al, 1997] ランプの点灯に従ってレバーを操作するとジュース（報酬）が貰えるこの時のサルの線条体ドーパミンニューロンを計測 150 http://www.wakosozai.com/

150. ドーパミンニューロンの観測 • 予測と報酬の神経回路 [Schultz et al, 1997] ランプの点灯に従ってレバーを操作するとジュース（報酬）が貰えるこの時のサルの線条体ドーパミンニューロンを計測 151 http://www.wakosozai.com/

151. ドーパミンニューロンの観測 • 報酬あり – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 152 http://www.wakosozai.com/ 学習後学習前

152. ドーパミンニューロンの観測 • 報酬あり – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 153 http://www.wakosozai.com/ 報酬の「予測」に対して応答

153. ドーパミンニューロンの観測 • 報酬なし – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 154 http://www.wakosozai.com/ 学習前学習後

154. ドーパミンニューロンの観測 • 報酬なし – r: 実際の報酬 – V: 期待報酬 – δ: TD誤差 155 http://www.wakosozai.com/ ニューロン抑制

155. この実験で分かったこと • 線条体ではＴＤ誤差のような振舞いがある？ 156 実際にもらえた報酬もらえるであろう報酬

156. どのように行動選択しているのか • 行動価値の観測 [Samejima et al , 2005] サルの線条体ニューロンの観測倒す方向によって貰える確率が変化 157 Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005

157. どのように行動選択しているのか • 最初はランダムに選んでいた • 次第に報酬が貰えそうな方にレバーを倒し始めた 158 Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005

158. どのように行動選択しているのか • 最初はランダムに選んでいた • 次第に報酬が貰えそうな方にレバーを倒し始めた 159 Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005 状態に応じて最適な行動を選んでいる？

160. 大脳基底核のモデル化 161 鮫島和行,銅谷賢治, “強化学習と大脳基底核” 参考大脳皮質線条体淡蒼球外節黒質網様部視床黒質 input output

161. 大脳基底核のモデル化 162 鮫島和行,銅谷賢治, “強化学習と大脳基底核” 参考大脳皮質線条体淡蒼球外節黒質網様部視床黒質 input output TD誤差Ｑ(s,a)算出

163. 強化学習の応用研究 • ヘルプから適切な操作の遂行 [Branavan et al,2009] Windowsのヘルプを解釈し見合った操作を自律的に行う 164 Click run, and press OK.

164. 強化学習の応用研究 • ゲームへの応用（DQN） [Volodymyr et al,2015] ゲーム画面４フレーム分を入力出力は動作最初２層はＣＮＮ最適行動価値関数Ｑ*への近似 165 Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015

165. 強化学習の応用研究 • 未学習データの検出および強化学習への応用 [Osawa,Hagiwara,2015] RBM,Deep Belief Networkを用い長期スパンでの “戦略” の立案を可能にするようなモデルを提唱 166 状態、行動価値判定

166. まだ見えてない部分 • 脳モデルについて – マルコフ性と仮定することは適切か – モデルフリーから経験でモデルベースにしている？ • 強化学習が「最も効率的」なのか？ 167

167. まとめ • 強化学習のアルゴリズムを紹介 – 動的計画法、モンテカルロ法 – ＴＤ学習、Ｑ学習 – モデルベース、モデルフリー – 行動の選択（greedy, ε-greedy） • 脳との関連性を紹介 – 線条体にＴＤ学習やＱ学習のような振舞い 168

168. 主な参考文献 [1] Richard S.Sutton , Andrew G.Barto , “Reinforcement Learning” , 1998 [2] 三上貞芳, 皆川雅章共訳 , “強化学習”, （[1]の日本語版） [3] 銅谷賢治, “計算神経科学への招待” , 2007 [4] 牧野貴樹, “強化学習をベイズで理解する”, 2014 (スライド) [5] Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015 その他多くのWeb上のスライド、記述、論文、書籍など使用した脳の画像: 3D-brain(free) 169

169. ありがとうございました！ 170

全脳アーキテクチャ若手の会強化学習

kwp_george

Transcript

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

全脳アーキテクチャ若手の会 強化学習

kwp_george

Transcript

全脳アーキテクチャ若手の会強化学習