18.
機械学習の春
• 一般物体認識コンテスト [Krizhevsky et al , 2012]
大量の画像を読み込ませ
1,000種類のクラス識別問題
error率 15.3%
視覚野のような特徴を確認
18
Krizhevsky et al, “Imagenet Classification with Deep Convolutional Neural Network,” 2012
19.
機械学習の春
• Googleの猫認識 [Quoc et al,2011]
これが猫だと 教えずに 猫の概念を獲得
19
Quoc et al, “Building High-level Features Using Large Scale Unsupervised Learning,” 2011
20.
機械学習の春
• Deep Q-Network [Volodymyr et al,2015]
コンピュータに「行動則」を学ばせる
20
Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
156.
どのように行動選択しているのか
• 行動価値の観測 [Samejima et al , 2005]
サルの線条体ニューロンの観測
倒す方向によって貰える確率が変化
157
Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
157.
どのように行動選択しているのか
• 最初はランダムに選んでいた
• 次第に報酬が貰えそうな方に
レバーを倒し始めた
158
Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
158.
どのように行動選択しているのか
• 最初はランダムに選んでいた
• 次第に報酬が貰えそうな方に
レバーを倒し始めた
159
Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
状態に応じて最適な行動を選んでいる?
163.
強化学習の応用研究
• ヘルプから適切な操作の遂行
[Branavan et al,2009]
Windowsのヘルプを解釈し
見合った操作を自律的に行う
164
Click run, and press OK.
164.
強化学習の応用研究
• ゲームへの応用(DQN)
[Volodymyr et al,2015]
ゲーム画面4フレーム分を入力
出力は動作
最初2層はCNN
最適行動価値関数Q*への近似
165
Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
Be the first to comment