Your SlideShare is downloading. ×

認知距離学習器の説明
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

認知距離学習器の説明

183
views

Published on

全脳アーキテクチャ開発における,プラットフォーム初期検討(V0)においては,認知アーキテクチャの題材として私が2000年頃に開発を行った学習能力を重視したCITTA (認識に基づく知的処理アーキテクチャ: Cognition based InTelligent Transaction Architecture …

全脳アーキテクチャ開発における,プラットフォーム初期検討(V0)においては,認知アーキテクチャの題材として私が2000年頃に開発を行った学習能力を重視したCITTA (認識に基づく知的処理アーキテクチャ: Cognition based InTelligent Transaction Architecture )というマルチエージェント・アーキテクチャを題材として用いている.

今回,このアーキテクチャの個々のエージェントとして利用されている,認知距離学習器(Cognitive Distance Learning: CDL)モデルについての解説を公開した.
CDLモデルはサブシンボリックな学習型プランナーとしてRWCプロジェクト内で2000年ごろに開発された.CDLモデルは,環境モデルの学習も併用するためモデルベースの強化学習とは近いが,強化学習が状態の評価を学習するのに対して,CDLモデルは状態間の距離を学習することで,それをプランニングや経路探索に利用する点で異なる.
単純なCDLモデルでは,保持すべき距離は状態の数の二乗で増加するためにメモリコストが増大しすぎる問題がある.そこで,階層的な状態空間を自律獲得することでこの問題を回避している.また階層化されたCDLモデルは,状態空間中で荒い表現を持つ上位層から,より詳細な表現をもつ下位の層に実現すべき意図を伝える処理を行う.実は,ここでの意図をある条件下で保持する必要があるのだが,この性質はBDIアーキテクチャとも関連が深い.
そしてCDLモデルの大きな特徴は,ある状態に置かれた際に,与えられたゴールを実現できるかどうかを即座に判断できる点にある. この優れた性質により少ない計算コストで無用な実行を回避できるの(プロダクションルールの条件部と同様)でマルチエージェントのメンバとして利用しやすい.なお,この性質は,強化学習や探索手法では実現できない.

最近は,CDLモデルと海馬体の計算モデルと,ある部分は対応する可能性があると考え考察を進めている.

ーーーーーーーーーーーーーーーーーーーーー
■関連する学会発表等

山川宏,岡田浩之,馬場孝之. (2000). “認知距離を用いた問題解決器の提案," Proc. MACC2000 予稿集, 沖縄. 
http://www.kecl.ntt.co.jp/csl/ccrg/events/macc2000/yamakawa.html

Hiroshi Yamakawa, Yuji Miyamoto, and Hiroyuki Okada. “ Comparison the  learning processes of cognitive distance learning and search based agent. ” 6th International Work-Conference on Artificial and Natural  Neural Networks (IWANN2001), pp. 378-385, 2001.
http://link.springer.com/chapter/10.1007/3-540-45720-8_44

山川宏, 宮本祐司, 馬場孝之, 岡田浩之. “認知距離学

Published in: Engineering

0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
183
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
6
Comments
0
Likes
7
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 認知距離学習器(CDL)の解説 Cognitive Distance Learing Model 山川宏 ドワンゴ人工知能研究所 2015年2月
  • 2. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS モデル概要 n 認知距離学習(CDL)モデルは,環境中を移動しつつ状態間の距離 を記憶・蓄積してプランニングに利用するゴール指向型エージェン トである. n 実行可能性の判断が速い特徴により,プロダクションルールとして利用しうる. n 強化学習と異なり,任意ゴールに対するナビゲーションが可能. n 距離に基づく階層化を行なったCDLモデル n 階層化CDLモデルは,高次レベルほど粒度の粗い認知地図を自律獲得して 利用することでメモリコストを削減できる. n 階層的に意図を分解する意味でBDIアーキテクチャの実現例になっている. n 山川が2000年ごろにリアルワールドコンピュティングプロジェクト (RWCP) 内の研究の一環で,マルチエージェントシステム内の 個々のエージェントとして開発した学習型プランナ 1  
  • 3. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 目次 n 単層の認知距離学習器 n 問題の定式化 n 従来技術による問題解決: 探索手法,強化学習 n 認知距離学習器 n 機能比較と課題 n 階層化した認知距離学習器  ーメモリ削減のためにー n 従来技術における階層化 n 状態の階層化 n 階層化した認知距離学習器 n ループ問題を解決する意図の保持 n BDIアーキとの関連性 n 心理実験結果と認知距離との比較 n 関連する学会発表等 n 参考:一般化状態について 2  
  • 4. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 問題の定式化 n 状態空間 n 環境モデル n 世界モデル,前向きモデル等と同義 ※モデルベースド強化学習における「モデル」 n 初期状態 n ゴール検査 n 単純に,ゴールの状態
 が単一の場合を扱う n 認知距離 n 経験的に得られた2状態間の 距離. n 単純に,一時刻の移動コストが 1の場合を扱う 状態空間 初期状態 ゴール 3
  • 5. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 探索手法における問題解決 #1 n 環境モデルを保持する(学習してもよい) n 初期状態からゴール状態に遷移する,環境モデルの遷移列を探索する. n 特徴 n 任意の初期状態とゴール状態に対して適用可能 n 探索に要する計算コストが大きい 環境モデル 4  
  • 6. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 探索手法における問題解決 #2 n 探索による経路計画の生成 n 実行 n 計画どおりに実行する 5  
  • 7. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 強化学習による問題解決 #1 n (状態 ⇒ 行動)の評価学習する(Q学習) n 予測評価の伝播 ⇒ Temporal Difference法 n 行動選択 ⇒ 評価の高い行動を選択 n 特徴 n ゴール状態を固定して学習せざるを得ない n 探索に要する計算コストが小さい (状態 ⇒ 行動) Q値(評価) 6  
  • 8. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 強化学習による問題解決 #2 n 予測評価の伝播(Temporal Difference法) Q-module n ゴールのみで与えられる遅延報酬を用いて,ゴールから 遠い状態での行動の評価を行う事が可能になる. •  行動選択 Selector s a r 7  
  • 9. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 強化学習による問題解決 #3 n 行動選択肢の生成 Action model n 行動選択 Selector ai = argmin i Q si,ai( ) 8
  • 10. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 認知距離による問題解決#1 n 認知距離 を保持する n 環境モデルも保持する n 各状態において,ゴールへの認知距離小さい行動を選択 n 特徴 n 任意の初期状態とゴール状態に対して適用可能 n 探索に要する計算コストが小さい n 認知距離を記憶するメモリコストが大きい D: 認知距離 FROM 状態 TO 状態 9
  • 11. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 認知距離による問題解決#2 n  状態履歴 n  最近の履歴を保存 n  環境モデル(フォワードモデル) n  遷移可能状態の選択肢を出力する (*) 入力センサ状state(t)と行動action(t)をペアにした一般化状態 S(t)を利用する(t は時刻).詳細は資料末尾の説明を参照. n  認知距離モジュール n  認知距離を学習する n  セレクタ n  サブ意図D(t)を選択する 10
  • 12. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 認知距離による問題解決#3 ー 環境モデルの導入ー n 遷移可能状態の選択肢の生成: 環境モデル n 行動選択: Selector ai = si,ai[ ]= argmin i L si,ai[ ], sG,ag !" #$( ) 11
  • 13. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 認知距離による問題解決#4: 探索処理の統合 ゴール状態(SG)までの認知距離を得られるまで,環境モデ ルを用いて反復深化深さ優先探索(IDDFS)を行う. 認知距離 FROM 状態 TO 状態 Forward model 状態(t) 状態(t+1) S 1 S 4 S 7 S G L(S , S ) 7 G Cognitive
 distance Di = argmin i L Si,SG( ) 12
  • 14. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 単層の認知距離学習(CDL)モデルのまとめ n 目標状態へ至る行動系列を生成するエージェントモデル n 学習: 環境との相互作用で任意の状態間の行動に要する認知距離を保存 n 行動: 目標状態への認知距離が短い動作を選択 •  履歴キューHは,近い過去数状態を保持するキュー •  環境モデルFは,状態入力から直接遷移可能な状態の候補を列挙 •  認知距離モジュールTは,任意の状態間の距離を学習するテーブル •  探索エンジンは,環境モデルFと認知距離Tを用い,状態SとゴールGから意図Dを出力 探索エンジン 状態S ゴールG 意図D 認知 距離 CDLエージェント(=層ユニット) 13  
  • 15. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 機能比較: CDLは到達可能判断に強み n  到達可能判断: n 与えられたゴールが実現可能か 否かを,判定する能力. n  熟達性: n 同じ動作シークエンスが速くなる •  CDLは,ゴールまでの距離を 知っていれば到達可能である と即座に判定可能 •  この能力を条件部とみなすこ とで,CDLはプロダクション ルールとして利用できる. 14  
  • 16. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 距離保持の組み合わせ爆発 問題 問題解決器と必要なメモリ n Ns : 取り扱う状態の数 n m : 各状態から直接移動可能な状態の数(平均的に見て) n 認知距離 n 距離数のオーダ = O(Ns × Ns ) n 環境モデル(探索手法に用いる) n 遷移数のオーダ = O(Ns × m ) n 評価関数(Q学習に用いる) n 評価数のオーダ = O(Ns) 大きい 15  
  • 17. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 目次 n 単層の認知距離学習器 n 問題の定式化 n 従来技術による問題解決: 探索手法,強化学習 n 認知距離学習器 n 機能比較と課題 n 階層化した認知距離学習器  ーメモリ削減のためにー n 従来技術における階層化 n 状態の階層化 n 階層化した認知距離学習器 n ループ問題を解決する意図の保持 n BDIアーキとの関連性 n 心理実験結果と認知距離との比較 n 関連する学会発表等 n 参考:一般化状態について 16  
  • 18. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 従来技術における階層化 計算コスト,メモリ,学習時間などの削減が目的となっている.
 (※モジュール化による再利用性向上とは異なる) n 探索手法 n ABSTRIPS n 強化学習 n マルチモジュール強化学習 n 多層強化学習(高橋,浅田 1999) 17  
  • 19. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 標識状態を介したCDLエージェントの階層化 高次レベルほど粗い認知地図を自律的に獲得. 隣接する二つ のレベル間では粗い上位レベルの各状態は,詳細な下位レベル のセグメントに対応しそれに対応する標識状態が配置される. 第一層と第二層の対応 空間的に概ね一様な領域 毎に配置される標識状態 状態SとゴールGから意図 Dが並行して層変換される 18
  • 20. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 標識状態を使った階層プランニング 層ごとの動作概要 1.  目標状態Grと,現在状 態Srから意図Drを出力 しようと試みる. 2.  それに失敗したら,上 位に層に,GrとSrを送り, 上位意図Dr+1を得る. 3.  Dr+1SとGrから意図Drを 出力する. 19
  • 21. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 状態空間の自動分割による階層化 n 分割統治による認知距離の保持 n 上位層: 広い範囲を粗く学習 n 下位層: 狭い範囲を詳細に学習 n 空間分割アルゴリズム n 適当に選んだ標識状態 からの距離が一定以下に なるように領域を分割する n 学習した分割は 右図のような均等な形には ならない. n 到達可能範囲はオーバーラップ lcd: 認知距離の最大記憶長 標識状態 20  
  • 22. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 実験パラメータ: 2  maxCDLngth 学習する最大の認知距離 1   shallowSearchLngth ゴールを浅く探索する場合の最大の深さ 200  deepSearchLngth ゴールを深く探索する場合の最大の深さ -1  minSearchLngth ゴールを探索する最小の深さ 3   maxSegmentSize 標識状態間の最大距離。ここで指定された 距離の範囲で標識状態を探索し、標識状態が無ければ 新たな標識状態を生成します。 部屋: 16×16ほぼ円形グリッドワールで. 移動: 上下左右の4方向(ランダム移動) 状態数: 位置と移動方向を合わせた688状態. (全状態数=188マス×4方向-16×4= 688状態) 円形グリッドワールドでの自動分割実験
  • 23. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 2層の標識状態 140個程度の各 台形(黄色)が2 層の標識状態 学習後の各層(2〜5層)における標識状態 3層の標識状態 18個程度の台 形クラスタが2 層における一つ の状態で,あり 3層の標識状態 5層の標識状態 1個台形クラスタ が4層における一 つの状態であり, 5層の標識状態 各台形は,(位置+進入方向)を表す 4層の標識状態 3個台形クラスタ が3層における一 つの状態であり, 4層の標識状態
  • 24. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 層ユニットのDFD(データフローダイアグラム) n 疎視化 n 下位の状態を上位の状態に マップする n 標識化 n 上位状態の下位における標 識状態を指定 n サブ意図選択 n 距離の小さい状態を選択 n 探索 n D0=探索(S,G,深く) n D1=探索(S,G,浅く) n D3=探索(S,V,深く) 23  
  • 25. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS サブ意図に対するループ問題 n gに行きたいが以下の動作を繰り返す n 下位層: bに行くためにs2に移動 n 上位層: Aに行くためにs1に移動 n 二つのユニット間の意図の一貫性の欠如 n ⇒目的地に到達するまでは意図を保持ことが必要 下位層主導の動作 上位層主導の動作 24  
  • 26. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 層ユニットのDFD(保持サブ意図の導入) n 保持サブ意図 n 上位のサブ意図を保持 n 入力意図到達 n 距離の小さい状態を選択 n 探索 n D0=探索(S,G,深く) n D1=探索(S,G,浅く) n D2=探索(S,V,深く) n D3=探索(S,V,深く) ループ問題を解消 25  
  • 27. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 階層化によるメモリ&探索コスト削減 階層を用いない場合 利 用 階 層 数 空間スケーラビリティ:
    階層化は,メモリ&探索コストを削減する メモリ 探索コスト 26
  • 28. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 目次 n 単層の認知距離学習器 n 問題の定式化 n 従来技術による問題解決: 探索手法,強化学習 n 認知距離学習器 n 機能比較と課題 n 階層化した認知距離学習器  ーメモリ削減のためにー n 従来技術における階層化 n 状態の階層化 n 階層化した認知距離学習器 n ループ問題を解決する意図の保持 n BDIアーキとの関連性 n 心理実験結果と認知距離との比較 n 関連する学会発表等 n 参考:一般化状態について 27  
  • 29. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 階層CDLの意図はBDIアーキテクチャと似ている n Bratman 『意図と行為』 n (C1)意図を実現する手段を 推論する n (C2)意図を持続的に保持す る n (C3)当面の詳細な熟考を抑 制する n (C4)推論の前提となる信念 に影響を与える n BDIアーキテクチャ n 意図によるプランニングのモ デル(Rao, 高田) n 階層化CDLでの意図 n 上位層から受け取った意図 を保持する. n 意図を保持しないと行動に無 限ループが発生する. n 左の(C1)~(C3)の性質を反 映している. n ※意図の必要性を実験的 に示すことができた. 28
  • 30. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 心理実験結果と認知距離との比較 n 認知距離yの,実距離xとの関係は,Stevensの法則がよく知ら れている. b axy = •  学習ステップが500回 でStevensの法則によ く一致. •  心理実験結果(篠原) によるa=0.69に近い •  学習が進むと,正しい 距離に近づく. 29  
  • 31. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 関連する学会発表等 n  山川宏,岡田浩之,馬場孝之. (2000). “認知距離を用いた問題解決 器の提案," Proc. MACC2000 予稿集, 沖縄. http://www.kecl.ntt.co.jp/csl/ccrg/events/macc2000/yamakawa.html n  Hiroshi Yamakawa, Yuji Miyamoto, and Hiroyuki Okada. “ Comparison the learning processes of cognitive distance learning and search based agent. ” 6th International Work-Conference on Artificial and Natural  Neural Networks (IWANN2001), pp. 378-385, 2001. http://link.springer.com/chapter/10.1007/3-540-45720-8_44 n  山川宏, 宮本祐司, 馬場孝之, 岡田浩之. “認知距離学習による問題解 決器の 実行時探索削減の評価と学習プロセスの解析", 人工知能学会 誌, Vol. 17, No. 1, pp.1-13, 2002. http://dx.doi.org/10.1527/tjsai.17.1 n  山川宏, 岡田浩之. “意図モデルの比較による意図の存在意義の検討”, 日本認知科学会第19回大会, pp. 206-207, June 2002. n  認知距離学習(CDL)モデルからみた海馬-嗅内皮質機能の検討,脳と心 のメカニズムワークショップ,ルスツ,2012. 30  
  • 32. 参考:一般化状態について
  • 33. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 利用できる機会が多い 観察からの学習により 抽出できる構造には 制御可能性の情報が 含まれない 制御可能性を区別しない定式化 マルコフ決定モデル(Q 学習等)では変数の
 制御可能性の
 区別が必要 制御可能性の区別を必要としない
 問題解決器として定式化したい 32
  • 34. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS マルコフ決定モデルとQ学習 n s(t): センサ入力 (時刻 t における) n a(t): 動作出力(時刻 t における) n Q(s(t), a(t+1)): Q値(行動の評価) 33  
  • 35. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 変数の制御可能性 n s(t): センサ入力 → 制御不能な変数 n a(t): 動作出力 → 制御可能な変数 必ず
 実現する 予測 予測 制御可能 制御不能 エージェントは,センサ入力から動作出力を行い, 環境は,動作出力からセンサ入力を生成する. 34  
  • 36. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 一般化状態として定式化 n S(t): 環境から得られる状態 = (s(t), a(t)) n D(t): Agentが実現したい意図= (s(t+1), a(t+1)) 予測値 予測 必ず実現 する予測 制御可能 制御不能 制御可能な変数は,環境へ与えた実現したい状態(意図)が センサ入力として反映される. 35  
  • 37. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS グリッドワールドではどうなるか n 一般化状態 n S(t): = (s(t), a(t)) n 状態s(t)とそこに至るa(t)をまと めて一般化状態S(t)とする. n Q学習の例 n Q(s(t), a(t+1)) n ある状態s(t)において 行動a(t+1)を行う. 36
  • 38. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 一般化状態を導入するメリットとデメリット n メリット n 制御可能性の区別を必要としない • 制御可能性が動的に変化しても問題無い. n CDLにおいて階層化の定式化を自然に行えた n デメリット n 常に行動も含めた目標状態(ゴール)の設定が必要 • 記述が複雑になる可能性がある. • 部分情報をゴールとするにはマルチゴールとして扱う必要がある n 一般化状態による認知距離だけでは動作できない • 環境モデル(環境モデル)が必須となる 37