東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です.
強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました.
主に以下のような強化学習の概念やアルゴリズムの紹介をしています.
・マルコフ決定過程
・ベルマン方程式
・モデルフリー強化学習
・モデルベース強化学習
・TD学習
・Q学習
・SARSA
・適格度トレース
・関数近似
・方策勾配法
・方策勾配定理
・DPG
・DDPG
・TRPO
・PPO
・SAC
・Actor-Critic
・DQN(Deep Q-Network)
・経験再生
・Double DQN
・Prioritized Experience Replay
・Dueling Network
・Categorical DQN
・Noisy Network
・Rainbow
・A3C
・A2C
・Gorila
・Ape-X
・R2D2
・内発的報酬
・カウントベース
・擬似カウントベース
・RND(Random Network Distillation)
・ICM(Intrinsic Curiosity Module)
・Go-Explore
・世界モデル(World Models)
・MuZero
・SimPLe
・NGU(Never Give Up)
・Agent57
・AlphaGo
・AlphaGo Zero
・AlphaZero
・OpenAI Five
・AlphaStar
・マルチエージェント強化学習