Log(haya)

備忘録ー知識の昇華

Deep RL Bootcampで強化学習の勉強 Vol. 1

2017年に UC Berkeleyで開催されたDeep RL Bootcampの動画を見たのでそれをまとめていこうと思う． sites.google.com 強化学習とは MDPと呼ばれる問題設定において，方策と呼ばれる行動指針を学習するアルゴリズム．ある環境内におけるエージェントが、現在…

On-policyとOff-policy

強化学習

個人的に定義が曖昧な気がして，嫌だったので自分なりの解釈をまとめておく． Off-policy 一般的にOff-policyは学習の過程で方策πの評価と更新を行わない． Off-policyの手法としてはQ-Learningなどが挙げられる． Q-Learning: 状態行動列を用いて価値関数Q…