2017年に UC Berkeleyで開催されたDeep RL Bootcampの動画を見たのでそれをまとめていこうと思う. sites.google.com 強化学習とは MDPと呼ばれる問題設定において,方策と呼ばれる行動指針を学習するアルゴリズム. ある環境内におけるエージェントが、現在…
個人的に定義が曖昧な気がして,嫌だったので自分なりの解釈をまとめておく. Off-policy 一般的にOff-policyは学習の過程で方策πの評価と更新を行わない. Off-policyの手法としてはQ-Learningなどが挙げられる. Q-Learning: 状態行動列を用いて価値関数Q…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。