Log(haya)

備忘録 ー 知識の昇華

強化学習

On-policyとOff-policy

個人的に定義が曖昧な気がして,嫌だったので自分なりの解釈をまとめておく. Off-policy 一般的にOff-policyは学習の過程で方策πの評価と更新を行わない. Off-policyの手法としてはQ-Learningなどが挙げられる. Q-Learning: 状態行動列を用いて価値関数Q…