強化学習では, 方策勾配による学習方法が主流であるが, 方策勾配とは何か?? 自分のイメージを文章化してみました. 長くなりますが, 言いたいこととしては, 「方策勾配法とは, ある状態と行動のもっともらしさ(確率)を, 価値関数でガイドしながら修正していく…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。