強化学習

直感的な方策勾配法の理解(「方策勾配」と「方策反復&価値反復」の関係)

強化学習では, 方策勾配による学習方法が主流であるが, 方策勾配とは何か?? 自分のイメージを文章化してみました. 長くなりますが, 言いたいこととしては, 「方策勾配法とは, ある状態と行動のもっともらしさ(確率)を, 価値関数でガイドしながら修正していく…