強化学習

【論文読み】Large-Scale Study of Curiosity-Driven Learning

pathak22.github.io Summary この前の論文(Curiosity-Driven Learning)の続きみたいな感じの論文。特に外的報酬を全く利用しない場合に焦点を当て、内的な報酬のみでどれだけタスクをこなせるか・どんな挙動が観察されるかについて広範囲の実験を行なったも…

【強化学習入門】PolicyGradientでOpenAI GymのCartPoleをクリアする

こんにちは。nosukeruです。 今回は強化学習のアルゴリズムを実際に実装し、この分野で一般的なベンチマークとして用いられるOpenAI Gymを使って遊んでみました。 コードはここに置いています(今後も追加予定)。深層学習のライブラリにはPyTorchを使ってい…

【論文読み】Curiosity-driven Exploration by Self-supervised Prediction

次の論文を読んだので内容をまとめます。 pathak22.github.io Summary 強化学習においてはエージェントに目的を認識させ、正しく学習を進めさせるために報酬(reward)が必要になる。この報酬は通常人間が手動で与える必要があるが、好奇心(curiosity)という形…