次の論文を読んだので内容をまとめます。 pathak22.github.io Summary 強化学習においてはエージェントに目的を認識させ、正しく学習を進めさせるために報酬(reward)が必要になる。この報酬は通常人間が手動で与える必要があるが、好奇心(curiosity)という形…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。