JSAI2019レポート(1)

世間はすでに7月ですが、6月の頭に新潟で開催された日本人工知能学会の個人的に気になった発表のまとめをなんとか書き終えましたので供養しておきます。

簡単な解説とコメント、関連論文などを載せています。個人的に気になった発表だけフォーカスしているので、分野に偏りがあるのはあらかじめご了承ください。強化学習・不変学習系が中心です。

長くなってしまったので2回に分けてお送りしたいと思います。

強化学習

強化学習と模倣学習の融合による人間らしいエージェント

https://confit.atlas.jp/guide/event-img/jsai2019/1Q2-J-2-01/public/pdf?type=in

通常の強化学習によって得られた方策とエキスパートの方策を \alpha : 1 - \alphaで混ぜたものを教師として模倣学習させる。 模倣学習にあたってはGAILというGANの考え方を取り入れた手法があり、与えられた方策がエキスパートかを判別するDiscriminatorと訓練エージェントを敵対的に学習させていく。

方法は単純だが強化学習に「人間らしさ」を持たせる発想は面白いし、これから大事になっていきそう(対人コミュニケーションとか)。

関連: Generative Adversarial Imitation Learning

階層型強化学習における人間のサブゴール知識転移

https://confit.atlas.jp/guide/event-img/jsai2019/1Q2-J-2-02/public/pdf?type=in

複数の候補方策をもち、それら状況に応じて切り替えること(メタ方策)を学習する階層型学習のフレームワークとしてOption-Criticというものがあるらしい。その中でエージェントが自動的に獲得するサブゴール知識を人が与えられるようにしたらどうなるかという提案(実験未完)。

f:id:ey_nosukeru:20190703235630p:plain

関連: Option-Critic

階層型強化学習RGoalアーキテクチャへの再帰呼び出し用スタックの導入

https://confit.atlas.jp/guide/event-img/jsai2019/3D4-OS-4b-01/public/pdf?type=in

RGoalとは、大域的な目的の他にサブゴール gを導入し、現在向かっているサブゴール gを方策 \pi(s, g, a)や価値関数 Q(s, g, a)というように明示的に導入して学習させるようにしたもの。今回の研究では特にサブゴール gに向かっている際の別のサブゴールの設定 g'をスタックの導入によって可能にし、 ((S \rightarrow g') \rightarrow g) \rightarrow Gのような遷移ができるようにした。

実験をみる限り連続空間・高次元な状態へのスケーリングは現時点ではできていなさそうだが、人間の学習能力においてサブゴールという概念は重要な役割を果たしているように思うので今後の進展に注目したいです。

関連: RGoal

深層強化学習エージェントの行動別顕著性マップの生成に関する考察

https://confit.atlas.jp/guide/event-img/jsai2019/3K4-J-2-01/public/pdf?type=in

顕著性マップとは簡単にいうとフレームの一部をマスクしてぼかした時にどれくらいエージェントのパフォーマンスに影響するかを計算して可視化したもの。本研究ではその変動の評価関数の絶対値を外してパフォーマンスにプラスに働くものとマイナスに働くものを区別して可視化できるようにした。

f:id:ey_nosukeru:20190703235730p:plain:w300

関連: Grad-CAM, Visualizing and Understanding Atari Agents

複数の報酬関数を推定可能なタスク条件付き敵対的模倣学習

https://confit.atlas.jp/guide/event-img/jsai2019/4I3-J-2-02/public/pdf?type=in GAILにおいて生成器(エージェント)や識別器にタスクのコンテキストを表す潜在変数 cを導入することで、複数のタスクを扱えるようにしたInfoGAILやconditionalGAILという枠組みがある(モーションキャプチャにおける人の動きの模倣などの応用があるそう)。エントロピー正則化項を導入して学習を安定化させ、迷路上での複数タスク(目的地)で実験を行った。

サブゴール系とも関連しますがコンテキストの導入・マルチタスクという部分が目新しく興味を惹かれました。言及されているモーションキャプチャでの応用やメタラーニングと組み合わせて未知のタスクに対応させるなどできたら面白そうです。

関連: InfoGAIL, conditionalGAIL

大局基準値共有による社会的強化学習

https://confit.atlas.jp/guide/event-img/jsai2019/3K3-J-2-04/public/pdf?type=in

複数のエージェントを走らせつつエージェント間でパフォーマンスを共有し、それを元に基準値を決定し、報酬調整によりそれを上回っているエージェントについては活用(exploitation)を、下回っているエージェントについては探索(exploration)を積極的に行わせるようにしたRisk-Sensitive Satisficingという学習法がある。各状態・行動ペアに対して基準値を設定していた従来手法に対し、大局的(最終的)な結果を元にそれぞれの状態の基準値を適切に設定することで学習を安定化した。エージェントごとにexploitation/explorationをうまく使い分けて、全体としては安定的に学習が進んで行くことが期待される。

人間の競争志向を取り入れた面白い学習法だと思いました。ただ現状状態カウントベースな量を報酬に組み込んで実験も離散的な設定でしかできていないので、うまくDNNと組み合わせてスケール化が進むことを期待したいです。

関連: 満足化強化学習

深層強化学習を用いたWebサイト内行動のレコメンド

https://confit.atlas.jp/guide/event-img/jsai2019/4O2-J-2-01/public/pdf?type=in

エージェントをWebサイト、状態をサイト訪問中のユーザーの特徴量、アクションを推薦するアイテム等として、報酬であるコンバージョン(会員登録や商品購入など運営がユーザーに期待する行動)を最大化すルためのアルゴリズムとして強化学習を適用したという発表。強化学習を推薦に用いるというのをあまり聞いたことがなかったので新鮮でした。

関連: DRN: A Deep Reinforcement Learning Framework for News Recommendation

進化的計算と方策勾配法による学習を用いた3次元制御タスクにおけるマルチタスク深層強化学習

https://confit.atlas.jp/guide/event-img/jsai2019/4Rin1-04/public/pdf?type=in

3次元におけるマルチタスク学習において、通常の勾配を用いる強化学習に遺伝アルゴリズムを組み合わせた手法。基本的には全く勾配計算を行わずランダムに初期化したニューラルネットを交叉したり突然変異させたりして世代を更新していくが、エリート(性能のいいサンプル)だけは実際に勾配計算を行い、最適化したものを次の世代に追加することで学習の促進を促す。

f:id:ey_nosukeru:20190703235146p:plain

提案手法だと複数タスクの学習が混ざってうまく行かないような気もするのですが、マルチタスク学習において有利なパラメータを遺伝的アルゴリズムで最適化するというのはかなり面白いアイデアだと思いました。

不変学習・メタラーニング

ペアワイズニューラルネット距離による不変表現学習

https://confit.atlas.jp/guide/event-img/jsai2019/1I4-J-2-02/public/pdf?type=in

何らかの属性 aに分類される観測値 xについて、目標値 yに関する情報が保存され、かつ aに依存しないような特徴量 zを抽出することを目標とする分野として不変表現学習がある。この a zの依存性の尺度としては条件つきエントロピーが理想であるが、解析的に計算することはできず、この部分を zから aの予測のしづらさとしてエンコーダー E(x)と予測器 M(z)を敵対的に学習させる敵対的特徴学習が提案されているが、実際には不安定な挙動を示すことがある。別の手法としてそれぞれのカテゴリに対応する zの分布 P_a (z)の全ての組み合わせについてその分布間距離 \frac{1}{|A|} \sum _ {a, a'} d( P _ a(z), P _ {a'}(z) )を指標として用いるペアワイズ不変学習を提案している。分布間距離としては2つの分布からのサンプルを区別するよう訓練された識別器の性能によってその近さを評価するニューラルネット距離を用いる。ペアワイズ距離は通常 |A|の2乗に比例する識別器が必要になるが、識別器を特徴抽出部 Gと線形変換部 Hの合成 G \circ Hとして表せると仮定することで、属性数 |A|の出力を持つ普通のニューラルネット1つによって共通化できる。

f:id:ey_nosukeru:20190703235852p:plain

関連: Adversarial Feature Learning

分類性能による制約を考慮した敵対的不変表現学習によるドメイン汎化

https://confit.atlas.jp/guide/event-img/jsai2019/1Q4-J-2-03/public/pdf?type=in

ドメイン汎化(訓練データにないドメインのデータに対しても妥当な推論が可能になることを目指すタスク)では観測値 xの特徴量 zドメイン dに関する情報量を持たないことを目指す不変学習が用いられることが多いが、実際にはドメインと観測値はある程度の相関をもつ場合が多く、その関係が失われることが推論の精度を下げてしまっている可能性がある。特徴抽出に際して H(d|z) = H(d) z dに関する情報を持たないこと)ではなく H(d|z) = H(d|y)(目標値が持っている dについての情報と同じだけ、 z dについての情報を持つこと)を目指し、 p(d|z) p(d|y)のKLダイバージェンスを誤差関数に組み込んで学習させる。これにより、推論精度を損なわない範囲で不変的な特徴量が学習されることが期待される。

f:id:ey_nosukeru:20190703235932p:plain

メタ学習としてのGenerative Query Network

https://confit.atlas.jp/guide/event-img/jsai2019/2Q5-J-2-03/public/pdf?type=in

3次元空間上の複数視点からの画像を入力して訓練することで、任意の視点からの画像を生成することのできるGQN(Generative Query Network)が昨年DeepMindから発表され話題になった。しかしこのモデルをマルチタスク学習のためのメタ学習の枠組みから見るとアーキテクチャ的に余分な変数や依存関係が存在する。この考察に基づいて変数を削減することで、学習の安定性だけでなく性能自体やハイパーパラメータに対する頑健性も向上した。

f:id:ey_nosukeru:20190704000006p:plain:w350

個人的に洗練されたアーキテクチャ改善手法に感動し、メタラーニングに興味を持ったきっかけになった発表です。

関連: GQN, メタ学習(ML-PIP)

次回につづく