[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learning model-based planning from scratch

DEEP LEARNING JP
[DL Papers]
Learning model-based planning from scratch &
Imagination-Augmented Agents for Deep Reinforcement Learning
Hiroaki Shioya, Matsuo Lab
http://deeplearning.jp/

論文情報
2
● 2本ともDeepMindが発表した深層強化学習＋プランニングに関する論文
● 11 July 2017発表で、現状arxivのみ
● モチベーション
○ model-base大事
○ プランニング大事

強化学習
● エージェントの良いふるまいを学習したい
● 問題設定
3
environment
P, R, γ
agent
Π, V
a s, r
notation:
s : 状態
a : 行動
r : 報酬
P：遷移関数 (s×a→s)
R : 報酬関数 (s×a→r)
Π：方策(s→a)
V : 価値関数(s → v)
γ : 割引率
環境との相互作用を通じて ΠやVを学習し、累積期待報酬和の最大化を目指す

強化学習とDeep Learning
● 方策や価値関数を表す強力な関数近似器
○ 画像など高次元の生データを状態入力として処理可
○ 複雑なタスクを解けるような方策、価値関数も近似可
● 複雑なタスクをNNで扱う際に生じる学習の不安定性や試行回数の多さを補うよう
に強化学習アルゴリズムが発展
○ DQN, TRPO (安定性)
○ GPS(サンプル効率)
4
state
NN policy
action
state
NN value
function
state value

プランニングって何
● 外部環境のモデル(PとR)をもっておいて、先読みした結果を元にどう行動するか決
める
5
: 状態(s)
: 行動(a)
のモデル
(internal model)
良さそう
実環境
real world
a

最近の研究成果の多くは、プランニングを用いていない
● DQN, DDPG, TRPOなど、近年よく使われる深層強化学習アルゴリズムは、多くが
環境の内部モデルをもたない (モデルフリー)
6
: 状態(s)
: 行動(a)
のモデル
(internal model)
良さそう
実環境
real world
a

ではどうしてるの？→ 経験から価値を推定する
● ある状態sで行動aをとるとどれくらい良さそうか（報酬を多く獲得できそうか）を経験
をもとに推定していく
● 結果、状態sの観測に対し、試行錯誤の期間に試してみて良かった行動をとるよう
になる
7

モデルフリーができるのに、なんでプランニングしたいの
● モデルフリーだと異なる設定に一般化できない
○ 目標が変化しても、学習期間に良かった行動を取り続ける
● モデルベースの方が、サンプル効率が良くなる
○ 特にDRLは試行回数が重い
● 人間もやってるっぽい
○ 神経科学の知見にも合う [Hassabis 2017]
○ 経験的にも、プランニングしてるよね
8
[Hassabis 2017] Hassabis, Demis, et al. "Neuroscience-Inspired Artificial Intelligence." Neuron95.2 (2017): 245-258.

なんでプランニングしないの→モデルが不正確
● 多くのタスクでは、環境のモデルは未知
○ 囲碁などのゲームはあてはまらない
● 未知な場合は、経験を元に学習する
○ しかし、学習しても誤差はある程度残る
● 不正確なモデルを使うと、却ってダメな結果を導く
○ しかも、強化学習のように前の予測結果にさらにモデルを使用する問題設定だと、ステップが進む
につれて誤差が蓄積、拡大する
9
内部モデルの予測軌道
実際の軌道

(Classical) Planning
● 多くは完全なモデルを与えられているか、単純なモデルで近似
● 例
○ trajectory optimization
○ model predictive control(MPC)
○ Dyna [Sutton 1991]
○ Monte Carlo Tree Search(MCTS)
10
[Sutton 1991]Dyna, an integrated architecture for learning, planning, and reacting. ACM SIGART Bulletin, 2(4):160–163, 1991

(Classical) Planning + DL
● モデルをNNで近似すれば複雑なダイナミクスでも扱えないだろうか？
○ 従来はlinear conbination feature, gaussian processなどで近似
● 例
○ trajectory optimization + DL
■ Embed to Control [Watter 2015]
■ Prediction and Control with Temporal Segment Models [Mishara 2017]
○ model predictive control(MPC) + DL
■ Deep MPC [Lenz 2015]
■ Deep Video Prediction [Finn 2017]
● 十分な成功を収めているとは言い難い
11
[Watter 2015] Embed to control: A locally linear latent dynamics model for control from raw images. In Advances in Neural Information Processing Systems, pages 2746–2754, 2015.
[Mishara 2017]Mishra, Nikhil, Pieter Abbeel, and Igor Mordatch. "Prediction and Control with Temporal Segment Models." arXiv preprint arXiv:1703.04070 (2017).
[Lenz 2015] DeepMPC: Learning deep latent features for model predictive control. In Robotics: Science and Systems, 2015.
[Finn 2017]Deep visual foresight for planning robot motion. In IEEE International Conference on Robotics and Automation (ICRA), 2017

ここまでのまとめ
● 近年のDRLの発展は目覚ましいが、その多くがモデルフリー
● モデルフリーは異なる設定での汎化性能に欠点があり、克服のためにはモデル
ベースのプランニングが鍵になりそう
● しかし、(NNのような強力な関数近似器を用いても)十分な正確性をもったモデルを
学習するのは難しく、プランニング活用の壁になっている
12

Imagination-Augmented Agents
for Deep Reinforcement Learning
13

不正確なプランニングをNNに解釈してほしい
● モデルを正確に推定するのは難しいので、代わりに不正確なプランニングから使え
る情報だけ抽出して、残りは無視してほしい
● どう抽出すればいいのかよくわからない→NNに投げて抽出してもらおう
● プランニングだけからは行動を決定できないので、モデルフリーRLも学習して、プラ
ンニングからの情報はそのcontext infromationとして活用しよう
14

Model
a. imagination core
○ 内部モデルに相当する
○ environment modelの構造は下図
b. Single imagination rollout
○ 1.がplanningに、2.がそれを解釈する部分に
相当する
○ 2. encoder は逆向きLSTM(あまり向きは大
事じゃなかった)
c. Full I2A Architecture
○ planningとmodel-freeを統合する
○ aggregaterは単純なconcat
○ 最後に２つを入力にとる NN
15

学習
a. imagination core
○ pre-trainする（その方が早いらしい）
○ π_^はπを蒸留して得る
b. Single imagination rollout
○ 普通のRL
c. Full I2A Architecture
○ 普通のRL
16

imagination rollout strategy
● 選択可能な各行動から１回ずつrolloutする
○ つまり行動が離散の場合の戦略しか示されていない
○ この論文ではALEでしか実験してないので問題はない
17

実験１：Sokoban
● ブロックを特定の位置まで運ぶパズルゲーム
● プランニングが求められる特性をもつ
○ ブロックは押すことしかできないので一部不可逆な移動が生じる
○ 毎回パズルの配置が異なる
18

model-bath pathは有効、不完全なモデルも扱える
● I2A(提案手法)がstandard(I2Aのmodel-free
pathのみ)を上回る
● copy-IAAはEMを元のoを返すものに置換し
たもの(parameter増の影響をみるため )
● no reward IAAはobservationのみ予測
● unroll depthは5がoptimalだった（ゲーム自
体は平均50stepくらい）
● I2Aはpoor model(parameter落として精度下
げた)でもタスク成功率が落ちない
● MCはencodingなし
● MCはmodelが良くてもstandardと同程度、
modelが悪いと性能に壊滅的な悪影響を与
える
19

MCTSより読みの効率良い、タスク間汎化も
● 完全なモデルを与える
● I2A@87とMCTS@87を比較すると読んだス
テップ数が１桁違う
● MCTSは読みを増やせばさらに性能をあげ
られるが、I2AもMC searchがつかえて、や
はり高効率
● 4boxでtrainした
● I2Aはstandardと比べて汎化
20

実験２：MiniPacman
● 1つのモデルで異なるタスクに使える内部モデルを学習できるか実験
● タスクを変更してもEMは追加で学習しない
● それでもI2Aがbaselineを上回る
21

まとめ
● 不正確なプランニングをNNでうまく処理してmodel-free methodに取り込むことが
できた
● 他のタスクに対して適用できるか、今後の発展に期待
● あと、step数で比較しているが、内部シミュレーションが入っていないので計算コス
トは増えている
22

Learning model-based planning from scratch
23

プランニングの構築の仕方自体も学習できないか
● 不正確性に対処できればプランニングは完成か？→ No!
● どこを読むか、どこで読みを打ち切るかはヒューリスティックに設計している
○ 読みを打ち切って行動してみるべきか、読むならどのノードから読みを始めるべきかは自由度があ
る、それにimaginationはタダじゃない
● どこを、どこまで読むか決定するメタなエージェントも一緒に学習したい
24

METACONTROL FOR ADAPTIVE IMAGINATION-BASED OPTIMIZATION[Hamrick 2017]
● ICML 2017
● 本論文と近いアイデア
○ meta controllerが、行動するか否か、どの
モデルでプランを評価するかを決める
○ 計算コストの低いモデルを適合的に使い
たいというモチベーション
● one-shot decision makingな問題
25
[Hamrick 2017]Metacontrol for adaptive imagination-based optimization, 2017

Model
● Manager
○ 読みを打ち切るかどうか、どこから読み
始めるか決める
■ 行動空間はact or not + 読み始め候補のnode数
○ これまでの行動や読みの履歴を入力
● Controller
○ 現在状態とMemoryの出力を受け取る
○ imagineとactで共通
● Imagination
○ 環境の内部モデル
○ Interaction Networkを使う
● Memory
○ 読みや行動の結果を文脈とともに記憶
○ LSTM
26

Imagination Strategy
● ３つのimagination strategyを考えた
○ 1-step: 常に現在のノードから読みの続き
を始める
○ n-step: 常に最後のノードから読みの続き
を始める
○ tree: これまで読んだ任意のノードから読
みを始めて良い
27

学習
● Manager
○ タスクに関するlossと、imaginationにか
かるコストを報酬にして REINFORCE
● Controller
○ タスクに関するlossのみを使いSVG
● Imagination
○ 現実で行動した際のデータを使って教師
あり学習
● Memory
○ Controllerと同時に学習
28

実験１：Spaceship task
● 目的の場所への到着を目指す
● 惑星どうしの複雑な重力場がある
● コントロールにも一定のノイズ
29

結果
A. 読みを増やすと良くなる
B. imagination costを増やすと、読みを
減らすよう学習できてる
C. imagination costを増やすと、読みが
減ってtotal costは増える
D. imagination strategyは
1-step<n-step<tree
E. D.に同じ
下図は、生成されたimaginationとactionの
軌道
30

実験２：Discrete mazes
● 迷路を解くタスク
● discrete domainにも適用してみる
● perfect modelを与えている
● その他、meta controllerを与えてしまうなど、ちょっと怪しい
31

結果
● 上図：タスク中に現れたimagination
strategyの割合,状況により様々な
strategyがあり得る
● 下図上 : 迷路同じでゴールが異なる。
imaginationによって異なるタスクにも
汎化
● 下図下：迷路もゴールも異なる場合
32

まとめ
● プランニングの情報を用いて難しいcontinuous coutrolタスクの精度向上
● 加えて、meta controllerがimaginationのコストを見ながら、どこから読むのか、い
つまで読むのかを学習してくれる
● 今後はより広範なタスクへの適用に期待
● internal resource costをどう設計するかは謎
33

おまけ）プランニングに関して、その他の方向性
34

記号的推論、因果推論との統合
● Schema Networks: Zero-shot
Transfer with a Generative Causal
Model of Intuitive Physics[Kansky
2017]
○ ICML 2017
○ AIベンチャー, vicariousの論文
○ オブジェクト間の物理的な因果関係を獲
得して、目標から逆向きに推論する計画
問題を解く。物理法則が変化していない別
タスクにzero shotで適応できる。
○ DLじゃない
35
[Kansky 2017]Schema networks: Zero-shot transfer with a generative causal model of intuitive physics. Accepted at International Conference for Machine Learning, 2017, 2017.

物理的な関係推論
● Interaction Network[Battaglia 2016]
● NIPS 2016
● 物理的な運動推論ができる
● Visual Interaction Network[Watters 2016]
● 画像から物理的な運動推論が可能
36
[]Battaglia 2016]Interaction networks for learning about objects, relations and physics. In Advances in Neural Information Processing Systems, pages 4502–4510, 2016
[Watters 2016]Visual interaction networks,” CoRR, vol. abs/1706.01433, 2017. [Online]. Available: http://arxiv.org/abs/ 1706.01433.
これまで難しかった環境の予測モデルができる？

さらにその先？
● 既知の因果関係を組み合わせて、未知の因果関係を推測
○ 0ショットで環境のモデルを獲得できる可能性がある
37

まとめ
● プランニングの活用はRLにおいて大事
● Imagination-Augmented Agents for Deep Reinforcement Learningでは、モデル
にほぼ不可避な不正確性を扱う新しい方法を提案
● Learning model-based planning from scratchでは、プランニングの構築自体を学
習する枠組みを提案、新しい課題に着手している
● その他にも、プランニングの新しい側面にチャレンジするための要素が少しずつで
てきている
38

[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learning model-based planning from scratch

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (19)

En vedette

En vedette (6)

Similaire à [DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learning model-based planning from scratch

Similaire à [DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learning model-based planning from scratch (20)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

Dernier

Dernier (9)

[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learning model-based planning from scratch