3. 強化学習
● エージェントの良いふるまいを学習したい
● 問題設定
3
environment
P, R, γ
agent
Π, V
a s, r
notation:
s : 状態
a : 行動
r : 報酬
P:遷移関数 (s×a→s)
R : 報酬関数 (s×a→r)
Π:方策(s→a)
V : 価値関数(s → v)
γ : 割引率
環境との相互作用を通じて ΠやVを学習し、累積期待報酬和の最大化を目指す
4. 強化学習とDeep Learning
● 方策や価値関数を表す強力な関数近似器
○ 画像など高次元の生データを状態入力として処理可
○ 複雑なタスクを解けるような方策、価値関数も近似可
● 複雑なタスクをNNで扱う際に生じる学習の不安定性や試行回数の多さを補うよう
に強化学習アルゴリズムが発展
○ DQN, TRPO (安定性)
○ GPS(サンプル効率)
4
state
NN policy
action
state
NN value
function
state value
10. (Classical) Planning
● 多くは完全なモデルを与えられているか、単純なモデルで近似
● 例
○ trajectory optimization
○ model predictive control(MPC)
○ Dyna [Sutton 1991]
○ Monte Carlo Tree Search(MCTS)
10
[Sutton 1991]Dyna, an integrated architecture for learning, planning, and reacting. ACM SIGART Bulletin, 2(4):160–163, 1991
11. (Classical) Planning + DL
● モデルをNNで近似すれば複雑なダイナミクスでも扱えないだろうか?
○ 従来はlinear conbination feature, gaussian processなどで近似
● 例
○ trajectory optimization + DL
■ Embed to Control [Watter 2015]
■ Prediction and Control with Temporal Segment Models [Mishara 2017]
○ model predictive control(MPC) + DL
■ Deep MPC [Lenz 2015]
■ Deep Video Prediction [Finn 2017]
● 十分な成功を収めているとは言い難い
11
[Watter 2015] Embed to control: A locally linear latent dynamics model for control from raw images. In Advances in Neural Information Processing Systems, pages 2746–2754, 2015.
[Mishara 2017]Mishra, Nikhil, Pieter Abbeel, and Igor Mordatch. "Prediction and Control with Temporal Segment Models." arXiv preprint arXiv:1703.04070 (2017).
[Lenz 2015] DeepMPC: Learning deep latent features for model predictive control. In Robotics: Science and Systems, 2015.
[Finn 2017]Deep visual foresight for planning robot motion. In IEEE International Conference on Robotics and Automation (ICRA), 2017
15. Model
a. imagination core
○ 内部モデルに相当する
○ environment modelの構造は下図
b. Single imagination rollout
○ 1.がplanningに、2.がそれを解釈する部分に
相当する
○ 2. encoder は逆向きLSTM(あまり向きは大
事じゃなかった)
c. Full I2A Architecture
○ planningとmodel-freeを統合する
○ aggregaterは単純なconcat
○ 最後に2つを入力にとる NN
15
16. 学習
a. imagination core
○ pre-trainする(その方が早いらしい)
○ π_^はπを蒸留して得る
b. Single imagination rollout
○ 普通のRL
c. Full I2A Architecture
○ 普通のRL
16
30. 結果
A. 読みを増やすと良くなる
B. imagination costを増やすと、読みを
減らすよう学習できてる
C. imagination costを増やすと、読みが
減ってtotal costは増える
D. imagination strategyは
1-step<n-step<tree
E. D.に同じ
下図は、生成されたimaginationとactionの
軌道
30
35. 記号的推論、因果推論との統合
● Schema Networks: Zero-shot
Transfer with a Generative Causal
Model of Intuitive Physics[Kansky
2017]
○ ICML 2017
○ AIベンチャー, vicariousの論文
○ オブジェクト間の物理的な因果関係を獲
得して、目標から逆向きに推論する計画
問題を解く。物理法則が変化していない別
タスクにzero shotで適応できる。
○ DLじゃない
35
[Kansky 2017]Schema networks: Zero-shot transfer with a generative causal model of intuitive physics. Accepted at International Conference for Machine Learning, 2017, 2017.
36. 物理的な関係推論
● Interaction Network[Battaglia 2016]
● NIPS 2016
● 物理的な運動推論ができる
● Visual Interaction Network[Watters 2016]
● 画像から物理的な運動推論が可能
36
[]Battaglia 2016]Interaction networks for learning about objects, relations and physics. In Advances in Neural Information Processing Systems, pages 4502–4510, 2016
[Watters 2016]Visual interaction networks,” CoRR, vol. abs/1706.01433, 2017. [Online]. Available: http://arxiv.org/abs/ 1706.01433.
これまで難しかった環境の予測モデルができる?