Model Based RL

Why learn the model（version 0.5&1.0&1.5）

如果我们知道了$f(s_t,a_t)=s_{t+1}$那么我们就可以使用这个来进行planning，选择出actions。所以model-based RL version 0.5如下：

那么这个版本能work吗？

通常不能。如图所示，在左边的山坡上，假如说一开始的策略是随机游走，然后发现往右走能够海拔升高，而我们的目标就是尽可能到高的地方。于是我们开始使用我们学到的transition model来choose actions，然后就落下悬崖了，面临一个从未遇到过的情况。因此实际上问题便是训练时与执行planning时的state distribution发生了偏移。这个问题在transition model用神经网络这个具有丰富expressiveness的工具来表示的情况下会加剧。

于是应该如何改进？我们考虑在执行过程中所见到的state-action-next state pair收集起来，然后放进数据库里面进一步进行训练。这能够缓解distribution shift的问题。

在1.0的第三步中，在学到的目前的policy下采取了一系列的actions，然后才加到数据集里面并更新policy。万一在采取一系列actions的过程中，发生了非常严重的事故呢？而这个事故本来可以是初期避免的呢？比如说开车的时候，直线上方向盘左打了2度，根据这个policy如果执行了几个时间步，那么就寄了。但是本应该一开始就避免掉！如何避免？那就是采取了一个action，比如左打2度，然后到达下一个state，然后立马这一个时间步的状态转移数据进入数据库然后更新policy，然后根据当前的state和学到的policy把这个问题纠正回来。