文章预览
本书来自QuantEcon系列Dynamic Programming
VOLUME I: FINITE STATES。 https://dp.quantecon.org/ MDP很有用,上一节的nonlinear也很有用,不过很多时候的问题并不是完全适用,这里讨论更广泛情况下的设定和求解. Defining RDPs 定义与MDP非常相似 Definition- recursive decision process , 表示形如以下问题 action space: state space: feasible correspondence: feasible state-action pairs: feasible policies: value space: value aggregator: 满足monotonicity condition 以及consistency condition: 对比一下之前的的MDP可以发现区别几乎就在于这里定义的是B,而之前定义的是reward function和P. 其他定义一样的. 并且也可以看出RDP是比MDP要更广泛的. MPD可以写为RDP: 只需要定义B如下即可 然后判断monotonicity和consistency condition都是成立的. 这在MDP对于r和P的假设下不言自明. 几个例子: 之前的cake eating problem可以写为 optimal stopping problem可以写为 Stat
………………………………