今天看啥  ›  专栏  ›  一名搬砖工的日常

动态规划 Day 10 - Recursive Decision Processes

一名搬砖工的日常  · 公众号  ·  · 2024-06-09 08:51
    

文章预览

本书来自QuantEcon系列Dynamic Programming VOLUME I: FINITE STATES。 https://dp.quantecon.org/ MDP很有用,上一节的nonlinear也很有用,不过很多时候的问题并不是完全适用,这里讨论更广泛情况下的设定和求解. Defining RDPs 定义与MDP非常相似 Definition- recursive decision process , 表示形如以下问题 action space: state space: feasible correspondence: feasible state-action pairs: feasible policies: value space: value aggregator: 满足monotonicity condition 以及consistency condition: 对比一下之前的的MDP可以发现区别几乎就在于这里定义的是B,而之前定义的是reward function和P. 其他定义一样的. 并且也可以看出RDP是比MDP要更广泛的. MPD可以写为RDP: 只需要定义B如下即可 然后判断monotonicity和consistency condition都是成立的. 这在MDP对于r和P的假设下不言自明. 几个例子: 之前的cake eating problem可以写为 optimal stopping problem可以写为 Stat ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览