文章预览
本书来自QuantEcon系列Dynamic Programming
VOLUME I: FINITE STATES。 https://dp.quantecon.org/ 这节来研究一整类问题离散时间,无穷期动态规划问题,Markov decision processes (MDPs). 能够涵盖很多的应用。 Definition and Properties The MDP Model 先定义一下问题:给定state ,选择每一期的 使得期望效用最大化 有限集 为 state space ,有限集 为 action space 。 Markov decision process (MDP): 一组 定义为从X到A的映射,叫做 feasible correspondence ,由此可以定义所有X和A的取值空间 feasible state-action pairs 折现率 当期效用函数 ,从G到R的映射,叫做 reward function stochastic kernel P,从G*X 到 R的映射满足: 过程如下,观测到当期 后,选择 ,这样就给定了当期的feasible state-action pair 。由此计算reward 。下一期的state 取决于 ,依照这个概率形成下一期state。 Bellman equation: 将以上无穷期过
………………………………