专栏名称: 一名搬砖工的日常
个人树洞,记录学习和生活,脚踏实地,迷途未远,来者可追。
目录
相关文章推荐
今天看啥  ›  专栏  ›  一名搬砖工的日常

动态规划 Day 7 - Markov Decision Processes

一名搬砖工的日常  · 公众号  ·  · 2024-06-06 09:47
    

文章预览

本书来自QuantEcon系列Dynamic Programming VOLUME I: FINITE STATES。 https://dp.quantecon.org/ 这节来研究一整类问题离散时间,无穷期动态规划问题,Markov decision processes (MDPs). 能够涵盖很多的应用。 Definition and Properties The MDP Model 先定义一下问题:给定state ,选择每一期的 使得期望效用最大化 有限集 为 state space ,有限集   为 action space 。 Markov decision process (MDP): 一组 定义为从X到A的映射,叫做 feasible correspondence ,由此可以定义所有X和A的取值空间 feasible state-action pairs 折现率 当期效用函数 ,从G到R的映射,叫做 reward function stochastic kernel P,从G*X 到 R的映射满足: 过程如下,观测到当期 后,选择 ,这样就给定了当期的feasible state-action pair 。由此计算reward 。下一期的state 取决于 ,依照这个概率形成下一期state。 Bellman equation: 将以上无穷期过 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览