文章预览
1 背景介绍 在强化学习简介及马尔可夫决策过程的案例中,我们采用马尔可夫决策过程中的五元组 进行建模,使用基于动态规划的策略迭代和值迭代方法,利用贝尔曼方程将求解价值函数递归为求解子问题,从而求解最优策略。动态规划方法建立在模型已知的情况下,但是现实中大多数情况下模型是未知的,例如状态转移函数、奖励函数无法提前完全掌握。因此强化学习中的蒙特卡罗方法(Monte Carlo, MC),通过经验学习的方法,从样本轨迹的状态、动作和奖励中估计价值函数,寻找最优策略。 本案例将基于迷宫游戏,对强化学习的蒙特卡罗方法进行介绍。 2 蒙特卡罗算法简介 蒙特卡罗 (Monte Carlo) 是一大类随机算法 (Randomized Algorithms)的总称,它们通过随机样本来估算真实值。 1.估计 值: 均匀生成[-1,1]区间随机数x和y,(x,y)落在 的正方形中圆心为(
………………………………