专栏名称: 图灵人工智能
人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。
今天看啥  ›  专栏  ›  图灵人工智能

精品案例 | 强化学习中的蒙特卡罗方法

图灵人工智能  · 公众号  ·  · 2024-09-20 00:00

文章预览

1 背景介绍 在强化学习简介及马尔可夫决策过程的案例中,我们采用马尔可夫决策过程中的五元组 进行建模,使用基于动态规划的策略迭代和值迭代方法,利用贝尔曼方程将求解价值函数递归为求解子问题,从而求解最优策略。动态规划方法建立在模型已知的情况下,但是现实中大多数情况下模型是未知的,例如状态转移函数、奖励函数无法提前完全掌握。因此强化学习中的蒙特卡罗方法(Monte Carlo, MC),通过经验学习的方法,从样本轨迹的状态、动作和奖励中估计价值函数,寻找最优策略。 本案例将基于迷宫游戏,对强化学习的蒙特卡罗方法进行介绍。 2 蒙特卡罗算法简介 蒙特卡罗 (Monte Carlo) 是一大类随机算法 (Randomized Algorithms)的总称,它们通过随机样本来估算真实值。 1.估计 值: 均匀生成[-1,1]区间随机数x和y,(x,y)落在 的正方形中圆心为( ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览