【新书】《强化学习概述》手册，144页pdf

专知 · 公众号 · · 2024-12-11 11:00

文章预览

本手稿提供了一个全面、最新的强化学习（深度强化学习）与序列决策制定领域的概述，涵盖了基于值的方法、策略梯度方法、基于模型的方法以及其他多个主题（包括对强化学习与大语言模型（RL+LLMs）的简要讨论）。强化学习概述序言文章旨在提供一个强化学习领域的全面概览，包含了来自Murphy先前教科书章节的内容，并添加了大量新资料。 1. 引言 1.1 顺序决策制定：定义了问题，介绍了通用模型，区分了情节任务与连续任务，并讨论了遗憾的概念。 1.2 典型示例：包括部分观测MDPs、上下文MDPs、上下文Bandits、信念状态MDPs和优化问题等实例。 1.3 强化学习：分为基于价值的RL（近似动态规划）、基于策略的RL、基于模型的RL，并探讨了如何处理部分可观察性的问题。内容框架文章涵盖了强化学习的基础概念、经典示例以及不同的学习方法， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博