专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【新书】《强化学习概述》手册,144页pdf

专知  · 公众号  ·  · 2024-12-11 11:00
    

文章预览

本手稿提供了一个全面、最新的强化学习(深度强化学习)与序列决策制定领域的概述,涵盖了基于值的方法、策略梯度方法、基于模型的方法以及其他多个主题(包括对强化学习与大语言模型(RL+LLMs)的简要讨论)。 强化学习概述 序言 文章旨在提供一个强化学习领域的全面概览,包含了来自Murphy先前教科书章节的内容,并添加了大量新资料。 1. 引言 1.1 顺序决策制定 :定义了问题,介绍了通用模型,区分了情节任务与连续任务,并讨论了遗憾的概念。 1.2 典型示例 :包括部分观测MDPs、上下文MDPs、上下文Bandits、信念状态MDPs和优化问题等实例。 1.3 强化学习 :分为基于价值的RL(近似动态规划)、基于策略的RL、基于模型的RL,并探讨了如何处理部分可观察性的问题。 内容框架 文章涵盖了强化学习的基础概念、经典示例以及不同的学习方法, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览