专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【新书】Python中的深度强化学习:用于聊天机器人和大型语言模型的RLHF,650页pdf

专知  · 公众号  ·  · 2024-07-19 14:00
    

文章预览

简介 通过理论理解深度强化学习(deep RL)中最流行的库,本新版专注于深度RL的最新进展,采用代码学习的方法,使读者能够理解并复现该领域的最新研究。 深度强化学习的最新进展 本书介绍了从游戏、机器人到金融的新代理环境,帮助读者尝试将强化学习应用于不同领域。多智能体强化学习章节涵盖了多个智能体的竞争方式,另一章节则专注于广泛使用的深度RL算法——近端策略优化(Proximal Policy Optimization, PPO)。读者将了解如何通过大型语言模型(如ChatGPT)使用人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)来提升对话能力。 实践与部署 本书还将介绍在多个云系统上使用代码和在Hugging Face Hub等平台上部署模型的步骤。代码采用Jupyter Notebook格式,可以在Google Colab等深度学习云平台上运行,允许读者根据自己的需求调整代码。 无 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览