【新书】Python中的深度强化学习：用于聊天机器人和大型语言模型的RLHF，650页pdf

专知 · 公众号 · · 2024-07-19 14:00

文章预览

简介通过理论理解深度强化学习（deep RL）中最流行的库，本新版专注于深度RL的最新进展，采用代码学习的方法，使读者能够理解并复现该领域的最新研究。深度强化学习的最新进展本书介绍了从游戏、机器人到金融的新代理环境，帮助读者尝试将强化学习应用于不同领域。多智能体强化学习章节涵盖了多个智能体的竞争方式，另一章节则专注于广泛使用的深度RL算法——近端策略优化（Proximal Policy Optimization, PPO）。读者将了解如何通过大型语言模型（如ChatGPT）使用人类反馈强化学习（Reinforcement Learning from Human Feedback, RLHF）来提升对话能力。实践与部署本书还将介绍在多个云系统上使用代码和在Hugging Face Hub等平台上部署模型的步骤。代码采用Jupyter Notebook格式，可以在Google Colab等深度学习云平台上运行，允许读者根据自己的需求调整代码。无 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博