专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
目录
今天看啥  ›  专栏  ›  AIGC开放社区

极客说|深度对比:SFT、ReFT、RHLF、RLAIF、DPO、PPO

AIGC开放社区  · 公众号  ·  · 2024-12-13 16:21
    

主要观点总结

ReFT是一种结合有监督微调和强化学习的方法,旨在提高模型在复杂推理和多步骤任务上的能力。该方法适用于有明确正确答案的任务,需要复杂推理的任务,以及希望增强模型泛化和自主学习能力的场景。

关键观点总结

关键观点1: 定义

ReFT是Reinforced Fine-Tuning的缩写,是一种结合了监督微调(SFT)和强化学习(PPO算法)的技术。

关键观点2: 工作流程

ReFT首先进行有监督微调(SFT),让模型学习基本能力,然后进入强化学习阶段,使用PPO算法优化模型,使其能够自主探索并提高泛化能力。

关键观点3: 评估方式

ReFT的评估过程通过自动化程序完成,将模型的输出与标准答案进行比较,给予奖励或惩罚,无需其他大模型参与。

关键观点4: 适用场景

ReFT适用于有明确正确答案的任务、需要复杂推理的任务、希望增强模型泛化和自主学习能力的场景,如数学问题求解、逻辑推理、编程和代码生成等。

关键观点5: 评估流程

在ReFT的评估流程中,模型生成的答案会被提取并标准化处理,然后与标准答案进行比较和奖励分配。


文章预览

作者:魏新宇 - 微软 AI 全球黑带高级技术专家 排版:Alan Wang 「极客说」 是一档专注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限可能!投稿请联系:17278094563(微信号) https://github.com/xinyuwei-david/david-share.git 最近 OpenAI Day2 展示的 demo 可能把 ReFT 带火了。实际上这不是一个很新的概念,也不是 OpenAI 原创的论文。 接下来,本文对比 SFT、ReFT、RHLF、DPO、PPO 这几种常见的技术。 几种技术之间的关系 如果把复杂的问题简单理解,这些技术之间的关系大概是: 1. ReFT(Reinforced Fine-Tuning,强化微调) : 组成: ReFT = SFT + PPO 过程:在有监督微调(SFT)的基础上,使用 PPO(近端策略优化) ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览