注册
登录
专栏名称:
大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
高分子科学前沿
·
Molecules期刊2022–2023年中 ...
·
昨天
高分子科技
·
东南大学李全院士团队 Angew ...
·
2 天前
艾邦高分子
·
罗姆化学携手多家企业突破PMMA回收瓶颈!
·
2 天前
艾邦高分子
·
朗盛离子交换树脂应用于移动水处理装置中以去除 ...
·
3 天前
今天看啥
›
专栏
›
大语言模型和具身智体及自动驾驶
REFT:强化微调推理
大语言模型和具身智体及自动驾驶
·
公众号
· · 2024-12-14 00:03
文章预览
24年1月来自字节的论文“REFT: Reasoning with REinforced Fine-Tuning”。 增强大语言模型 (LLM) 推理能力的一种方法,是使用思维链 (CoT) 注释进行监督微调 (SFT)。然而,这种方法没有表现出足够强的泛化能力,因为训练仅依赖于给定的 CoT 数据。例如,在数学问题解决中,训练数据中每个问题通常只有一条带注释的推理路径。直观地讲,给定一个问题,算法从多条带注释的推理路径中学习会更好。为了解决这个问题,一种简单而有效的方法,称为强化微调 (ReFT),增强学习 LLM 用于推理的泛化能力,以数学问题解决为例。 ReFT 首先使用 SFT 对模型进行热身,然后采用在线强化学习(具体为本文中 PPO 算法)进一步微调模型,其中给定问题会自动采样大量推理路径,并且奖励自然来自真实答案。在 GSM8K、MathQA 和 SVAMP 数据集上进行的大量实验表明,ReFT 明显优于 SFT ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
高分子科学前沿
·
Molecules期刊2022–2023年中国top高校高引文章精选
昨天
高分子科技
·
东南大学李全院士团队 Angew 封面:在固态可见光光致变色材料领域取得重要进展
2 天前
艾邦高分子
·
罗姆化学携手多家企业突破PMMA回收瓶颈!
2 天前
艾邦高分子
·
朗盛离子交换树脂应用于移动水处理装置中以去除PFAS
3 天前
上海证券报
·
今夜,“摘帽”×4!
6 月前
晚点LatePost
·
#晚点快讯#丨#极兔送一单快递成本2.28元#,极兔中国首次扭亏-20240820141217
4 月前