专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

今日arXiv最热NLP大模型论文:清华大学提出IFT对齐算法,打破SFT与RLHF局限性

夕小瑶科技说  · 公众号  ·  · 2024-05-29 14:16
    

文章预览

夕小瑶科技说 原创 作者 | 谢年年 监督微调(Supervised Fine-Tuning, SFT)和基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)是预训练后提升语言模型能力的两大基础流程,其目标是使模型更贴近人类的偏好和需求。 考虑到监督微调的有效性有限,以及RLHF构建数据和计算成本高昂,这两种方法常常被结合使用。但由于损失函数、数据格式的差异以及对辅助模型的需求,两个方法之间存在范式鸿沟,仅能通过串联的方法实现模型的训练。 清华大学最近提出将SFT与RLHF合二为一,引入了一种统一的对齐算法,称为直观微调(Intuitive Fine-Tuning,IFT) ,它以类似人类的方式直观地建立策略偏好估计,让模型在看到问题后,能够对完整答案有一个模糊的感知。相较于SFT,IFT更接近真实的策略偏好,因此在性能上达到了与SFT和RLHF结合使用相当甚至 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览