今日arXiv最热NLP大模型论文：清华大学提出IFT对齐算法，打破SFT与RLHF局限性

夕小瑶科技说 · 公众号 · · 2024-05-29 14:16

文章预览

夕小瑶科技说原创作者 | 谢年年监督微调（Supervised Fine-Tuning, SFT）和基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）是预训练后提升语言模型能力的两大基础流程，其目标是使模型更贴近人类的偏好和需求。考虑到监督微调的有效性有限，以及RLHF构建数据和计算成本高昂，这两种方法常常被结合使用。但由于损失函数、数据格式的差异以及对辅助模型的需求，两个方法之间存在范式鸿沟，仅能通过串联的方法实现模型的训练。清华大学最近提出将SFT与RLHF合二为一，引入了一种统一的对齐算法，称为直观微调（Intuitive Fine-Tuning，IFT），它以类似人类的方式直观地建立策略偏好估计，让模型在看到问题后，能够对完整答案有一个模糊的感知。相较于SFT，IFT更接近真实的策略偏好，因此在性能上达到了与SFT和RLHF结合使用相当甚至 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博