专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

ACL'24 | 微调大模型前，重写SFT数据

关于NLP那些你不知道的事 · 公众号 · · 2024-10-12 08:00

文章预览

微调大模型前，如何重写SFT数据？作者：张义策文章地址：https://zhuanlan.zhihu.com/p/710594520 Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning 论文地址：https://arxiv.org/abs/2402.13669 这是ACL24上的一篇长文。作者来自浙江大学、Sea AI Labs和腾讯。文章提出的方法比较简单。为什么要重写SFT数据？问题：文章指出现有的大模型一般具备较好的general instruction-following abilities，但是在specific downstream tasks上可能表现不佳。为此，我们需要在特定任务上对大模型进行有监督的微调（supervised fine-tuning, SFT）。然而，这种微调在提高模型在特定任务上能力的同时，常会损害模型通用的指令遵循能力。解决方案：文章指出上述问题的原因是，特定任务的数据集和大模型之间存在分布上的差异。为此，文章提出了一种名为self-distillation fine-tuning（SDFT）的方法。名 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博