全是细节 | 聊一聊做SFT的经验

机器学习算法与自然语言处理 · 公众号 · 科技媒体 · 2024-10-12 00:00

主要观点总结

MLNLP 社区是一个国内外知名的机器学习与自然语言处理社区，其目标是促进学术界、产业界和爱好者之间的交流和进步。文章分享了大模型的 sft 训练经验，包括数据生产、评估和分析等。提到了 sft 不同于 pretrain，主要在于数据的组成形式和数据多样性。还探讨了 sft 中的幻觉问题，并给出了数据生产、数据质量和数据多样性的建议。文章还强调了 sft 评估的重要性，并提出了评估和分析的方法。最后，作者鼓励新人不要对 sft 工作有畏难情绪，并分享了自己对 sft 的理解和经验。

关键观点总结

关键观点1: MLNLP 社区简介

MLNLP 社区是一个由国内外机器学习与自然语言处理学者联合构建的学术社区，旨在促进学术、产业和爱好者之间的交流和进步。

关键观点2: sft 不同于 pretrain

sft 和 pretrain 在训练方式上无区别，主要区别在于数据的组成形式和数据多样性。

关键观点3: 幻觉问题

狭义的幻觉是模型具备某知识，但经过 alignment 处理后回答错误，需要特别优化。

关键观点4: 数据生产

需要保证数据质量，并根据实际情况拆解和构造 prompt，适当使用现有数据集和手动生产数据。

关键观点5: 数据质量

数据质量是 sft 工作最核心的内容，需要关注数据多样性和答案的多样性。

关键观点6: 评估和分析

通过对比评估、人评和机评来评估模型，结合训练数据和训练参数分析评估结果。

关键观点7: 经验分享

作者鼓励新人不要对 sft 工作有畏难情绪，分享了自己的经验和理解。

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | ybq@知乎这篇文章介绍一下大模型的 sft 如何去做。相比较于上一篇文章介绍的 pretrain ，sft 实在没有太多的技术细节和琐碎工作需要科普。因此，我会默认读者们都知道 sft 是做什么的以及如何去做一些简单的 sft 微调工作，我主要是分享一些经验技巧和 debug 的分析思路。老样子，为避免老板开了我，涉及到 agent / 复杂指令 / 长文本等相对避讳一点的话题，我会点到为止，主要聊聊大的技术方向，细节可能就不多说了，望大家见谅。背景篇这里先普及一些 sft 涉及到的基础概念，方便新人同学理解 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博