专栏名称: 机器学习社区
公众号后台回复:加群,参与技术讨论,专注前沿人工智能、机器学习、Python开发
今天看啥  ›  专栏  ›  机器学习社区

聊聊大模型SFT数据清洗过程有多繁琐

机器学习社区  · 公众号  ·  · 2024-11-20 08:12

文章预览

↓ 推荐关注↓ 前段时间在清洗 sft 的数据,不得不说这工作是真磨人啊,细节多到让人抓狂。可能,这就是为什么从业者们都懂得 llm 的方法论,却依然没几个团队能造出好数据训出好模型吧。 借此机会,举个例子给大家聊聊 sft 数据能有多少繁琐的细节?也算是吐槽和分享自己的日常了。 先说一下为什么都 2024 年底了,还需要清洗 sft 数据,这不应该是去年就已经完成的工作吗?因为数据会过时,去年的高质量数据不代表今年还是高质量数据。 例如,user:你会选择猫作为宠物还是狗呢? 去年的大语言模型:作为大语言模型,我无法养宠物,吧啦吧啦。 今年的大语言模型:猫吧啦吧啦,狗吧啦吧啦,虽然我没有实体,但我推荐你吧啦吧啦。 显然,在去年,过度的安全是在大家的认可和接受范围之内的,但今年只会让用户觉着无趣,因此这条数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览