专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度学习与NLP

SFT洗数据,有多少细节?

深度学习与NLP  · 公众号  ·  · 2024-11-14 00:00
    

文章预览

 作者:ybq 链接:https://zhuanlan.zhihu.com/p/6497090767 最近在清洗 sft 的数据,不得不说这工作是真磨人啊,细节多到让人抓狂。可能,这就是为什么从业者们都懂得 llm 的方法论,却依然没几个团队能造出好数据训出好模型吧。 借此机会,举个例子给大家聊聊 sft 数据能有多少繁琐的细节?也算是吐槽和分享自己的日常了。 先说一下为什么都 2024 年底了,还需要清洗 sft 数据,这不应该是去年就已经完成的工作吗?因为数据会过时,去年的高质量数据不代表今年还是高质量数据。 例如,user:你会选择猫作为宠物还是狗呢? 去年的 gpt4:作为大语言模型,我无法养宠物,吧啦吧啦。 今年的 gpt4:猫吧啦吧啦,狗吧啦吧啦,虽然我没有实体,但我推荐你吧啦吧啦。 显然,在去年,过度的安全是在大家的认可和接受范围之内的,但今年只会让用户觉着无趣 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览