今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

LLM数据合成之后训练篇

吃果冻不吐果冻皮  · 公众号  ·  · 2024-10-15 10:10

文章预览

原文:https://zhuanlan.zhihu.com/p/715155768 先对目前出现的一些后训练的数据合成方法做一个简单且不严谨的,且尽可能贴合实践场景的分类: 第一类,利用GPT4(借指强大的LLM)来直接生成pair,比如self-instruct 和evol-instrcuct等。这类方法更适合于当prompt 和response都匮乏,但是在这个场景下GPT4的效果又很好,更像是一种数据蒸馏。 第二类,利用GPT4来生成问题或者答案,更多的是有了raw data作为答案,要LLM去生成一个对应的问题,这类方法更适合于某一些特定的task,比如QA, MATH等。或者是那些,我们认为GPT4生成的答案并不满意,但我们目前手上有一些corpus,这时候我们就可以让GPT4去生成对应的问题或者prompt。因此,有一些工作就会特地在做sft的时候,加入 answer -> question的任务,让模型具有这方面指令撰写的能力,如果效果好的话,理论上就能有源源不断 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览