文章预览
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning SELF-GUIDE:让模型自主生产任务特定微调数据 如上为一作在中稿COLM后做的海报 研究背景 虽然大规模语言模型( LLM )在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工标注数据。然而,这类数据的收集过程既耗时又费力,对于数据稀缺的任务尤为困难。为了解决这个问题,一些研究尝试通过强大的 Teacher Model 生成训练数据,来增强 Student Model 在特定任务上的性能。然而,这种方法在成本、可扩展性和法律合规性方面仍面临诸多挑战。由此可见 ,在无法持续获得高质量人类监督信号的情况下,如何持续迭代模型的能力 ,成为了亟待解决的问题。 图 1 : SELF-GUIDE
………………………………