文章预览
夕小瑶科技说 原创 作者 | 谢年年 现在的大模型训练通常会包括两个阶段: 一是 无监督的预训练 ,即通过因果语言建模预测下一个token生成的概率。该方法无需标注数据,这意味着可以利用大规模的数据学习到语言的通用特征和模式。 二是 指令微调 ,即通过自然语言指令构建的多样任务对预训练模型进行微调,显著增强了任务泛化能力。 最近,微软与清华提出了 指令预训练 (Instruction Pre-Training)的新方法,该方法在第一阶段引入指令—响应对的数据,采用监督多任务学习来探索预训练语言模型的新途径。 指令预训练使Llama3-8B模型在部分领域上的表现甚至超越了Llama3-70B模型。 论文标题 : Instruction Pre-Training: Language Models are Supervised Multitask Learners 论文链接 : https://arxiv.org/pdf/2406.14491 github链接 : https://github.com/microsoft/LMOps 可能有同学会担心指令
………………………………