文章预览
从目前的实践结果来看,从大模型通过裁剪、蒸馏等手段获取小模型,效果是比较好的,同时成本也相比直接从零预训练要低廉得多,而且也免去了大量收集数据和清洗数据的工作。 今天就集中讲一下模型裁剪的工作。 裁剪 + 蒸馏 论文:《Compact Language Models via Pruning and Knowledge Distillation》 & 《LLM Pruning and Distillation in Practice: The Minitron Approach》 时间:2024年7月 & 2024年8月 机构:NVIDIA 这两篇实际上是一个内容,后一篇是前一篇的整合和完整版,增加了基于Llama-3.1和Mistral的实验。《Compact》更像是比较混杂的实验报告。 英伟达提出的方法简单来说就是通过对已有的大模型进行裁剪,并对裁剪后的小模型使用蒸馏训练进行效果恢复(效果恢复的训练称之为retrian)。这么做可以以 < 3%的retrain训练量,获得比从零训练的小模型更好的效果。 Nemotron-4 15B裁
………………………………