文章预览
MiniLLM: Knowledge Distillation of Large Language Models 是ICLR2024上的一篇文章,作者来自清华大学交互式人工智能课题组和微软研究院。 本文研究了使用知识蒸馏的方式对开源大模型进行压缩。 知识蒸馏与模型压缩 量化和蒸馏是两种典型的模型压缩方法,或者说是减少模型推理阶段计算代价的方法。其中,知识蒸馏将待压缩的模型作为教师模型,将体积更小的模型作为学生模型,让学生模型在教师模型的监督下进行优化,最后使用学生模型代替原本的教师模型。在大模型时代之前,知识蒸馏广泛地应用在BERT这类结构的压缩中,代表工作有DistillBERT、PKD-BERT、TinyBERT、MobileBERT。将知识蒸馏应用在生成模型的工作感觉不多。正好看到这篇工作,特来阅读一下。 黑盒知识蒸馏 / 白盒知识蒸馏 作者首先将大模型上的 知识蒸馏工作划分为两类 ,黑盒知识蒸馏和白盒
………………………………