ICLR'24 | MiniLLM：大模型的知识蒸馏

吃果冻不吐果冻皮 · 公众号 · · 2024-09-08 14:50

文章预览

MiniLLM: Knowledge Distillation of Large Language Models 是ICLR2024上的一篇文章，作者来自清华大学交互式人工智能课题组和微软研究院。本文研究了使用知识蒸馏的方式对开源大模型进行压缩。知识蒸馏与模型压缩量化和蒸馏是两种典型的模型压缩方法，或者说是减少模型推理阶段计算代价的方法。其中，知识蒸馏将待压缩的模型作为教师模型，将体积更小的模型作为学生模型，让学生模型在教师模型的监督下进行优化，最后使用学生模型代替原本的教师模型。在大模型时代之前，知识蒸馏广泛地应用在BERT这类结构的压缩中，代表工作有DistillBERT、PKD-BERT、TinyBERT、MobileBERT。将知识蒸馏应用在生成模型的工作感觉不多。正好看到这篇工作，特来阅读一下。黑盒知识蒸馏 / 白盒知识蒸馏作者首先将大模型上的知识蒸馏工作划分为两类，黑盒知识蒸馏和白盒 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博