文章预览
论文:LLM Pruning and Distillation in Practice: The
Minitron Approach 链接:https://d1qx31qr3h6wln.cloudfront.net/publications/minitron_tech_report.pdf 单位:nvidia 研究背景 这篇文章要解决的问题是 如何通过剪枝和蒸馏技术来压缩Llama 3.1 8B和Mistral NeMo 12B模型,分别将其参数规模减小到4B和8B 。 该问题的 研究难点 包括:如何在没有原始训练数据的情况下,通过微调教师模型来减少数据分布不匹配的问题;如何有效地进行模型剪枝和蒸馏以保持模型的准确性。 之前的研究表明,结合权重剪枝和知识蒸馏可以显著降低大型语言模型(LLM)的训练成本;现有的Minitron压缩策略已经被证明在减少模型大小和提高推理性能方面是有效的。 研究方法 这篇论文提出了使用剪枝和蒸馏技术来压缩Llama 3.1 8B和Mistral NeMo 12B模型的方法。具体来说, 教师模型微调 :由于无法访问原始训练数据,首先
………………………………