文章预览
英伟达 研究团队提出了一份全面报告,详细介绍了如何使用剪枝和蒸馏技术将 Llama 3.1 8B 和 Mistral NeMo 12B 模型分别压缩至4B和8B参数。他们探索了两种不同的剪枝策略: 深度剪枝和联合隐藏/注意力/MLP(宽度)剪枝。 研究人员使用 LM Evaluation Harness 中的常用基准测试对压缩结果进行了评估。这些模型通过 NeMo Aligner 进行对齐,并在指令调优版本中进行了测试。 这种方法成功地从Llama 3.1 8B产生了一个令人信服的 4B模型 ,并从Mistral NeMo 12B产生了一个 最先进的Mistral-NeMo-Minitron-8B (简称 MN-Minitron-8B )模型。 研究团队发现,在 没有访问原始数据 的情况下,对教师模型在蒸馏数据集上进行轻微的微调是有益的。这一发现为在有限资源条件下优化大型语言模型提供了新的思路。 为了促进社区合作和进一步研究,研究团队在 Hugging Face 平台上开源了他们的 基础
………………………………