一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

英伟达仅用380B tokens训练刷新8B模型新SoTA,剪枝和蒸馏应该这么用

深度学习自然语言处理  · 公众号  ·  · 2024-08-22 12:02

文章预览

论文:LLM Pruning and Distillation in Practice: The Minitron Approach 链接:https://d1qx31qr3h6wln.cloudfront.net/publications/minitron_tech_report.pdf 单位:nvidia 研究背景 这篇文章要解决的问题是 如何通过剪枝和蒸馏技术来压缩Llama 3.1 8B和Mistral NeMo 12B模型,分别将其参数规模减小到4B和8B 。 该问题的 研究难点 包括:如何在没有原始训练数据的情况下,通过微调教师模型来减少数据分布不匹配的问题;如何有效地进行模型剪枝和蒸馏以保持模型的准确性。 之前的研究表明,结合权重剪枝和知识蒸馏可以显著降低大型语言模型(LLM)的训练成本;现有的Minitron压缩策略已经被证明在减少模型大小和提高推理性能方面是有效的。 研究方法 这篇论文提出了使用剪枝和蒸馏技术来压缩Llama 3.1 8B和Mistral NeMo 12B模型的方法。具体来说, 教师模型微调 :由于无法访问原始训练数据,首先 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览