文章预览
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect L LM参数比你想象的更冗余:砍掉四分之一参数还能保持95%的性能 本文作者发现LLMs中的许多层具有高度相似性,且某些层对网络功能的贡献微乎其微。基于此发现,他们定义了一个衡量LLMs中每层重要性的指标—— 块影响力(Block Influence, BI) ,并提出了一种简单的 剪枝方 法ShortGPT:基于BI分数直接删除冗余层 。实验结果显示,这种方法在模型剪枝方面显著优于现有的sota,例如,在LLaMA 2-13B模型中删除最后10层(总共40层的 25% )后,MMLU基准测试的结果仅从55.0下降到52.2(保留了 95% 的性能)。此外,通过移除最后22层(总共40层的55%),得到一个参数为5.6B的模型,仍然能在无需任何微调时在MMLU上获得47.2的分数,甚至超过了LLaMA 2-7B模型。并且作者提出的方法
………………………………