专栏名称: SparksofAGI
人工智能前沿论文解读
今天看啥  ›  专栏  ›  SparksofAGI

LLM参数比你想象的更冗余:砍掉四分之一参数还能保持95%的性能

SparksofAGI  · 公众号  ·  · 2024-03-09 17:52

文章预览

ShortGPT: Layers in Large Language Models are  More Redundant Than You Expect L LM参数比你想象的更冗余:砍掉四分之一参数还能保持95%的性能 ‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍ 本文作者发现LLMs中的许多层具有高度相似性,且某些层对网络功能的贡献微乎其微。基于此发现,他们定义了一个衡量LLMs中每层重要性的指标—— 块影响力(Block Influence, BI) ,并提出了一种简单的 剪枝方 法ShortGPT:基于BI分数直接删除冗余层 。实验结果显示,这种方法在模型剪枝方面显著优于现有的sota,例如,在LLaMA 2-13B模型中删除最后10层(总共40层的 25% )后,MMLU基准测试的结果仅从55.0下降到52.2(保留了 95% 的性能)。此外,通过移除最后22层(总共40层的55%),得到一个参数为5.6B的模型,仍然能在无需任何微调时在MMLU上获得47.2的分数,甚至超过了LLaMA 2-7B模型。并且作者提出的方法 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览