LLM参数比你想象的更冗余：砍掉四分之一参数还能保持95%的性能

SparksofAGI · 公众号 · · 2024-03-09 17:52

文章预览

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect L LM参数比你想象的更冗余：砍掉四分之一参数还能保持95%的性能 ‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍ 本文作者发现LLMs中的许多层具有高度相似性，且某些层对网络功能的贡献微乎其微。基于此发现，他们定义了一个衡量LLMs中每层重要性的指标—— 块影响力（Block Influence, BI），并提出了一种简单的剪枝方法ShortGPT：基于BI分数直接删除冗余层。实验结果显示，这种方法在模型剪枝方面显著优于现有的sota，例如，在LLaMA 2-13B模型中删除最后10层（总共40层的 25% ）后，MMLU基准测试的结果仅从55.0下降到52.2（保留了 95% 的性能）。此外，通过移除最后22层（总共40层的55%），得到一个参数为5.6B的模型，仍然能在无需任何微调时在MMLU上获得47.2的分数，甚至超过了LLaMA 2-7B模型。并且作者提出的方法 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · #开源项目推荐# smail, Temporary email-20241001121709

3 天前

爱可可-爱生活 · [CV]《MaskBit: Embedding-free Ima-20240929060024

6 天前

中科院物理所 · 高精度GPTFF无机材料通用力场AI模型的实现 | 进展

6 天前

中科院物理所 · 太阳也会自转吗？| No.428

1 周前

爱可可-爱生活 · 通过因果建模的视角，提出使用 Gumbel-Max 结构因果模型-20240927052110

1 周前

王叔随笔 · 怎样识别一个项目能否赚钱？

2 周前