文章预览
©PaperWeekly 原创 · 作者 | Zhihao Wen 单位 | 新加坡管理大学、新加坡国立大学 研究方向 | 大语言模型的参数高效微调 论文标题: SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning 论文地址: https://arxiv.org/pdf/2402.11896 代码链接: https://github.com/Jaygagaga/SIBO 简介 基于 Transformer 架构的大型语言模型的深度(例如,BERT-large 有 24 层,LLaMA-7B 有 32 层,LLaMA 65B 有 80 层)导致了过平滑(Over-smoothing)问题,影响性能和可扩展性,而全模型微调需要大量资源。为解决这些问题,参数高效微调技术 PEFT(如 Adapter 和 LoRA)被提出,但没有解决过平滑。 本文由来自新加坡管理大学和新加坡国立大学的作者提出了 SIBO,一种简单增强参数高效微调(PEFT)的方法,用于改进大型语言模型。SIBO 通过在 PEFT 模块的输入中注入初始残差,减少了 Transformer 模型中的过平滑问题。实
………………………………