专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

ACL 2024 | SMU、NUS提出参数高效微调增强剂,显著提升大语言模型性能

PaperWeekly  · 公众号  · 科研  · 2024-06-25 13:40
    

文章预览

©PaperWeekly 原创 · 作者 | Zhihao Wen 单位 | 新加坡管理大学、新加坡国立大学 研究方向 | 大语言模型的参数高效微调 论文标题: SIBO:  A Simple Booster for Parameter-Efficient Fine-Tuning 论文地址: https://arxiv.org/pdf/2402.11896 代码链接: https://github.com/Jaygagaga/SIBO 简介 基于 Transformer 架构的大型语言模型的深度(例如,BERT-large 有 24 层,LLaMA-7B 有 32 层,LLaMA 65B 有 80 层)导致了过平滑(Over-smoothing)问题,影响性能和可扩展性,而全模型微调需要大量资源。为解决这些问题,参数高效微调技术 PEFT(如 Adapter 和 LoRA)被提出,但没有解决过平滑。 本文由来自新加坡管理大学和新加坡国立大学的作者提出了 SIBO,一种简单增强参数高效微调(PEFT)的方法,用于改进大型语言模型。SIBO 通过在 PEFT 模块的输入中注入初始残差,减少了 Transformer 模型中的过平滑问题。实 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览