专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
今天看啥  ›  专栏  ›  AINLPer

绝绝子!UT| 提出新型大模型微调架构:LOFIT,相比LoRA,学习参数减少200倍!!

AINLPer  · 公众号  ·  · 2024-06-05 21:31
    

文章预览

点击上方 “ AINLPer “ ,设为 星标 更多干货,第一时间送达 引言 大模型可解释性的最新研究表明,通过干预LLM的表示就可以实现需求对齐,并使其快速适应下游任务,例如通过添加偏置向量来增强模型的可信度。为此,本文作者 提出了新型大模型微调框架:LOFIT ,该框架可以识别特定任务相关的注意力头,然后将训练的偏置向量添加到这些注意力头的模型隐藏表示中,最后实现了对LLM表示的局部微调。实验表明,LoFiT 通过仅对 10% 的注意力头的表示进行微调,就 实现了与LoRA 相当的性能,且学习参数却减少了200倍 。 https://arxiv.org/pdf/2406.01563 背景介绍 当前有很多研究人员都在研究这么一个问题:如何在预训练的 Transformer 语言模型中定位模型行为(简单来说,就是找到模型中影响模型输出的关键因素)。这项研究是非常有用的,因为这样可以指导 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览