LoRA：大模型下游任务的低秩适应

酷酷的群 · 公众号 · · 2023-07-24 15:10

文章预览

论文标题：LoRA: Low-Rank Adaptation of Large Language Models 论文链接：https://arxiv.org/abs/2106.09685 论文来源：NVIDIA 一、概述自然语言处理中的一个重要范式是在通用域数据上进行大规模预训练，然后在特定任务或域上适配。然而随着模型规模（比如GPT-3这样规模模型的出现）越来越大，对大模型的全参数微调变得更加困难，这在存储和部署上都非常具有挑战性。目前的一些研究试图通过只微调一部分参数或为新任务学习外部模块来缓解这个问题。这样，我们只需要在进行每个任务时存储和加载少量的任务特定参数以及预训练模型，大大提高了部署时的操作效率。然而，现有的技术也存在一些问题，比如其通过扩展模型深度（adapter等方法）增加了推理延迟（inference latency），或者减少了模型可用的序列长度。更重要的是，这些方法通常无法达到微调baseline的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

小纽美国法律咨询 · 全面梳理2024年为父母申请绿卡：流程、费用及材料清单

昨天

中水电 · 风清气正迎国庆廉洁自律守底线

6 天前

Kevin在纽约 · #机场员工泄露外籍模特照片被开除# 碰到了一个较真的模特 😄，-20240929203119

1 周前

Kevin在纽约 · 你们有没有留意，自从俄乌战争爆发后，就经常在微博评论区看到的一句-20240929140614

1 周前

诉讼攻略 · 公司人格否认的法律认定与法律后果

1 周前

小众软件 · 有用！批量检测 m3u8 视频链接是否可以正常播放

3 周前