文章预览
论文标题: QLoRA: Efficient Finetuning of Quantized LLMs 论文作者: Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer 项目地址: https://github.com/artidoro/qlora 笔者: 曼城周杰伦 审核:Los 导读: QLoRA是来自华盛顿大学的Tim Dettmers大神提出的模型量化算法,应用于LLM训练,降低显存需求,其足以在单个48GB显存的GPU上对65B进行微调,同时能保持16位全量微调的效果。其核心是在LoRA的基础上作出优化: 1)新定义了一种4位标准浮点数NF4的最优数据类型; 2)双重量化,对普通参数和量化常数分别量化,进一步减少缓存占用; 3)分页优化器,在显存过高时以部分内存替代显存。 通过上述三种核心机制,能够使得原本需要780GB显存才能全量微调65B的模型,现在利用QLoRA仅仅只需要在48G的消费级显卡上就能完成性能接近的微调任务。 ©️【深蓝AI】编译 由于QLORA是在LoRA的基
………………………………