EMNLP'24 ｜ AlphaLoRA：升级LoRA-MoE，更精细化的专家数量选择

晓飞的算法工程笔记 · 公众号 · · 2025-01-03 09:41

文章预览

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: AlphaLoRA: Assigning LoRA Experts Based on Layer Training Quality 论文地址： https://arxiv.org/abs/2410.10054 论文代码： https://github.com/peijunallin/alphalora 创新点从 HT-SR （ Heavy-Tailed Self-Regularization ）理论的视角来解释层级训练质量与 LoRA 专家数量之间的关系，证明训练良好的层只需要更少的 LoRA 专家。提出了一种精细化的分配策略 AlphaLoRA ，用于分配层级专家数量。该方法是有理论基础，并且不需要训练的。比较了几种来自 HT-SR 理论的层级权重矩阵指标，以评估层的训练质量和分配专家数量，发现 PL_Alpha_Hill 指标在评估层训练质量方面更具优势。内容概述尽管参数高效微调（ PEFT ）方法（例如适配器调优（ Adapter-tuning ）和低秩适应（ LoRA ））在训练效率上表现良好，但由于参数数量较少， PEFT 方法在微调 LL ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博