work-life balance.
目录
今天看啥  ›  专栏  ›  晓飞的算法工程笔记

EMNLP'24 | AlphaLoRA:升级LoRA-MoE,更精细化的专家数量选择

晓飞的算法工程笔记  · 公众号  ·  · 2025-01-03 09:41
    

文章预览

来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: AlphaLoRA: Assigning LoRA Experts Based on Layer Training Quality 论文地址: https://arxiv.org/abs/2410.10054 论文代码: https://github.com/peijunallin/alphalora 创新点 从 HT-SR ( Heavy-Tailed Self-Regularization )理论的视角来解释层级训练质量与 LoRA 专家数量之间的关系,证明训练良好的层只需要更少的 LoRA 专家。 提出了一种精细化的分配策略 AlphaLoRA ,用于分配层级专家数量。该方法是有理论基础,并且不需要训练的。 比较了几种来自 HT-SR 理论的层级权重矩阵指标,以评估层的训练质量和分配专家数量,发现 PL_Alpha_Hill 指标在评估层训练质量方面更具优势。 内容概述 尽管参数高效微调( PEFT )方法(例如适配器调优( Adapter-tuning )和低秩适应( LoRA ))在训练效率上表现良好,但由于参数数量较少, PEFT 方法在微调 LL ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览