将 MOE 塞到 LoRA: 一篇文章的诞生

包包算法笔记 · 公众号 · · 2024-09-09 18:00

文章预览

作者丨Taki@知乎来源丨https://zhuanlan.zhihu.com/p/704761512 本文主要介绍一篇论文是怎么诞生。文章的基本信息是：标题： Mixture-of-Subspaces in Low-Rank Adaptation 链接： https://arxiv.org/pdf/2406.11909 代码： https://github.com/wutaiqiang/MoSLoRA 简介：在传统的 LoRA 中加入一个 Mixer 矩阵，进行混个不同子空间的信息。设计非常简单：最初的想法说来也是巧合，之前有很多的文章尝试将 LoRA 和 MoE 结合起来，他们基本上都是把 LoRA 当做 MoE 的 Expert，然后塞到 MoE 结构之中，之前也介绍过一些，如文章 https://zhuanlan.zhihu.com/p/676782109、 https://zhuanlan.zhihu.com/p/676557458、 https://zhuanlan.zhihu.com/p/676268097、https://zhuanlan.zhihu.com/p/675186369 。这些文章无疑都是将 LoRA 看作 MoE 的 expert，一来缺乏动机，二来影响了 LoRA 的可合并性，三来训练还慢。闲来与同事聊天，同事说没见过有文章把 Mo ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

星球研究所 · 这里，是中国最年轻的土地！

昨天

中国国家地理 · 奔赴山海，不负热爱！

2 天前

中国国家地理 · 收藏这份属于冬日的氛围感！

3 天前

中国国家地理 · 来四川凉山感受冬日温泉的治愈！

4 天前

雨果网 · 深圳大卖要翻身了？重整计划公布

6 天前

有颜有货 · 「30字要诀」帮你轻松解决生产管理问题！

4 月前

贵州省发改委 · 政策解读 | 贵州省交通运输领域设备更新行动方案

2 月前