注册登录

专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

数据派THU · 公示 | ... · 2 天前

IDC咨询 · 发展不及预期，GenAI+Data市场趋势分 ... · 2 天前

IDC咨询 · 发展不及预期，GenAI+Data市场趋势分 ... · 2 天前

数据派THU · KDD 2024 | 快手生成式推荐 · 4 天前

今天看啥 › 专栏 › 数据派THU

将MoE塞到LoRA：一篇文章的诞生

数据派THU · 公众号 · 大数据 · 2024-09-29 17:00

文章预览

来源：PaperWeekly 本文约2800字，建议阅读 6分钟本文主要介绍一篇论文是怎么诞生。 Nothing will work unless you do. ——Maya Angelou 本文主要介绍一篇论文是怎么诞生。文章基本信息如下：论文标题： Mixture-of-Subspaces in Low-Rank Adaptation 论文链接： https://arxiv.org/pdf/2406.11909 代码链接： https://github.com/wutaiqiang/MoSLoRA 简介：在传统的 LoRA 中加入一个 Mixer 矩阵，进行混个不同子空间的信息。设计非常简单： 1、最初的想法说来也是巧合，之前有很多的文章尝试将 LoRA 和 MoE 结合起来，他们基本上都是把 LoRA 当做 MoE 的 Expert，然后塞到 MoE 结构之中，之前也介绍过一些，如文章 1 2 3 4。这些文章无疑都是将 LoRA 看作 MoE 的 expert，一来缺乏动机，二来影响了 LoRA 的可合并性，三来训练还慢。闲来与同事聊天，同事说没见过有文章把 MoE 塞到 LoRA 里面，我当时愣了一 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

数据派THU · 公示 | 清华大学大数据研究中心“RONG”奖学金获奖名单

2 天前

IDC咨询 · 发展不及预期，GenAI+Data市场趋势分析报告发布

2 天前

IDC咨询 · 发展不及预期，GenAI+Data市场趋势分析报告发布

2 天前

数据派THU · KDD 2024 | 快手生成式推荐

4 天前

财宝宝 · 不固定发，事业编，表现好就当场发钱。表现不好，一脚大长腿就踢来了-20240704192713

5 月前

AME科研时间 · 当前慢性阻塞性肺疾病的管理策略

4 月前

新闻夜航 · 樊振东突然宣布：退出！

4 月前

NE时代新能源 · 芯片，复杂E/E架构进行有限收敛的关键

3 月前

大师设计 · 顶级私人会所排名Top10：看懂富人的社交逻辑

3 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号