文章预览
仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 Transformer 的强大实力已经在诸多大型语言模型(LLM)上得到了证明,但该架构远非完美,也有很多研究者致力于改进这一架构,比如机器之心曾报道过的 Reformer 和 Infini-Transformer 。 今天我们又将介绍另一种新型 Transformer 架构:Differential Transformer(差分 Transformer,简称 Diff Transformer)。该架构来自微软研究院和清华大学,有四位共一作者:Tianzhu Ye、Li Dong、Yuqing Xia、Yutao Sun。 论文标题:Differential Transformer 论文地址:https://arxiv.org/pdf/2410.05258 在 Hacker News 及 Twitter 等社交网络上,该论文都反响热烈,有网友表示差分 Transformer 提出的改进简单又美丽,而带来的提升又非常显著。 甚至已有开发者做出了差分 Transformer 的轻量实现! 差分 Transformer 的轻量实现,https://github.com/Jaykef/ai-
………………………………