一个百度人的技术提升之路,为您提供一系列计算机视觉,自然语言处理和推荐系统等高质量技术文章,让您的碎片化时间最大价值化
今天看啥  ›  专栏  ›  深度学习基础与进阶

差分Transformer竟能消除注意力噪声

深度学习基础与进阶  · 公众号  ·  · 2024-10-28 19:11
    

文章预览

仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 Transformer 的强大实力已经在诸多大型语言模型(LLM)上得到了证明,但该架构远非完美,也有很多研究者致力于改进这一架构,比如机器之心曾报道过的  Reformer  和  Infini-Transformer 。 今天我们又将介绍另一种新型 Transformer 架构:Differential Transformer(差分 Transformer,简称 Diff Transformer)。该架构来自微软研究院和清华大学,有四位共一作者:Tianzhu Ye、Li Dong、Yuqing Xia、Yutao Sun。 论文标题:Differential Transformer 论文地址:https://arxiv.org/pdf/2410.05258 在 Hacker News 及 Twitter 等社交网络上,该论文都反响热烈,有网友表示差分 Transformer 提出的改进简单又美丽,而带来的提升又非常显著。 甚至已有开发者做出了差分 Transformer 的轻量实现! 差分 Transformer 的轻量实现,https://github.com/Jaykef/ai- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览