连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

清华微软最新力作:用物理学革新Transformer注意力,「大海捞针」精度暴涨30%!

机器学习研究组订阅  · 公众号  · AI  · 2024-10-09 17:37

文章预览

随着近些年来NLP领域研究的不断深入,我们逐渐发现,Transformer架构中出现的幻觉问题,以及各种下游任务中的性能不足,都或多或少与注意力缺陷有关。 虽然上下文窗口可以扩展,但是Transformer还是无法真正关注到有价值的信息。 最近,微软研究院和清华大学的研究人员共同提出了一种新的模型架构——Differential Transformer,不仅保留了原始Transformer中的可扩展性,也能让模型更加关注上下文中与任务相关的关键信息。 实验表明,注意力机制的改进,不仅显著提升了检索精度,还能缓解LLM的幻觉。 论文地址:https://arxiv.org/abs/2410.05258 Transformer的困境 众所周知,Transformer的核心是注意力机制,采用softmax函数来衡量序列中各种标记的重要性。然而,最近的研究表明,LLM难以从上下文中准确到检索关键信息。 比如去年斯坦福Percy Liang团队的一篇论文就指 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览