文章预览
作者丨乔杨 好困 来源丨新智元 编辑丨极市平台 随着近些年来NLP领域研究的不断深入,我们逐渐发现,Transformer架构中出现的幻觉问题,以及各种下游任务中的性能不足,都或多或少与注意力缺陷有关。 虽然上下文窗口可以扩展,但是Transformer还是无法真正关注到有价值的信息。 最近,微软研究院和清华大学的研究人员共同提出了一种新的模型架构——Differential Transformer,不仅保留了原始Transformer中的可扩展性,也能让模型更加关注上下文中与任务相关的关键信息。 实验表明,注意力机制的改进,不仅显著提升了检索精度,还能缓解LLM的幻觉。 论文地址: https://arxiv.org/abs/2410.05258 Transformer的困境 众所周知,Transformer的核心是注意力机制,采用softmax函数来衡量序列中各种标记的重要性。然而,最近的研究表明,LLM难以从上下文中准确到检索关键信
………………………………