NeurIPS 2024 | Transformer长度外推，全新位置编码DAPE大幅提升模型性能

机器学习研究组订阅 · 公众号 · AI · 2024-10-12 18:55

文章预览

本篇论文已被NeurIPS 2024接收，论文第一作者郑传阳来自香港中文大学，共同作者包括新加波国立大学高伊杭，诺亚实验室石涵、任晓哲、蒋欣、李震国，香港中文大学黄敏斌、李靖瑶，香港大学熊璟，香港浸会大学吴国宝，香港中文大学李煜在当今的人工智能领域，Transformer 模型已成为解决诸多自然语言处理任务的核心。然而，Transformer 模型在处理长文本时常常遇到性能瓶颈。传统的位置编码方法，如绝对位置编码（APE）和相对位置编码（RPE），虽然在许多任务中表现良好，但其固定性限制了其在处理超长文本时的适应性和灵活性。为了应对这一挑战，提出了一种全新的位置编码方法：Data-Adaptive Positional Encoding（DAPE）。DAPE 通过动态调整位置编码，使其能够根据输入上下文和学习到的固定先验进行自适应调整。这种创新方法不仅保留了局部和反 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · //@高飞:原博提出要做“full stack”，完全同意，现在-20241124093621

昨天

阿昆的科研日常 · AI时代，我可以停更了…

昨天

阿昆的科研日常 · AI时代，我可以停更了…

昨天

爱可可-爱生活 · //@爱可可-爱生活:AI编程正在推动软件开发从“编码-实现”模-20241123091817

2 天前

宝玉xp · //@笑叹词穷·:你小子还有点洞察 //@评论罗伯特:以后写代码-20241120132004

5 天前

爱可可-爱生活 · 【电子印章工具：Draw Stamp Utils，一个用Java-20241119133950

6 天前