文章预览
本文 约2500字 ,建议阅读 5分钟 本文将介绍一种简单但有效的用于改善长度外推的定位编码方案:BiPE。 在这项工作中, 我们利用语言序列的内在分段特性,设计了一种新的位置编码方法来达到更好的长度外推效果,称为双层位置编码(BiPE)。 对于每个位置,我们的 BiPE 融合了段内编码和段间编码。段内编码通过绝对位置编码标识段内位置,并帮助模型捕捉其中的语义信息。段间编码指定段索引,通过相对位置编码建模段间关系,旨在提高外推能力。 理论分析表明,这种位置信息的解耦使学习更加有效。实证结果也表明,我们的 BiPE 在各种文本模态的广泛任务中具有优越的长度外推能力。这一研究已被 ICML 2024 接收。 论文标题: Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation 论文链接: https://arxiv.org/abs/2401.16421 代码链接: http
………………………………