专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
目录
今天看啥  ›  专栏  ›  专知

【CMU博士论文】长度可外推的Transformer,149页pdf

专知  · 公众号  ·  · 2024-07-01 17:00
    

文章预览

自从Transformer语言模型问世以来,自然语言处理领域取得了显著进展 。不幸的是,训练此类模型的复杂性随着序列长度的增加而成倍增长,这使得资源有限的GPU使用者难以进行长序列长度的预训练。解决这一限制的一种方法是允许模型在测试期间处理更长的序列而无需进一步的参数更新。这种能力称为长度外推,然而它并非易事,且面临诸多挑战。 首先,经典的Transformer语言模型依赖于每个位置的定位嵌入来提供位置信息;在外推阶段遇到未见过的位置时,这可能会出现问题。其次,预训练在短序列上的模型在直接处理长序列时会遇到长度分布转变问题。现有方法在长序列上的困惑度保持稳定一直是个挑战。最后,长度外推能力的评估通常仅依赖自然语言的困惑度;这可能无法全面反映情况,因为自然语言高度局部化,而下游任务如长上下文问答 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览