专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题?

PaperWeekly  · 公众号  · 科研  · 2024-12-18 13:31
    

文章预览

©PaperWeekly 原创 · 作者 |  吴桐 单位 |  北京通用人工智能研究院 最近,已经开发出许多方法来扩展预训练的大型语言模型(LLM)的上下文长度,但它们通常需要在目标长度(>4K)进行微调,并且难以有效利用来自上下文中间部分的信息。 为了解决这些问题,我们提出了 CREAM ( C ontinuity- R elativity ind E xing with g A ussian M iddle),它通过操纵位置索引来插入位置编码。除了简单之外,CREAM 还具有训练效率:它只需要在预训练的上下文窗口(e.g., LLaMa 2-4K)进行微调,并且可以将 LLM 扩展到更长的目标上下文长度(e.g., 256K)。 为了确保模型更多地关注中间的信息,我们引入了一个截断高斯来鼓励在微调过程中从上下文的中间部分进行采样,从而缓解长上下文 LLM 面临的 “Lost-in-the-Middle” 问题。实验结果表明,我们的方法成功扩展了 LLaMa2-7B base 和 chat, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览