文章预览
论文标题: Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models (文章已被 ACL 2024 接收) 论文链接: https://arxiv.org/abs/2405.17915 代码链接: https://github.com/October2001/ProLong 图1: 尽管训练数据具有相同的 32k 上下文长度,具有更长依赖性的样本能够更有效的增强大语言模型的长上下文建模能力。 长文本建模能力是大语言模型(LLMs)的关键能力之一,在长文档处理、长对话历史或大型代码库这些超长输入场景下不可或缺。因此,近期的研究重点关注如何扩长 LLMs 的上下文窗口。尽管通过简单地对 LLMs 进行长文本语料的抽样微调是可行的,但这并不能保证其长上下文建模能力得到改进。其中一些经过微调的 LLMs 即便获得了相当低的困惑度(perplexity)评分,仍可能在有效处理和利用长输入上下文信息方面存在困难 [1,2]。这可能会导致在各
………………………………