专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

PaperWeekly · 公众号 · 科研 · 2024-12-18 13:31

文章预览

©PaperWeekly 原创 · 作者 | 吴桐单位 | 北京通用人工智能研究院最近，已经开发出许多方法来扩展预训练的大型语言模型（LLM）的上下文长度，但它们通常需要在目标长度（>4K）进行微调，并且难以有效利用来自上下文中间部分的信息。为了解决这些问题，我们提出了 CREAM （ C ontinuity- R elativity ind E xing with g A ussian M iddle），它通过操纵位置索引来插入位置编码。除了简单之外，CREAM 还具有训练效率：它只需要在预训练的上下文窗口（e.g., LLaMa 2-4K）进行微调，并且可以将 LLM 扩展到更长的目标上下文长度（e.g., 256K）。为了确保模型更多地关注中间的信息，我们引入了一个截断高斯来鼓励在微调过程中从上下文的中间部分进行采样，从而缓解长上下文 LLM 面临的 “Lost-in-the-Middle” 问题。实验结果表明，我们的方法成功扩展了 LLaMa2-7B base 和 chat， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

自然系列 · 探寻 OA 协议价值所在（三）：专访迈阿密大学图书馆技术服务与评估总监

昨天

自然系列 · 《自然》：你的肠道菌群也有“朋友圈”

2 天前

研之成理 · 浙江大学王江伟课题组；单质金属玻璃电致塑性的微观起源

3 天前

实验万事屋 · 我师兄那样的博士生就从来不会失眠！还没看完这清华大学25.5分的m6A甲基化的Cell大子刊，他就能睡着……

3 天前

PaperWeekly · KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

6 天前

顶尖广告 · 刘亦菲《玫瑰的故事》爆火，瑞幸坐不住了！

6 月前