专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

2024 年了,你的长文本训练数据真的够长吗?

AINLP  · 公众号  ·  · 2024-07-01 22:01

文章预览

论文标题: Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models (文章已被 ACL 2024 接收) 论文链接: https://arxiv.org/abs/2405.17915 代码链接: https://github.com/October2001/ProLong 图1: 尽管训练数据具有相同的 32k 上下文长度,具有更长依赖性的样本能够更有效的增强大语言模型的长上下文建模能力。 长文本建模能力是大语言模型(LLMs)的关键能力之一,在长文档处理、长对话历史或大型代码库这些超长输入场景下不可或缺。因此,近期的研究重点关注如何扩长 LLMs 的上下文窗口。尽管通过简单地对 LLMs 进行长文本语料的抽样微调是可行的,但这并不能保证其长上下文建模能力得到改进。其中一些经过微调的 LLMs 即便获得了相当低的困惑度(perplexity)评分,仍可能在有效处理和利用长输入上下文信息方面存在困难 [1,2]。这可能会导致在各 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览