专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

2024 年了，你的长文本训练数据真的够长吗？

AINLP · 公众号 · · 2024-07-01 22:01

文章预览

论文标题： Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models (文章已被 ACL 2024 接收) 论文链接： https://arxiv.org/abs/2405.17915 代码链接： https://github.com/October2001/ProLong 图1: 尽管训练数据具有相同的 32k 上下文长度，具有更长依赖性的样本能够更有效的增强大语言模型的长上下文建模能力。长文本建模能力是大语言模型（LLMs）的关键能力之一，在长文档处理、长对话历史或大型代码库这些超长输入场景下不可或缺。因此，近期的研究重点关注如何扩长 LLMs 的上下文窗口。尽管通过简单地对 LLMs 进行长文本语料的抽样微调是可行的，但这并不能保证其长上下文建模能力得到改进。其中一些经过微调的 LLMs 即便获得了相当低的困惑度（perplexity）评分，仍可能在有效处理和利用长输入上下文信息方面存在困难 [1,2]。这可能会导致在各 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

田俊国讲坛 · 【11月26日】富足人生的五大账户共修 & 实战营

2 天前

田俊国讲坛 · 田俊国：勤能补拙，智难救懒

3 天前

田俊国讲坛 · 田俊国：人生如棋局，格局大者胜，一个人格局大不大，看这4点

5 天前

质量与认证 · 快来报名！统计过程控制和测量系统分析培训班

6 天前

广西师乐 · 背过就拿分！教师资格证面试试讲万能常用语！

6 天前

广西师乐 · 背过就拿分！教师资格证面试试讲万能常用语！

6 天前

诗词天地 · 会员丨斜阳流水推蓬坐，云影天光映眼前

2 月前

诗词天地 · 会员丨斜阳流水推蓬坐，云影天光映眼前

2 月前

中国认证认可 · CCAA公布最新认证人员名单

1 月前