专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

Quest:一种以查询为中心的长文本数据合成方法

AINLP  · 公众号  ·  · 2024-09-25 14:29

文章预览

今天给大家带来一篇长文本数据合成方法。 作者: 高超尘 机构: 中国科学院信息工程研究所 Arxiv: https://arxiv.org/abs/2405.19846 大规模语言模型可接受长度愈加得到关注,就像LLaMA模型已从2k(LLaMA)增加到128k(LLaMA3.1),但是目前长文本数据匮乏且分布不均。 正如下图(左)所示,对Pile语料库的分析表明,长文档主要集中在Books3数据集中,并且随着目标上下文长度的增加,分布会进一步倾斜。 本文介绍一种以查询为中心的长文本数据合成方法-Quest,能够有效聚合相关但冗余度低的文档以合成长上下文数据,并且具备高度可扩展性,可构建用于持续训练的大型数据集。 图1 长文本来源分布对比图,对比pile长文本分布(图左),Quest合成数据中的长文分布更均匀(图右) 方法介绍 在此之前,有一些基于检索增强预训练的研究,比如:REALM(基于KNN检索 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览