Quest：一种以查询为中心的长文本数据合成方法

NLP工作站 · 公众号 · · 2024-09-23 23:00

文章预览

今天给大家带来一篇长文本数据合成方法。作者: 高超尘机构: 中国科学院信息工程研究所 Arxiv: https://arxiv.org/abs/2405.19846 大规模语言模型可接受长度愈加得到关注，就像LLaMA模型已从2k（LLaMA）增加到128k（LLaMA3.1），但是目前长文本数据匮乏且分布不均。正如下图（左）所示，对Pile语料库的分析表明，长文档主要集中在Books3数据集中，并且随着目标上下文长度的增加，分布会进一步倾斜。本文介绍一种以查询为中心的长文本数据合成方法-Quest，能够有效聚合相关但冗余度低的文档以合成长上下文数据，并且具备高度可扩展性，可构建用于持续训练的大型数据集。图1 长文本来源分布对比图，对比pile长文本分布（图左），Quest合成数据中的长文分布更均匀（图右）方法介绍在此之前，有一些基于检索增强预训练的研究，比如：REALM（基于KNN检索 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博