今天看啥  ›  专栏  ›  NLP工作站

Quest:一种以查询为中心的长文本数据合成方法

NLP工作站  · 公众号  ·  · 2024-09-23 23:00

文章预览

今天给大家带来一篇长文本数据合成方法。 作者: 高超尘 机构: 中国科学院信息工程研究所 Arxiv: https://arxiv.org/abs/2405.19846 大规模语言模型可接受长度愈加得到关注,就像LLaMA模型已从2k(LLaMA)增加到128k(LLaMA3.1),但是目前长文本数据匮乏且分布不均。 正如下图(左)所示,对Pile语料库的分析表明,长文档主要集中在Books3数据集中,并且随着目标上下文长度的增加,分布会进一步倾斜。 本文介绍一种以查询为中心的长文本数据合成方法-Quest,能够有效聚合相关但冗余度低的文档以合成长上下文数据,并且具备高度可扩展性,可构建用于持续训练的大型数据集。 图1 长文本来源分布对比图,对比pile长文本分布(图左),Quest合成数据中的长文分布更均匀(图右) 方法介绍 在此之前,有一些基于检索增强预训练的研究,比如:REALM(基于KNN检索 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览