专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Quest：一种以查询为中心的长文本数据合成方法

AINLP · 公众号 · · 2024-09-25 14:29

文章预览

今天给大家带来一篇长文本数据合成方法。作者: 高超尘机构: 中国科学院信息工程研究所 Arxiv: https://arxiv.org/abs/2405.19846 大规模语言模型可接受长度愈加得到关注，就像LLaMA模型已从2k（LLaMA）增加到128k（LLaMA3.1），但是目前长文本数据匮乏且分布不均。正如下图（左）所示，对Pile语料库的分析表明，长文档主要集中在Books3数据集中，并且随着目标上下文长度的增加，分布会进一步倾斜。本文介绍一种以查询为中心的长文本数据合成方法-Quest，能够有效聚合相关但冗余度低的文档以合成长上下文数据，并且具备高度可扩展性，可构建用于持续训练的大型数据集。图1 长文本来源分布对比图，对比pile长文本分布（图左），Quest合成数据中的长文分布更均匀（图右）方法介绍在此之前，有一些基于检索增强预训练的研究，比如：REALM（基于KNN检索 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博