文章预览
title 作者 :高超尘、伍星 等 机构 :中国科学院信息工程研究所/小红书/清华 Arxiv :https://arxiv.org/abs/2501.12766 Huggingface :https://huggingface.co/datasets/caskcsg/NExtLong-512K-dataset 目前五个数据集累积下载次数超过1200次。 Github :https://github.com/caskcsg/longcontext/tree/main/NExtLong Longbench V2榜单 :NExtLong 8B在10B以下长文本大模型中排名第一! longbenchv2 简介 :在这篇文章中,我们提出了长文本数据合成办法NExtLong,该方法让大模型摆脱了对原生长文本数据集的强依赖,可以使用短文本数据集训练出SOTA级别的长文本大模型,并且有助于训练出任意长度且性能强大的长文本大模型。 一、背景:原生长文本数据匮乏,且现有长文数据合成方法缺少明确捕捉长依赖的机制。 长文本大模型因其强大且丰富的能力而受到了广泛关注。近来,长文本大模型的上下文长度得到了快速
………………………………