NExtLong｜不使用长文档也能训练出来SOTA长文大模型！

李rumor · 公众号 · · 2025-02-24 09:18

文章预览

title 作者：高超尘、伍星等机构：中国科学院信息工程研究所/小红书/清华 Arxiv ：https://arxiv.org/abs/2501.12766 Huggingface ：https://huggingface.co/datasets/caskcsg/NExtLong-512K-dataset 目前五个数据集累积下载次数超过1200次。 Github ：https://github.com/caskcsg/longcontext/tree/main/NExtLong Longbench V2榜单：NExtLong 8B在10B以下长文本大模型中排名第一！ longbenchv2 简介：在这篇文章中，我们提出了长文本数据合成办法NExtLong，该方法让大模型摆脱了对原生长文本数据集的强依赖，可以使用短文本数据集训练出SOTA级别的长文本大模型，并且有助于训练出任意长度且性能强大的长文本大模型。一、背景：原生长文本数据匮乏，且现有长文数据合成方法缺少明确捕捉长依赖的机制。长文本大模型因其强大且丰富的能力而受到了广泛关注。近来，长文本大模型的上下文长度得到了快速 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博