专栏名称: 李rumor
AI算法小姐姐,朋克且极客
今天看啥  ›  专栏  ›  李rumor

NExtLong|不使用长文档也能训练出来SOTA长文大模型!

李rumor  · 公众号  ·  · 2025-02-24 09:18
    

文章预览

title 作者 :高超尘、伍星 等 机构 :中国科学院信息工程研究所/小红书/清华 Arxiv :https://arxiv.org/abs/2501.12766 Huggingface :https://huggingface.co/datasets/caskcsg/NExtLong-512K-dataset 目前五个数据集累积下载次数超过1200次。 Github :https://github.com/caskcsg/longcontext/tree/main/NExtLong Longbench V2榜单 :NExtLong 8B在10B以下长文本大模型中排名第一! longbenchv2 简介 :在这篇文章中,我们提出了长文本数据合成办法NExtLong,该方法让大模型摆脱了对原生长文本数据集的强依赖,可以使用短文本数据集训练出SOTA级别的长文本大模型,并且有助于训练出任意长度且性能强大的长文本大模型。 一、背景:原生长文本数据匮乏,且现有长文数据合成方法缺少明确捕捉长依赖的机制。 长文本大模型因其强大且丰富的能力而受到了广泛关注。近来,长文本大模型的上下文长度得到了快速 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览