专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

不再大海捞针!Loong:贴合真实场景的长文本评测基准

AINLP  · 公众号  ·  · 2024-08-07 21:39
    

文章预览

论文标题: Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA 论文链接: https://arxiv.org/abs/2406.17419 代码链接: https://github.com/MozerWang/Loong 简单谈一下这个工作的出发点: (以下是作者对这篇工作出发点的讨论)  目前最常用的长文本评估工作是“大海捞针”,几乎所有发布的长文本模型都会在该任务上评测,但这种评测方法只评测了长文本建模能力的表层--知识定位能力,并且在实际测试过程中,Prompt 的差异对模型的表现影响较大,不能准确地评估模型真实长文本能力。从任务形式上来讲,大海捞针要求模型在长文本中定位出少量与答案相关的片段,这与真实应用场景是不贴合、有偏差的。从评测表现上来看,各家大模型已经将“大海捞针”刷饱和了,几乎都是满分表现,并不能反映出模型之间的差距。并且由于任务形式单一,在训 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览