文章预览
MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 夕小瑶科技说 作者 | 谢年年 LLMs已经进入了长序列时代。众多的LLMs已经发布支持从32K到2M tokens的长序列窗口。 不过,面对如此庞大的输入,我们不禁要问:这些模型真的能够吃透超长文本,捕捉到其中的精华信息吗? 为了解答这一疑问,滑铁卢大学的学者们精心打造了一套名为LongICLBench的基准测试,专门用来评估LLMs在长上下文理解方面的能力。这套基准专注于极端标签分类中的长上下文学习,涵盖了六个难度不一的数据集,标签数量从28到174类不等,输入长度则从2K到50K tokens都有。它要求LLMs必
………………………………