专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

NAACL 2024 | 参考文本在摸鱼?评估任务或许并不需要Ground Truth

PaperWeekly  · 公众号  · 科研  · 2024-09-06 18:08

文章预览

©PaperWeekly 原创 · 作者 |  Shuqian Sheng 单位 |  上海交通大学 研究方向 |  自然语言处理 面对文本评估任务时,人们总是习惯性地想找到一个标准答案作为参考。这源自于一个很自然的思路,和参考相似的答案大概率是一个好的答案。许多文本评估方法的实现都是基于这个直觉,例如经典的 BLEU 和 METEOR,例如近年来基于 embedding 相似性提出的 BERTScore 和 MoverScore。这类方法,可以称为 Ref-free 方法。 Ref-based 方法使用广泛,相信大家都早有耳闻并应用实际研究中。然而,近两年大模型飞速发展,让我们不禁要问: 与参考文本的相似度,真的能够反映生成文本的质量吗?如果修改了评估标准呢? 如果这个任务本没有标准答案呢?更重要的是,我们真的有能力为每一个新的任务都创建对应的参考文本吗? 近年来蓬勃兴起的无参考评估方法,即 Ref-free 方法 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览