文章预览
点击上方 “ AINLPer “ ,设为 星标 更多干货,第一时间送达 | 转自:AI纵横谈 进行评测之前,首先要明确评测对象:是评测大模型生成文本的质量,还是评测大模型应用(例如RAG)的性能?两者之间存在一定关联性,但又不尽相同。本文介绍评测大模型生成能力的指标和方法。 传统统计指标 理论上,所有传统的文本生成评价指标都能用于评测大模型,如BLEU、ROUGE等。但是,这些统计指标既没有融合语义信息,也不能反映推理能力。 以BLEU为例,通过计算生成文本和金标准之间的重合的n-gram占生成文本的比例,衡量生成文本(例如机器翻译)的准确性。但是,n-gram之间的匹配度真能准确表现语义相似度吗? ROUGE也面临同样问题。事实上,OpenAI在22年发表的RLHF的经典论文 Learning to summarize from human feedback 在摘要中就指出ROUGE只是对生成文本质量的粗略
………………………………