专栏名称: AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
今天看啥  ›  专栏  ›  AINLPer

大模型评测指南-生成篇

AINLPer  · 公众号  ·  · 2024-11-29 11:17
    

文章预览

点击上方 “ AINLPer “ ,设为 星标 更多干货,第一时间送达 | 转自:AI纵横谈 进行评测之前,首先要明确评测对象:是评测大模型生成文本的质量,还是评测大模型应用(例如RAG)的性能?两者之间存在一定关联性,但又不尽相同。本文介绍评测大模型生成能力的指标和方法。 传统统计指标 理论上,所有传统的文本生成评价指标都能用于评测大模型,如BLEU、ROUGE等。但是,这些统计指标既没有融合语义信息,也不能反映推理能力。 以BLEU为例,通过计算生成文本和金标准之间的重合的n-gram占生成文本的比例,衡量生成文本(例如机器翻译)的准确性。但是,n-gram之间的匹配度真能准确表现语义相似度吗? ROUGE也面临同样问题。事实上,OpenAI在22年发表的RLHF的经典论文 Learning to summarize from human feedback 在摘要中就指出ROUGE只是对生成文本质量的粗略 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览