专栏名称: AINLPer

一个专注自然语言处理（NLP）方向的公众号。机器学习（ML）、深度学习（DL）、自然语言处理相关模型理解、热门论文（Paper）分享分析、pytorch、C++、Python、Java ...

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大模型评测指南-生成篇

AINLPer · 公众号 · · 2024-11-29 11:17

文章预览

点击上方 “ AINLPer “ ，设为星标更多干货，第一时间送达 | 转自：AI纵横谈进行评测之前，首先要明确评测对象：是评测大模型生成文本的质量，还是评测大模型应用（例如RAG）的性能？两者之间存在一定关联性，但又不尽相同。本文介绍评测大模型生成能力的指标和方法。传统统计指标理论上，所有传统的文本生成评价指标都能用于评测大模型，如BLEU、ROUGE等。但是，这些统计指标既没有融合语义信息，也不能反映推理能力。以BLEU为例，通过计算生成文本和金标准之间的重合的n-gram占生成文本的比例，衡量生成文本（例如机器翻译）的准确性。但是，n-gram之间的匹配度真能准确表现语义相似度吗？ ROUGE也面临同样问题。事实上，OpenAI在22年发表的RLHF的经典论文 Learning to summarize from human feedback 在摘要中就指出ROUGE只是对生成文本质量的粗略 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博