注册
登录
专栏名称:
AINLPer
一个专注自然语言处理(NLP)方向的公众号。机器学习(ML)、深度学习(DL)、自然语言处理相关模型理解、热门论文(Paper)分享分析、pytorch、C++、Python、Java ...
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
普象工业设计小站
·
诡异又美丽!自带特效的祭祀舞蹈,如此惊艳,可 ...
·
昨天
创意铺子
·
美哭了!大人、小孩都想要的圣诞礼物,不到百元 ...
·
2 天前
普象工业设计小站
·
这双脚上移动的“电热毯”暖得刚刚好!跟着北方 ...
·
2 天前
普象工业设计小站
·
过年送礼不用愁!正品茅台199元入手4瓶,不买血亏
·
2 天前
今天看啥
›
专栏
›
AINLPer
大模型评测指南-生成篇
AINLPer
·
公众号
· · 2024-11-29 11:17
文章预览
点击上方 “ AINLPer “ ,设为 星标 更多干货,第一时间送达 | 转自:AI纵横谈 进行评测之前,首先要明确评测对象:是评测大模型生成文本的质量,还是评测大模型应用(例如RAG)的性能?两者之间存在一定关联性,但又不尽相同。本文介绍评测大模型生成能力的指标和方法。 传统统计指标 理论上,所有传统的文本生成评价指标都能用于评测大模型,如BLEU、ROUGE等。但是,这些统计指标既没有融合语义信息,也不能反映推理能力。 以BLEU为例,通过计算生成文本和金标准之间的重合的n-gram占生成文本的比例,衡量生成文本(例如机器翻译)的准确性。但是,n-gram之间的匹配度真能准确表现语义相似度吗? ROUGE也面临同样问题。事实上,OpenAI在22年发表的RLHF的经典论文 Learning to summarize from human feedback 在摘要中就指出ROUGE只是对生成文本质量的粗略 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
普象工业设计小站
·
诡异又美丽!自带特效的祭祀舞蹈,如此惊艳,可惜再也看不到现场
昨天
创意铺子
·
美哭了!大人、小孩都想要的圣诞礼物,不到百元仪式感拉满!
2 天前
普象工业设计小站
·
这双脚上移动的“电热毯”暖得刚刚好!跟着北方人选袜子包稳的!
2 天前
普象工业设计小站
·
过年送礼不用愁!正品茅台199元入手4瓶,不买血亏
2 天前
丁香园
·
华西第 5 湘雅第 9,最新临床医学专业排名发布,有你的母校吗?
6 月前
钉钉黑板报
·
越秀地产、申通、雅戈尔,这三家企业如何用钉钉直播玩出“花”?
4 月前
基小律
·
邀请函·杭州丨“不良资产的投资机遇和挑战”闭门研讨会(8月30日周五下午)
3 月前
知音真实故事
·
亲爱的朋友们,大家好哇! 我有个特别重要的事儿想提醒你们,怕再不说就来不及了。 上个月,一个叫刘闯的年轻人,带来了他在北京三甲医院当男护工的见闻实录,让我们见识到大富豪是怎么“花钱买命”的,可谓是大开眼界。 很多粉丝在文后留言,“太真实了”,还不断催更:“这样的医院故事,能不能多来点?” 我们主打一个听劝。这回刘闯带来的故事,很特别——他看到有病人居然敢调戏女医生,还有
2 月前