文章预览
作者 |JioNLP Hello,大家好,我是 JioNLP。 我相信,你已经看过很多机构发布的 LLM(大语言模型) 的模型效果质量的评测文章了。 其实呢,大家看了很多自称权威,或者不怎么权威的评测文章,基本上也就看看就完了,很少有人真的相信这些测试结果。 为什么你不相信这些评测文章? 因为这些模型评测都有一个共同的问题,那就是: 一个 LLM 模型,凭什么你说好就是好啊? 具体来讲,我们之所以不相信这些评测,原因在于: 测试题目要么开源,要么黑盒不可见 :很多 LLM 会利用开源的测试题来做模型训练,其实就是还没考试,就先把考试题的答案背下来了,这么测试相当于作弊,最后的 LLM 排名当然不公平。另外,也有一些数据集是黑盒的,对于看客来说,大家连测试数据题目都看不到,你就敢给模型排名了?公信力在哪里?凭什么让人信服?
………………………………