专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
今天看啥  ›  专栏  ›  AI科技大本营

你为什么不相信 LLM 模型评测:深入评测 LLM 接口

AI科技大本营  · 公众号  ·  · 2024-06-20 18:14
    

文章预览

作者 |JioNLP Hello,大家好,我是 JioNLP。 我相信,你已经看过很多机构发布的 LLM(大语言模型) 的模型效果质量的评测文章了。 其实呢,大家看了很多自称权威,或者不怎么权威的评测文章,基本上也就看看就完了,很少有人真的相信这些测试结果。 为什么你不相信这些评测文章? 因为这些模型评测都有一个共同的问题,那就是: 一个 LLM 模型,凭什么你说好就是好啊? 具体来讲,我们之所以不相信这些评测,原因在于: 测试题目要么开源,要么黑盒不可见 :很多 LLM 会利用开源的测试题来做模型训练,其实就是还没考试,就先把考试题的答案背下来了,这么测试相当于作弊,最后的 LLM 排名当然不公平。另外,也有一些数据集是黑盒的,对于看客来说,大家连测试数据题目都看不到,你就敢给模型排名了?公信力在哪里?凭什么让人信服? ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览