专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

你为什么不相信 LLM 模型评测：深入评测 LLM 接口

AI科技大本营 · 公众号 · · 2024-06-20 18:14

文章预览

作者｜JioNLP Hello，大家好，我是 JioNLP。我相信，你已经看过很多机构发布的 LLM（大语言模型）的模型效果质量的评测文章了。其实呢，大家看了很多自称权威，或者不怎么权威的评测文章，基本上也就看看就完了，很少有人真的相信这些测试结果。为什么你不相信这些评测文章？因为这些模型评测都有一个共同的问题，那就是：一个 LLM 模型，凭什么你说好就是好啊？具体来讲，我们之所以不相信这些评测，原因在于：测试题目要么开源，要么黑盒不可见：很多 LLM 会利用开源的测试题来做模型训练，其实就是还没考试，就先把考试题的答案背下来了，这么测试相当于作弊，最后的 LLM 排名当然不公平。另外，也有一些数据集是黑盒的，对于看客来说，大家连测试数据题目都看不到，你就敢给模型排名了？公信力在哪里？凭什么让人信服？ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博