文章预览
图片来源:由无界AI生成 作者 | Cynthia 没有刷不了的榜,只有还没 over-fitting 的数据集; 没有搞不定的第一,只有还没加够 XX 领域,XX 尺寸,XX 语言的限定词。 尽管自 2012 年深度学习复苏之日起,AI 打榜就成为了行业默认惯例,但历来如此,就是真的正确吗? 去年 9 月,一篇 LLM 味爆棚的反讽文章,在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》,(别搞大模型了),你只需要在测试集上预训练就够了。 吐槽了市面上层出不穷的各种大模型测试榜单之外,这篇论文,直白点名了 phi-1、TinyStories 和 phi-1.5 几个大模型在明目张胆搞榜单造假。 比如,使用测试集中数据提问 phi-1.5,模型会立刻给出一个精准的回复,但只要改变一个数字或者改变一下数据格式,回答立刻变得牛头不对马嘴幻觉频出。 原因很简单,为了刷榜,模型对 MMLU、GSM8K、B
………………………………