文章预览
题目:《Generative AI Research: Benchmarking Benchmark Leakage in Large Language Models》 地址:https://arxiv.org/abs/2404.18824 在揪出可能泄漏测试集(leak)这件事上, 这次作者挺不留情面的 , 对国内同胞重拳出击,把国内的知名开源模型测了一个遍,具体哪个小机灵鬼被逮到了,请耐心往下看: 前情提要: 如果你拿一些题库的输入去推大模型的base模型话,会发现他们经常一股脑就把训练过的题库吐露出来了,比如早前大家在百川上讨论过的。 目前数据提供商最值钱的数据就是题库了,国内大模型很懂得投机取巧,反正你是知识类客观题评测,我把全网的题库数据都塞进去。 实在买不到买不全的数据,我还可以用测试集的每一道题目去反向爬取互联网相关内容,爬不到原题也能找到差不多的数据,再把他们都塞进去,针对性刷题。 这就是离线测试集问题的所在
………………………………