今天看啥  ›  专栏  ›  包包算法笔记

大模型“题库刷榜”排行榜,Qwen模型位居榜首

包包算法笔记  · 公众号  ·  · 2024-09-12 10:00

文章预览

如果你拿一些题库的输入去推大模型的base模型话,会发现他们经常一股脑就把训练过的题库吐露出来了,比如早前大家在百川上讨论过的: 目前文本类数据提供商手里最值钱的数据就是题库了,国内大模型很懂得投机取巧,反正你是知识类客观题评测,我把全网的题库数据都塞进去。 实在买不到买不全的数据,我还可以用测试集的每一道题目去反向爬取互联网相关内容,爬不到原题也能找到差不多的数据,再把他们都塞进去,针对性刷题。 这就是离线测试集问题的所在了,这对大模型来说,相当于开卷考试。 近期,大规模语言模型在多个自然语言处理的基准测试中取得了显著的进展。这些模型之所以能够取得成功,部分原因在于它们通过对互联网上收集的庞大语料库进行广泛的预训练。然而,预训练语料库可能因为开发者有意或无意的数据收 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览