专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

一文逮尽知名开源大模型作弊!训题库...

AINLP  · 公众号  ·  · 2024-05-20 20:39
    

文章预览

题目:《Generative AI Research: Benchmarking Benchmark Leakage in Large Language Models》  地址:https://arxiv.org/abs/2404.18824 在揪出可能泄漏测试集(leak)这件事上, 这次作者挺不留情面的 , 对国内同胞重拳出击,把国内的知名开源模型测了一个遍,具体哪个小机灵鬼被逮到了,请耐心往下看: 前情提要: 如果你拿一些题库的输入去推大模型的base模型话,会发现他们经常一股脑就把训练过的题库吐露出来了,比如早前大家在百川上讨论过的。 目前数据提供商最值钱的数据就是题库了,国内大模型很懂得投机取巧,反正你是知识类客观题评测,我把全网的题库数据都塞进去。 实在买不到买不全的数据,我还可以用测试集的每一道题目去反向爬取互联网相关内容,爬不到原题也能找到差不多的数据,再把他们都塞进去,针对性刷题。 这就是离线测试集问题的所在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览