专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

一文逮尽知名开源大模型作弊！训题库...

AINLP · 公众号 · · 2024-05-20 20:39

文章预览

题目：《Generative AI Research: Benchmarking Benchmark Leakage in Large Language Models》地址：https://arxiv.org/abs/2404.18824 在揪出可能泄漏测试集（leak）这件事上，这次作者挺不留情面的，对国内同胞重拳出击，把国内的知名开源模型测了一个遍，具体哪个小机灵鬼被逮到了，请耐心往下看：前情提要：如果你拿一些题库的输入去推大模型的base模型话，会发现他们经常一股脑就把训练过的题库吐露出来了，比如早前大家在百川上讨论过的。目前数据提供商最值钱的数据就是题库了，国内大模型很懂得投机取巧，反正你是知识类客观题评测，我把全网的题库数据都塞进去。实在买不到买不全的数据，我还可以用测试集的每一道题目去反向爬取互联网相关内容，爬不到原题也能找到差不多的数据，再把他们都塞进去，针对性刷题。这就是离线测试集问题的所在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

高分子科学前沿 · 香港科技大学于涵、颜河《EES》：烷氧基取代聚合物受体有效降低全聚合物太阳能电池能量损失，实现高效室外/室内光伏多功能应用

7 月前

囧囧搞笑笑话 · “跑步内衣带开了，C罩的我尴尬到想钻进地缝…”这太悲伤了哈哈哈哈哈

4 月前

创伙伴 · 现在上海的消费水平，变得我都不认识了

4 月前

龙视新闻在线 · 全球最快高铁列车，亮相！

1 月前