专栏名称: AIGC新智界

区块链/数字货币/比特币中文资讯，创立于2011年，200多位专栏作入驻平台，国内最大区块链资讯原创基地（公众号【原创】认证），我们为以下合作伙伴供稿：火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大模型落地，苦「最强」久矣

AIGC新智界 · 公众号 · 比特币 · 2024-12-24 17:27

文章预览

图片来源：由无界AI生成作者 | Cynthia 没有刷不了的榜，只有还没 over-fitting 的数据集；没有搞不定的第一，只有还没加够 XX 领域，XX 尺寸，XX 语言的限定词。尽管自 2012 年深度学习复苏之日起，AI 打榜就成为了行业默认惯例，但历来如此，就是真的正确吗？去年 9 月，一篇 LLM 味爆棚的反讽文章，在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》，（别搞大模型了），你只需要在测试集上预训练就够了。吐槽了市面上层出不穷的各种大模型测试榜单之外，这篇论文，直白点名了 phi-1、TinyStories 和 phi-1.5 几个大模型在明目张胆搞榜单造假。比如，使用测试集中数据提问 phi-1.5，模型会立刻给出一个精准的回复，但只要改变一个数字或者改变一下数据格式，回答立刻变得牛头不对马嘴幻觉频出。原因很简单，为了刷榜，模型对 MMLU、GSM8K、B ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博