专栏名称: AIGC新智界
区块链/数字货币/比特币中文资讯,创立于2011年,200多位专栏作入驻平台,国内最大区块链资讯原创基地(公众号【原创】认证),我们为以下合作伙伴供稿:火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网
目录
相关文章推荐
今天看啥  ›  专栏  ›  AIGC新智界

大模型落地,苦「最强」久矣

AIGC新智界  · 公众号  · 比特币  · 2024-12-24 17:27
    

文章预览

图片来源:由无界AI生成 作者 | Cynthia 没有刷不了的榜,只有还没 over-fitting 的数据集; 没有搞不定的第一,只有还没加够 XX 领域,XX 尺寸,XX 语言的限定词。 尽管自 2012 年深度学习复苏之日起,AI 打榜就成为了行业默认惯例,但历来如此,就是真的正确吗? 去年 9 月,一篇 LLM 味爆棚的反讽文章,在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》,(别搞大模型了),你只需要在测试集上预训练就够了。 吐槽了市面上层出不穷的各种大模型测试榜单之外,这篇论文,直白点名了 phi-1、TinyStories 和 phi-1.5 几个大模型在明目张胆搞榜单造假。 比如,使用测试集中数据提问 phi-1.5,模型会立刻给出一个精准的回复,但只要改变一个数字或者改变一下数据格式,回答立刻变得牛头不对马嘴幻觉频出。 原因很简单,为了刷榜,模型对 MMLU、GSM8K、B ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览