专栏名称: AI寒武纪
Attention Is All You Need
今天看啥  ›  专栏  ›  AI寒武纪

Andrej Karpathy:GPT-4o Mini 挑战行业极限的背后

AI寒武纪  · 公众号  ·  · 2024-07-22 14:31

文章预览

AI模型的新标杆:GPT-4o Mini挑战行业极限,直接上图,三连看 GPT-4o Mini挑战行业极限背后意味着什么呢?且听AI大神解读 Andrej Karpathy : 大语言模型的尺寸竞争正在倒退... 我打赌我们会看到非常非常小的模型“思考”得非常好且可靠。很可能存在一个GPT-2参数的设置,大多数人会认为GPT-2是“聪明的”。当前模型如此大的原因是因为我们在训练期间仍然非常浪费——我们要求它们记住互联网,令人惊讶的是,它们确实做到了,并且可以例如背诵常见数字的SHA哈希值,或回忆非常深奥的事实。(实际上,大语言模型在记忆方面非常出色,质量上远胜于人类,有时只需要一次更新就能记住大量细节,并且长时间记住)。但想象一下,如果你要在闭卷考试中背诵互联网的任意段落,给出前几个词。这是当今模型的标准(预)训练目标。更难的是,因为思考 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览