华为最新研究挑战Scaling Law

大模型智能 · 公众号 · · 2024-05-28 00:00

文章预览

大模型智能｜分享来源 | 量子位作者 | 克雷西 “Scaling Law不是万金油”——关于大模型表现，华为又提出了新理论。他们发现，一些现象无法用Scaling Law来解释，进而开展了更加深入的研究。根据实验结果，他们认为Transformer模型的成绩，与记忆力高度相关。具体来说，他们发现Scaling Law的缺陷主要有这两种表现：一是一些小模型的表现和大一些的模型相当甚至更好，如参数量只有2B的MiniCPM，表现与13B的Llama接近。二是在训练大模型时，如果过度训练，模型表现不会继续增加，反而呈现出了U型曲线。经过深入研究和建模，团队结合了 Hopfield联想记忆模型，提出了大模型表现的新解释。有人评价说，联想记忆是人类所使用的一种记忆方法，现在发现大模型也会用，可以说是AI理解力的跃迁。不过需要指出的是，这项研究虽有挑战之意，但并非 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博