文章预览
大模型智能|分享 来源 | 量子位 作者 | 克雷西 “Scaling Law不是万金油”——关于大模型表现,华为又提出了新理论。 他们发现,一些现象无法用Scaling Law来解释,进而开展了更加深入的研究。 根据实验结果,他们认为Transformer模型的成绩,与记忆力高度相关。 具体来说,他们发现Scaling Law的缺陷主要有这两种表现: 一是一些小模型的表现和大一些的模型相当甚至更好,如参数量只有2B的MiniCPM,表现与13B的Llama接近。 二是在训练大模型时,如果过度训练,模型表现不会继续增加,反而呈现出了U型曲线。 经过深入研究和建模,团队结合了 Hopfield联想记忆模型 ,提出了大模型表现的新解释。 有人评价说,联想记忆是人类所使用的一种记忆方法,现在发现大模型也会用,可以说是AI理解力的跃迁。 不过需要指出的是,这项研究虽有挑战之意,但并非
………………………………